Привет всем, На этой неделе мы собираемся узнать о DBSCAN.

DBSCAN — Пространственная кластеризация приложений с шумом на основе плотности. Это метод неконтролируемого машинного обучения, который работает с кластеризацией/группировкой данных на основе нескольких факторов, таких как значение эпсилон, минимальные точки, основные точки и т. д.

Давайте сначала попробуем понять, что такое DBSCAN, а затем попробуем реализовать то же самое с небольшим набором данных, за которым следуют несколько, а именно. Так что да, это повестка дня, которой мы собираемся следовать. Позволяет глубоко погрузиться.

DBSCAN: этот алгоритм рассматривает кластеры как области с высокой плотностью, разделенные областями с меньшей плотностью. Основным компонентом этого алгоритма являются CORE SAMPLES, которые представляют собой точки, присутствующие в высокой плотности. Таким образом, Кластер на самом деле представляет собой комбинацию/коллекцию от нескольких до многих образцов керна, которые близки к ним по расстоянию, и от нескольких до многих некерновых образцов, которые близки к образцу керна. Таким образом, параметрами алгоритма являются min_samples и eps. Более высокое значение min_samples или меньшее значение EPS указывают на более высокую плотность, необходимую для формирования кластера.

И одно важное замечание: любая выборка керна является частью кластера по определению, и любая неосновная выборка находится на расстоянии не менее eps от любой выборки керна, а если нет, то они считаются выбросами. Эти выбросы остаются в виде точек, и вокруг этих точек не формируется кластер. Подробнее здесь.

Теперь давайте перейдем к любимой части — реализации.

Набор данных загружается здесь. Давайте посмотрим на набор данных

Теперь давайте закодируем и импортируем DBSCAN. Я аннотировал в коде построчно, что лучше всего объясняет, что делает каждая строка кода,

давайте посмотрим на этикетки

Давайте посмотрим на core_samples

Расчет количества кластеров

Наконец-то визуализируем этикетки..

Черные точки — это выбросы/зашумленные точки, в то время как другие упомянутые цвета — это точки данных, которые находятся в самой точке core_sample.

Ну, это на сегодня. Я надеюсь, что эта статья помогла вам понять DBSCAN и его реализацию на небольшом наборе данных. Пожалуйста, не стесняйтесь делиться своими отзывами, чтобы я мог стать лучше, и я буду рад связаться с вами на моем Linkedin. Спасибо, увидимся в следующей статье!!