DBSCAN — Техника неконтролируемой кластеризации

Привет всем, На этой неделе мы собираемся узнать о DBSCAN.

DBSCAN — Пространственная кластеризация приложений с шумом на основе плотности. Это метод неконтролируемого машинного обучения, который работает с кластеризацией/группировкой данных на основе нескольких факторов, таких как значение эпсилон, минимальные точки, основные точки и т. д.

Давайте сначала попробуем понять, что такое DBSCAN, а затем попробуем реализовать то же самое с небольшим набором данных, за которым следуют несколько, а именно. Так что да, это повестка дня, которой мы собираемся следовать. Позволяет глубоко погрузиться.

DBSCAN: этот алгоритм рассматривает кластеры как области с высокой плотностью, разделенные областями с меньшей плотностью. Основным компонентом этого алгоритма являются CORE SAMPLES, которые представляют собой точки, присутствующие в высокой плотности. Таким образом, Кластер на самом деле представляет собой комбинацию/коллекцию от нескольких до многих образцов керна, которые близки к ним по расстоянию, и от нескольких до многих некерновых образцов, которые близки к образцу керна. Таким образом, параметрами алгоритма являются min_samples и eps. Более высокое значение min_samples или меньшее значение EPS указывают на более высокую плотность, необходимую для формирования кластера.

И одно важное замечание: любая выборка керна является частью кластера по определению, и любая неосновная выборка находится на расстоянии не менее eps от любой выборки керна, а если нет, то они считаются выбросами. Эти выбросы остаются в виде точек, и вокруг этих точек не формируется кластер. Подробнее здесь.

Теперь давайте перейдем к любимой части — реализации.

Набор данных загружается здесь. Давайте посмотрим на набор данных

Теперь давайте закодируем и импортируем DBSCAN. Я аннотировал в коде построчно, что лучше всего объясняет, что делает каждая строка кода,

давайте посмотрим на этикетки

Давайте посмотрим на core_samples

Расчет количества кластеров

Наконец-то визуализируем этикетки..

Черные точки — это выбросы/зашумленные точки, в то время как другие упомянутые цвета — это точки данных, которые находятся в самой точке core_sample.

Ну, это на сегодня. Я надеюсь, что эта статья помогла вам понять DBSCAN и его реализацию на небольшом наборе данных. Пожалуйста, не стесняйтесь делиться своими отзывами, чтобы я мог стать лучше, и я буду рад связаться с вами на моем Linkedin. Спасибо, увидимся в следующей статье!!

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Tutorial Angular Startup Productivity Python Programming Computer Vision Neural Networks Education Open Source Javascript Tips AWS NLP Learning Developer