Расстояния в машинном обучении

Существует множество методов расчета расстояний в машинном обучении. Здесь мы собираемся обсудить некоторые из них.

Евклидово расстояние
Маханта расстояние
расстояние Минковского
Расстояние Хэмминга
Косинусное расстояние и косинусное сходство

Евклидово расстояние

Это расстояние между x и y в размере n. Здесь мы вычисляем расстояние d между точками данных p1 и p2.

код:

from sklearn.metrics.pairwise import euclidean_distances
X = [[0, 1], [1, 1]]
#distance between rows of X
euclidean_distances(X, X)
#get distance to origin
euclidean_distances(X, [[0, 0]])
output:
array([[1.        ],
       [1.41421356]])

Маханта расстояние

Это сумма абсолютных разностей всех координат. Предположим, нам нужно указать кому-то расстояние между A и B. Итак, здесь мы скажем, что нужно пройти 3 квартала прямо и еще 3 влево, тогда расстояние составит 6 кварталов.

Одна вещь, которую необходимо упомянуть, это то, что мы не можем идти по диагонали здесь.

Уравнение

код:

import math
p1 = [4, 0]
p2 = [6, 6]
distance = math.sqrt( ((p1[0]-p2[0])**2)+((p1[1]-p2[1])**2) )
print(distance)
output:
6.324555320336759

расстояние Минковского

Это расстояние для измерения сходства между точками A и B в пространстве нормированных векторов. Есть 2 термина векторное пространство, нормированное векторное пространство, давайте вкратце.

векторное пространство. Это набор векторов, которые можно складывать вместе и умножать на числа, как скаляр.
Нормированное векторное пространство. Это векторное пространство над действительными или комплексными числами, на котором определена норма (в пространстве, где расстояния могут быть представлены в виде вектора, имеющего длину).

если увидеть формулу есть две вещи

если p = 1, это становится расстоянием Маханты
если p = 2, то расстояние становится Эклюдовым.

X1 = [0,1,1,0,1,0,1,1,1]

X2 = [1,1,1,0,1,0,0,1,0]

код:

from scipy.spatial import distance
distance.minkowski([0,1,1,0,1,0,1,1,1], [1,1,1,0,1,0,0,1,0], 1)
output:
3

Расстояние Хэмминга

Он используется для измерения расстояния в текстах. Здесь мы берем логический вектор, чтобы узнать больше о расстоянии Хэмминга. Допустим, у нас есть два логических вектора X1, X2.

Расстояние Хэмминга(X1, X2) = нет. мест, где двоичные значения различаются

код:

from scipy.spatial import distance
distance.hamming(['a','b','c','d'], ['d', 'b','c', 'd'])
code:
0.25

Косинусное расстояние и косинусное сходство

Косинусное сходство измеряет сходство двух или более документов независимо от их размера. Он использовал косинусное расстояние для вычисления сходства.

Косинусное подобие определяется как

Косинусное расстояние = 1 – косинусное сходство

Математически он измеряет косинус угла между двумя векторами, спроецированными в многомерном пространстве.

Итак, какое значение полезно для определения чего?

cos(0) = 1 , cos(360) = 1 (есть сходство)

cos(90) = 0, cos(270) = 0 (есть лишь несколько сходств: незначительно)

cos(180) = -1 (совсем не похоже)

код:

from scipy.spatial import distance
distance.cosine([1, 0, 0], [0, 1, 0])
output:
1.0

записная книжка прилагается здесь.

Спасибо за прочтение, советы приветствуются!!!

Использованная литература:

Подобие косинусов — Понимание математики и того, как она работает? (с Python)
Косинусное сходство — это метрика, используемая для измерения того, насколько похожи документы независимо от их размера. Математически…www.machinelearningplus.com

Объяснение расстояния Минковского
Иногда мы хотим измерить, насколько вещи похожи друг на друга или насколько они различаются. Бывает не только…www.mikulskibartosz.name

Как измерять расстояния в машинном обучении
Все зависит от точки зренияв сторону datascience.com

https://towardsdatascience.com/importance-of-distance-metrics-in-machine-learning-modelling-e51395ffe60d

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Typescript Computer Science Data Tech Development CSS HTML Programming Languages Startup Productivity Python Programming Tutorial Angular Neural Networks Computer Vision Open Source Javascript Tips AWS Education NLP Learning Mlops