Машинное обучение обучается, вычисляя разницу между фактическим и прогнозируемым значением (ошибкой) и стремясь минимизировать этот расчет. Если прогнозы нашей модели слишком сильно отклоняются от фактического значения, она имеет тенденцию давать большое число. Этот большой результат итеративно минимизируется функцией оптимизации. Однако в этой истории мы рассмотрим функцию потерь вместо функции оптимизации.

Способ вычисления этой разницы между фактическими и прогнозируемыми значениями заключается в использовании функции потерь. Термин «функция потерь», также известный как «функция затрат» или «функция ошибок», пытается оценить, насколько хорошо наш алгоритм справляется с данные. Существуют различные типы функций потерь. Как правило, мы классифицируем их на основе проблем, с которыми мы имеем дело, а именно проблем классификации и регрессии.

Регрессия

- Среднеквадратическая ошибка

Среднеквадратическая ошибка обычно используется как функция потерь для задач регрессии. Он определяется как среднее квадратов разностей между прогнозируемыми и фактическими значениями. Это значение даст положительные значения, так как эта формула берет квадрат вычитаний. Благодаря этим вещам (возведение в квадрат) прогнозы, которые далеки от фактических значений, сильно наказываются по сравнению с менее отклоненными прогнозами.

Преимущества:

  • В виде квадратного уравнения, что означает отсутствие локальных минимумов и получение только глобальных минимумов.
  • Штрафуйте модель за большие ошибки, поскольку мы возводим их в квадрат.

Недостатки:

  • Чувствителен или неустойчив к выбросам. Это вызвано тем, что MSE наказывает прогнозы с большими ошибками, в то время как выбросы, как правило, имеют очень большое или очень маленькое значение.

Поскольку у MSE есть этот недостаток, он будет страдать при работе с довольно большим и широким диапазоном данных. В этом случае мы могли бы использовать среднеквадратичную логарифмическую ошибку (MSLE).

Как следует из названия, сначала вычисляется логарифм фактических и прогнозируемых значений, а затем вычисляется среднеквадратическая ошибка.

- Средняя абсолютная ошибка

В то время как MSE дает положительное значение, возводя число в квадрат, с другой стороны, средняя абсолютная ошибка (MAE) дает положительное число, абсолютизируя его. MAE вычисляет среднюю сумму абсолютных различий между прогнозами и фактическим значением.

Преимущества:

  • По сравнению с MSE, MAE более устойчив к выбросам.

Недостатки:

  • Вычислительно затратный, поскольку он более сложен по сравнению с квадратичной ошибкой.
  • Могут быть локальные минимумы, так как это не квадратичная форма.

- Хубер Лосс

Потеря Хубера представляет собой своего рода комбинацию как MSE, так и MAE. Сначала он принимает квадратное уравнение, а затем преобразует его в линейное уравнение.

Дельта-значение действует как параметр, который позволяет решить, следует ли использовать квадратное или линейное уравнение. Если абсолютное значение меньше дельты, будет использоваться квадратное уравнение. В противном случае будет использоваться линейное уравнение. Другими словами, если есть выброс, абсолютное значение, вероятно, будет больше, чем дельта, и будет использоваться линейное уравнение (MAE). Ключевым моментом при использовании Hubber Loss является выбор правильного значения дельты, поскольку это помогает определить критерии выброса.

Преимущества:

  • Устойчив к выбросам
  • Нет локальных оптимумов, если мы установим правильное значение дельты

Недостатки:

  • Необходимо оптимизировать значение дельты, что является итеративным процессом.

Классификация

- Перекрестная энтропия

Перекрестная энтропия является наиболее часто используемой функцией потерь для задач классификации. Это значение увеличивается по мере того, как прогнозируемая вероятность отличается от фактической метки. Другими словами, он измеряет разницу между двумя распределениями вероятностей.

Для проблемы бинарной классификации мы можем использовать бинарную перекрестную энтропию. Прогнозируемая вероятность сравнивается с фактической меткой (0 или 1). Когда фактическая метка равна 0, мы можем использовать вторую половину уравнения и наоборот. Эта потеря перекрестной энтропии снижает вероятность, основанную на разнице с ожидаемым значением. Проще говоря, уверенные, но неверные прогнозы будут оштрафованы.

Для проблемы многоклассовой классификации мы можем использовать многоклассовую перекрестную энтропию, также известную как категориальная перекрестная энтропия. Нам нужно убедиться, что метка будет одной горячей кодировкой, что означает, что истинная метка будет представлена ​​​​как 1, а остальные как 0. Например, если у нас есть проблема классификации 3-х классов, где первый экземпляр принадлежит 1-му классу , второй экземпляр принадлежит 2-му классу, а третий экземпляр принадлежит 3-му классу, фактическая цель (y) может быть представлена ​​как y=[[1,0,0],[0,1,0], [0,0,1]].

Другой способ решить проблему многоклассовой классификации — использовать разреженную многоклассовую перекрестную энтропию. Формула такая же, как и для перекрестной энтропии нескольких классов, но мы используем одну целочисленную единицу для представления меток вместо одного горячего кодирования. В примере из предыдущего абзаца фактическая цель (y) может быть представлена ​​как y = [1, 2, 3].

Преимущество по сравнению с MCCE заключается в том, что он намного эффективнее в вычислениях, поскольку не содержит много нулей, как одно горячее кодирование.

Недостаток заключается в том, что он не может представлять классификацию с несколькими метками, где каждый экземпляр может принадлежать более чем к одному классу. Для этого сценария будет предпочтительна перекрестная энтропия с несколькими классами.

- Потеря шарнира

Другая функция потерь для бинарной классификации, петлевая потеря, в основном связана с мягкой границей SVM. Эта потерянная функция включает запас или расстояние от границы классификации в расчет стоимости. Даже если новые наблюдения классифицируются правильно, они могут повлечь за собой штраф, если отступ от границы решения недостаточно велик. Потеря шарнира растет.

Обратите внимание, что эта функция потерь работает с меткой (-1, 1). Если у нас есть метка (0, 1), мы можем изменить ее, прежде чем использовать эту функцию потерь. Если есть разница между фактическими и прогнозируемыми значениями, мы получим большой убыток.

Краткое содержание

Мы рассмотрели некоторые из часто используемых функций потерь в глубоком обучении. Для задачи регрессии обычно используется MSE, но она страдает выбросами. С другой стороны, MAE более устойчив к выбросам по сравнению с MSE, но требует больших вычислительных ресурсов. Потеря Huber поставляется с решением, которое может решить эти две проблемы, поскольку это комбинация MSE и MAE.

Для задачи бинарной классификации обычно используется бинарная перекрестная потеря энтропии. Для задач мультиклассовой классификации можно использовать многоклассовые кроссэнтропийные потери. Но если мы избегаем многих нулевых значений ради стоимости вычислений, мы можем использовать разреженную многоклассовую перекрестную энтропию, которая принимает целые числа вместо одного горячего кодированного значения. Однако, если у нас есть проблема классификации с несколькими метками, мы можем использовать кросс-энтропию с несколькими классами, поскольку разреженная кросс-энтропия с несколькими классами не может с ними справиться.

Использованная литература:

Спасибо за прочтение!