Методика инициализации веса в нейронных сетях

В этом блоге мы узнаем о важности техники инициализации веса в нейронной сети. Мы также рассмотрим проблему, вызванную неправильной инициализацией весов в нейронной сети. Эта статья написана в предположении, что читатель уже знаком с концепцией нейронной сети, весом, смещением, функциями активации, прямым и обратным распространением и т. Д.

В методах регрессии, таких как линейная и логистическая регрессия, мы инициализируем веса равными нулю или некоторому случайному значению, но тот же метод оказывается неэффективным для нейронных сетей. Далее мы уточним наше утверждение и обсудим новые техники инициализации весов.

Нулевая инициализация:

Инициализация всех весов нулями заставляет нейроны изучать одни и те же функции во время обучения.

Фактически, любая схема постоянной инициализации будет работать очень плохо. Рассмотрим нейронную сеть с двумя скрытыми блоками и предположим, что мы инициализируем все смещения равными 0, а веса - некоторой константой α. Если мы продвинем вперед распространение входа (x 1, x 2) в этой сети, на выходе обоих скрытых модулей будет relu ( αx 1 + αx 2). Таким образом, оба скрытых юнита будут иметь одинаковое влияние на стоимость, что приведет к одинаковым градиентам. Таким образом, оба нейрона будут развиваться симметрично на протяжении всего обучения, эффективно препятствуя обучению разных нейронов разным вещам.

Случайная инициализация:

Присваивать весам случайные значения лучше, чем просто 0. Но если веса инициализируются высокими значениями или очень низкими значениями, мы сталкиваемся с двумя следующими проблемами: -

(i) Если веса инициализируются очень низкими значениями, мы сталкиваемся с проблемой исчезающего градиента. Рассмотрим случай, когда каждый вес инициализируется немного меньшим, чем единичная матрица.

Это упрощается до y ^ = W [L] 0,5 ^ {L −1} x , а значения активации a [l] экспоненциально уменьшаются с l. Когда эти активации используются для обратного распространения, это приводит к проблеме исчезающего градиента. Градиенты стоимости по отношению к параметрам слишком малы, что приводит к сходимости стоимости до того, как она достигнет минимального значения.

(ii) Если веса инициализируются очень высокими значениями, мы сталкиваемся с проблемой взрывающегося градиента. Рассмотрим случай, когда каждый вес инициализируется немного выше, чем единичная матрица.

Это упрощается до y ^ = W [L] 1.5 ^ {L −1} x , а значения a [l] экспоненциально увеличиваются с l. Когда эти активации используются для обратного распространения, это приводит к проблеме взрывного градиента. То есть градиенты стоимости по параметрам слишком велики. Это приводит к колебаниям стоимости около минимального значения.

Теперь нам понятно, почему мы не используем ранее упомянутые методы инициализации весов в нейронной сети. Далее мы изучим новую технику инициализации весов.

Новая методика инициализации:

Чтобы не дать градиентам активации сети исчезнуть или взорваться, мы будем придерживаться следующих практических правил:

среднее активаций должно быть нулевым.
Дисперсия активаций должна оставаться одинаковой на всех уровнях.

В соответствии с вышеупомянутыми пунктами в 2015 году He et al. (2015) предложили инициализацию весов с учетом активации (для ReLu), которая смогла решить эту проблему. ReLu и дырявый ReLu также решают проблему исчезающего градиента.

Нормальная инициализация:

Когда ваша нейронная сеть активирована ReLU, инициализация He является одним из методов, которые вы можете выбрать, чтобы довести дисперсию этих выходных данных примерно до единицы (He et al., 2015).

W ~ N (0, σ) | Мы просто умножаем случайную инициализацию на указанное выше значение.

Существуют также некоторые другие методы, помимо инициализации He, которые сравнительно лучше старых и часто используются.

Инициализация Xavier Normal:

Когда ваша нейронная сеть активирована Tanh или сигмоида, вы можете выбрать метод Xavier Normal для инициализации веса.

W ~ N (0, σ) | Мы просто умножаем случайную инициализацию на указанное выше значение.

Эти методы служат хорошей отправной точкой для инициализации и снижают вероятность появления или исчезновения градиентов. Они не устанавливают веса ни больше ни меньше. Таким образом, градиенты не исчезают и не взрываются слишком быстро. Они помогают избежать медленной сходимости, а также гарантируют, что мы не будем отклоняться от минимумов. Существуют и другие варианты вышеперечисленного, где основной задачей снова является минимизация разброса параметров.

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Tutorial Angular Startup Productivity Python Programming Neural Networks Computer Vision Javascript Tips AWS Education Open Source Learning NLP Mlops