Arhn - архитектура программирования

Как обучить нейронную сеть с помощью Q-Learning

Я только что реализовал Q-Learning без нейронных сетей, но я застрял в реализации их с помощью нейронных сетей.

Я дам вам псевдокод, показывающий, как реализовано мое Q-Learning:

train(int iterations)
    buffer = empty buffer
    for i = 0 while i < iterations:

         move = null
         if random(0,1) > threshold:
             move = random_move()                 
         else
             move = network_calculate_move()

         input_to_network = game.getInput()
         output_of_network = network.calculate(input_to_network)

         game.makeMove(move)
         reward = game.getReward()

         maximum_next_q_value = max(network.calculate(game.getInput()))

         if reward is 1 or -1:            //either lost or won
             output_of_network[move] = reward
         else:
             output_of_network[move] = reward + discount_factor * max


         buffer.add(input_to_network, output_of_network)
         if buffer is full: 
             buffer.remove_oldest()
             train_network()


train_network(buffer b):
     batch = b.extract_random_batch(batch_size) 
     for each input,output in batch:
          network.train(input, output, learning_rate)  //one forward/backward pass

Моя проблема сейчас в том, что этот код работает с размером буфера меньше 200. Для любого буфера больше 200 мой код больше не работает, поэтому у меня есть несколько вопросов:

  1. Это правильная реализация? (В теории)
  2. Насколько велик размер пакета по сравнению с размером буфера
  3. Как обычно тренировать сеть? На сколько долго? Пока не будет достигнута конкретная MSE всей партии?

Ответы:


1

Это правильная реализация? (В теории)

Да, у вашего псевдокода правильный подход.

Насколько велик размер пакета по сравнению с размером буфера

Алгоритмически говоря, использование больших пакетов в стохастическом градиентном спуске позволяет вам уменьшить дисперсию ваших обновлений стохастического градиента (путем взятия среднего значения градиентов в пакете), и это, в свою очередь, позволяет вам использовать большие размеры шага, что означает алгоритм оптимизации будет прогрессировать быстрее.

В буфере воспроизведения опыта хранится фиксированное количество недавних воспоминаний, и по мере поступления новых старые удаляются. Когда приходит время тренироваться, мы просто рисуем однородный пакет случайных воспоминаний из буфера и обучаем нашу сеть с ними.

Хотя это связано, не существует стандартного значения для размера пакета по сравнению с размером буфера. Эксперименты с этими гиперпараметрами - одна из радостей глубокого обучения с подкреплением.

Как обычно тренировать сеть? На сколько долго? Пока не будет достигнута конкретная MSE всей партии?

Сети обычно обучаются до тех пор, пока они не «сойдутся», что означает, что в таблице Q между эпизодами постоянно не происходит значимых изменений.

22.05.2018
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..