Публикации по теме 'reinforcement-learning'
Новая модель Deepmind Гато потрясающая!
Первоначально опубликовано на louisbouchard.ai , прочитайте его за 2 дня до этого в моем блоге !
Смотреть видео!
Гато из DeepMind только что был опубликован! Это единственный трансформер, который может играть в игры Atari, создавать подписи к изображениям, общаться с людьми, управлять настоящим роботом-манипулятором и многое другое! Действительно, он обучается один раз и использует одни и те же веса для выполнения всех этих задач. И согласно Deepmind, это не только..
ИИ-терапевт примет вас сейчас
Геймификация отношений между пациентом и терапевтом с помощью обучения с подкреплением
Не так давно терапия ИИ была полностью областью научной фантастики. Классическая космическая опера Фредерика Пола «Врата» исследовала эту тему с главным героем Робинетт Стетли Бродхед, рассказывающим о своих приключениях в качестве галактического сланцевого шахтера ИИ-терапевту.
Хотя многое из научной фантастики остается за пределами нашего понимания, недавние разработки в области машинного..
Выборка Томпсона для задачи о многоруком бандите
Выборка Томпсона для задачи о многоруком бандите
В этой статье мы рассмотрим выборку Томпсона, ее алгоритм и реализацию. Также будет обсуждаться бета-распределение, используемое в алгоритме выборки Томпсона.
Проблема многорукого бандита в двух словах
Задача многорукого бандита — это классическая задача обучения с подкреплением, в которой игрок заходит в казино и ставит свои деньги на несколько игровых автоматов с одной рукой. Сначала он пытается исследовать машины, чтобы найти..
Что такое машинное обучение?
Машинное обучение (ML) — это область искусственного интеллекта (ИИ), которая позволяет алгоритмам прогнозировать проблемы с данными. В течение десятилетия из-за увеличения объема доступных данных и развития вычислительных мощностей глубокое обучение (ГО) пережило бум. DL — это ветвь ML, в которой используется глубокая нейронная сеть (DNN). На рисунке ниже показано соотношение AI, ML и DL. В этой статье мы объясним обзор и наиболее известные задачи ML.
Как правило, МО состоит из трех..
Обучение с подкреплением. Уравнение Беллмана в C++.
Обучение с подкреплением. Уравнение Беллмана в C++.
В следующей статье я кратко расскажу об основной концепции обучения с подкреплением, уделяя особое внимание уравнению Беллмана , которое считается фундаментальным уравнением в этой области. Мы будем играть в упрощенную игру-лабиринт на C++, мой код вы найдете здесь . Обратите внимание, что следующая статья не исчерпывает обсуждаемую проблему, но дает вам хорошее начало для понимания принципа (интуиции) и SW. Я также указал..
Создайте свою собственную среду обучения с подкреплением
Люди использовали обучение с подкреплением для решения множества интересных задач. Будь то такие простые, как игры atari , или такие сложные, как Го и Дота . Обучение с подкреплением не только способно решать поставленные задачи, но и обеспечивает сверхчеловеческую производительность.
В этом блоге мы не просто собираемся решить еще одну среду обучения с подкреплением, но и создадим ее с нуля.
Для тех, кто не знаком с обучением с подкреплением и интересуется, что такое..
Вопросы по теме 'reinforcement-learning'
Как понять алгоритм оптимизации проксимальной политики в RL?
Я знаю основы обучения с подкреплением, но какие термины необходимо понимать, чтобы читать статью arxiv PPO ?
Каков план изучения и использования PPO ?
01.10.2023
Как обучить нейронную сеть с помощью Q-Learning
Я только что реализовал Q-Learning без нейронных сетей, но я застрял в реализации их с помощью нейронных сетей.
Я дам вам псевдокод, показывающий, как реализовано мое Q-Learning:
train(int iterations)
buffer = empty buffer
for i = 0...
24.09.2023
Новые материалы
Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..
Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом
Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..
Советы по коду Laravel #2
1-) Найти
// You can specify the columns you need
// in when you use the find method on a model
User::find(‘id’, [‘email’,’name’]);
// You can increment or decrement
// a field in..
Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv)
Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..
3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации —
2. Используя квадратичную формулу —
3. Заполнив квадрат —
Давайте поймем это, решив это простое уравнение:
Мы пытаемся сделать LHS,..
Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..
Демистификация рекурсии
КОДЕКС
Демистификация рекурсии
Упрощенная концепция ошеломляющей
О чем весь этот шум?
Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..