Arhn - архитектура программирования

Публикации по теме 'reinforcement-learning'


Новая модель Deepmind Гато потрясающая!
Первоначально опубликовано на louisbouchard.ai , прочитайте его за 2 дня до этого в моем блоге ! Смотреть видео! Гато из DeepMind только что был опубликован! Это единственный трансформер, который может играть в игры Atari, создавать подписи к изображениям, общаться с людьми, управлять настоящим роботом-манипулятором и многое другое! Действительно, он обучается один раз и использует одни и те же веса для выполнения всех этих задач. И согласно Deepmind, это не только..

ИИ-терапевт примет вас сейчас
Геймификация отношений между пациентом и терапевтом с помощью обучения с подкреплением Не так давно терапия ИИ была полностью областью научной фантастики. Классическая космическая опера Фредерика Пола «Врата» исследовала эту тему с главным героем Робинетт Стетли Бродхед, рассказывающим о своих приключениях в качестве галактического сланцевого шахтера ИИ-терапевту. Хотя многое из научной фантастики остается за пределами нашего понимания, недавние разработки в области машинного..

Выборка Томпсона для задачи о многоруком бандите
Выборка Томпсона для задачи о многоруком бандите В этой статье мы рассмотрим выборку Томпсона, ее алгоритм и реализацию. Также будет обсуждаться бета-распределение, используемое в алгоритме выборки Томпсона. Проблема многорукого бандита в двух словах Задача многорукого бандита — это классическая задача обучения с подкреплением, в которой игрок заходит в казино и ставит свои деньги на несколько игровых автоматов с одной рукой. Сначала он пытается исследовать машины, чтобы найти..

Что такое машинное обучение?
Машинное обучение (ML) — это область искусственного интеллекта (ИИ), которая позволяет алгоритмам прогнозировать проблемы с данными. В течение десятилетия из-за увеличения объема доступных данных и развития вычислительных мощностей глубокое обучение (ГО) пережило бум. DL — это ветвь ML, в которой используется глубокая нейронная сеть (DNN). На рисунке ниже показано соотношение AI, ML и DL. В этой статье мы объясним обзор и наиболее известные задачи ML. Как правило, МО состоит из трех..

Обучение с подкреплением. Уравнение Беллмана в C++.
Обучение с подкреплением. Уравнение Беллмана в C++. В следующей статье я кратко расскажу об основной концепции обучения с подкреплением, уделяя особое внимание уравнению Беллмана , которое считается фундаментальным уравнением в этой области. Мы будем играть в упрощенную игру-лабиринт на C++, мой код вы найдете здесь . Обратите внимание, что следующая статья не исчерпывает обсуждаемую проблему, но дает вам хорошее начало для понимания принципа (интуиции) и SW. Я также указал..

Создайте свою собственную среду обучения с подкреплением
Люди использовали обучение с подкреплением для решения множества интересных задач. Будь то такие простые, как игры atari , или такие сложные, как Го и Дота . Обучение с подкреплением не только способно решать поставленные задачи, но и обеспечивает сверхчеловеческую производительность. В этом блоге мы не просто собираемся решить еще одну среду обучения с подкреплением, но и создадим ее с нуля. Для тех, кто не знаком с обучением с подкреплением и интересуется, что такое..

Вопросы по теме 'reinforcement-learning'

Как понять алгоритм оптимизации проксимальной политики в RL?
Я знаю основы обучения с подкреплением, но какие термины необходимо понимать, чтобы читать статью arxiv PPO ? Каков план изучения и использования PPO ?

Как обучить нейронную сеть с помощью Q-Learning
Я только что реализовал Q-Learning без нейронных сетей, но я застрял в реализации их с помощью нейронных сетей. Я дам вам псевдокод, показывающий, как реализовано мое Q-Learning: train(int iterations) buffer = empty buffer for i = 0...

Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..