Публикации по теме reinforcement-learning

Публикации по теме 'reinforcement-learning'

Новая модель Deepmind Гато потрясающая!

Первоначально опубликовано на louisbouchard.ai , прочитайте его за 2 дня до этого в моем блоге ! Смотреть видео! Гато из DeepMind только что был опубликован! Это единственный трансформер, который может играть в игры Atari, создавать подписи к изображениям, общаться с людьми, управлять настоящим роботом-манипулятором и многое другое! Действительно, он обучается один раз и использует одни и те же веса для выполнения всех этих задач. И согласно Deepmind, это не только..

ИИ-терапевт примет вас сейчас

Геймификация отношений между пациентом и терапевтом с помощью обучения с подкреплением Не так давно терапия ИИ была полностью областью научной фантастики. Классическая космическая опера Фредерика Пола «Врата» исследовала эту тему с главным героем Робинетт Стетли Бродхед, рассказывающим о своих приключениях в качестве галактического сланцевого шахтера ИИ-терапевту. Хотя многое из научной фантастики остается за пределами нашего понимания, недавние разработки в области машинного..

Выборка Томпсона для задачи о многоруком бандите

Выборка Томпсона для задачи о многоруком бандите В этой статье мы рассмотрим выборку Томпсона, ее алгоритм и реализацию. Также будет обсуждаться бета-распределение, используемое в алгоритме выборки Томпсона. Проблема многорукого бандита в двух словах Задача многорукого бандита — это классическая задача обучения с подкреплением, в которой игрок заходит в казино и ставит свои деньги на несколько игровых автоматов с одной рукой. Сначала он пытается исследовать машины, чтобы найти..

Что такое машинное обучение?

Машинное обучение (ML) — это область искусственного интеллекта (ИИ), которая позволяет алгоритмам прогнозировать проблемы с данными. В течение десятилетия из-за увеличения объема доступных данных и развития вычислительных мощностей глубокое обучение (ГО) пережило бум. DL — это ветвь ML, в которой используется глубокая нейронная сеть (DNN). На рисунке ниже показано соотношение AI, ML и DL. В этой статье мы объясним обзор и наиболее известные задачи ML. Как правило, МО состоит из трех..

Обучение с подкреплением. Уравнение Беллмана в C++.

Обучение с подкреплением. Уравнение Беллмана в C++. В следующей статье я кратко расскажу об основной концепции обучения с подкреплением, уделяя особое внимание уравнению Беллмана , которое считается фундаментальным уравнением в этой области. Мы будем играть в упрощенную игру-лабиринт на C++, мой код вы найдете здесь . Обратите внимание, что следующая статья не исчерпывает обсуждаемую проблему, но дает вам хорошее начало для понимания принципа (интуиции) и SW. Я также указал..

Создайте свою собственную среду обучения с подкреплением

Люди использовали обучение с подкреплением для решения множества интересных задач. Будь то такие простые, как игры atari , или такие сложные, как Го и Дота . Обучение с подкреплением не только способно решать поставленные задачи, но и обеспечивает сверхчеловеческую производительность. В этом блоге мы не просто собираемся решить еще одну среду обучения с подкреплением, но и создадим ее с нуля. Для тех, кто не знаком с обучением с подкреплением и интересуется, что такое..

Вопросы по теме 'reinforcement-learning'

Как понять алгоритм оптимизации проксимальной политики в RL?

Я знаю основы обучения с подкреплением, но какие термины необходимо понимать, чтобы читать статью arxiv PPO ? Каков план изучения и использования PPO ?

machine-learning reinforcement-learning

01.10.2023

Как обучить нейронную сеть с помощью Q-Learning

Я только что реализовал Q-Learning без нейронных сетей, но я застрял в реализации их с помощью нейронных сетей. Я дам вам псевдокод, показывающий, как реализовано мое Q-Learning: train(int iterations) buffer = empty buffer for i = 0...

neural-network reinforcement-learning q-learning

24.09.2023

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Startup Productivity Python Programming Tutorial Angular Neural Networks Computer Vision Open Source Javascript Tips AWS Education Learning NLP Mlops