Новая модель Deepmind Гато потрясающая!

Первоначально опубликовано на louisbouchard.ai, прочитайте его за 2 дня до этого в моем блоге!

Смотреть видео!

Гато из DeepMind только что был опубликован! Это единственный трансформер, который может играть в игры Atari, создавать подписи к изображениям, общаться с людьми, управлять настоящим роботом-манипулятором и многое другое! Действительно, он обучается один раз и использует одни и те же веса для выполнения всех этих задач. И согласно Deepmind, это не только трансформер, но и агент. Вот что происходит, когда вы смешиваете Transformers с прогрессом в многозадачных агентах обучения с подкреплением.

Как мы уже говорили, Гато — мультимодальный агент. Это означает, что он может создавать подписи к изображениям или отвечать на вопросы в качестве чат-бота. Вы бы сказали, что GPT-3 уже может это, но Гато может больше… Мультимодальность исходит из того факта, что Гато также может играть в игры Atari на человеческом уровне или даже выполнять реальные задачи, такие как управление роботизированными руками, чтобы точно перемещать предметы. Он понимает слова, изображения и даже физику.

Gato — первая универсальная модель, которая так хорошо справляется со многими различными задачами и очень многообещающа в полевых условиях. Он был обучен 604 различным задачам с различными модальностями, наблюдениями и спецификациями действий, что сделало его идеальным универсалом.

И, как я уже сказал, он делает все это с той же сетью и весами (и, прежде чем вы спросите, ему нужно всего 1,2 миллиарда параметров по сравнению с GPT-3, который требует их 175 миллиардов!). Это не ловушка, где вам придется заново обучать или настраивать его для всех задач.

Вы можете отправить как изображение, так и текст, и это сработает. Вы даже можете добавить несколько движений руки робота! Модель может решить, какой тип вывода предоставить, исходя из своего контекста, от текста до дискретных действий в среде.

Это возможно из-за их процесса токенизации. Токенизация — это когда вы готовите свои входные данные для модели, поскольку они сами по себе не понимают текст или изображения. Языковые модели и Gato взяли общее количество подслов, например, 32000, и каждому слову был присвоен номер.

Для изображений они следуют внедрению патча ViT с использованием широко используемого блока ResNet, как мы рассмотрели в предыдущем видео. Мы также обозначаем нажатия кнопок целыми числами для игр Atari или дискретными значениями.

Наконец, для непрерывных значений, таких как проприоцептивные входы, о которых мы говорили с роботизированными руками, они кодировали различные отслеживаемые показатели в числа с плавающей запятой и добавляли их после текстовых токенов.

Используя все эти различные входные данные, агент адаптируется к текущей задаче, чтобы генерировать соответствующие выходные данные. Во время обучения они используют быстрое кондиционирование, как в ОФТ-3, с предварительно отработанными действиями и наблюдениями.

Прогресс в создании универсальных агентов RL за последние годы был невероятным и исходил в основном от Deepmind. Можно сказать, что они продвигают иглу ближе к общему ИИ (AGI) или интеллекту человеческого уровня (если мы можем, наконец, определить это). Мне нравится, как много деталей они дали в своей статье. Мне не терпится увидеть, что они будут делать или что будут делать другие люди, используя архитектуру этой модели!

Ссылка на статью для получения дополнительной информации о модели находится в описании.

Надеюсь, вам понравилась эта короткая статья. Я только что увидел эту новость, когда проснулся, и должен был сделать репортаж, прежде чем делать что-то еще в свой день. Это слишком захватывающе!

Увидимся на следующей неделе с другой замечательной статьей!

Рекомендации

►Посмотрите видео: https://youtu.be/xZKSWNv6Esc
►Пост в блоге Deepmind: https://www.deepmind.com/publications/a-generalist-agent
►Бумага , Рид С. и др., 2022 г., Диминд: Гато. https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►Мой информационный бюллетень (еженедельное объяснение нового приложения ИИ в ваших электронных письмах!): https: //www.louisbouchard.ai/информационный бюллетень/

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Startup Productivity Python Programming Tutorial Angular Neural Networks Computer Vision Open Source Javascript Tips AWS Education Learning NLP Mlops