Первоначально опубликовано на louisbouchard.ai, прочитайте его за 2 дня до этого в моем блоге!

Смотреть видео!

Гато из DeepMind только что был опубликован! Это единственный трансформер, который может играть в игры Atari, создавать подписи к изображениям, общаться с людьми, управлять настоящим роботом-манипулятором и многое другое! Действительно, он обучается один раз и использует одни и те же веса для выполнения всех этих задач. И согласно Deepmind, это не только трансформер, но и агент. Вот что происходит, когда вы смешиваете Transformers с прогрессом в многозадачных агентах обучения с подкреплением.

Как мы уже говорили, Гато — мультимодальный агент. Это означает, что он может создавать подписи к изображениям или отвечать на вопросы в качестве чат-бота. Вы бы сказали, что GPT-3 уже может это, но Гато может больше… Мультимодальность исходит из того факта, что Гато также может играть в игры Atari на человеческом уровне или даже выполнять реальные задачи, такие как управление роботизированными руками, чтобы точно перемещать предметы. Он понимает слова, изображения и даже физику.

Gato — первая универсальная модель, которая так хорошо справляется со многими различными задачами и очень многообещающа в полевых условиях. Он был обучен 604 различным задачам с различными модальностями, наблюдениями и спецификациями действий, что сделало его идеальным универсалом.

И, как я уже сказал, он делает все это с той же сетью и весами (и, прежде чем вы спросите, ему нужно всего 1,2 миллиарда параметров по сравнению с GPT-3, который требует их 175 миллиардов!). Это не ловушка, где вам придется заново обучать или настраивать его для всех задач.

Вы можете отправить как изображение, так и текст, и это сработает. Вы даже можете добавить несколько движений руки робота! Модель может решить, какой тип вывода предоставить, исходя из своего контекста, от текста до дискретных действий в среде.

Это возможно из-за их процесса токенизации. Токенизация — это когда вы готовите свои входные данные для модели, поскольку они сами по себе не понимают текст или изображения. Языковые модели и Gato взяли общее количество подслов, например, 32000, и каждому слову был присвоен номер.

Для изображений они следуют внедрению патча ViT с использованием широко используемого блока ResNet, как мы рассмотрели в предыдущем видео. Мы также обозначаем нажатия кнопок целыми числами для игр Atari или дискретными значениями.

Наконец, для непрерывных значений, таких как проприоцептивные входы, о которых мы говорили с роботизированными руками, они кодировали различные отслеживаемые показатели в числа с плавающей запятой и добавляли их после текстовых токенов.

Используя все эти различные входные данные, агент адаптируется к текущей задаче, чтобы генерировать соответствующие выходные данные. Во время обучения они используют быстрое кондиционирование, как в ОФТ-3, с предварительно отработанными действиями и наблюдениями.

Прогресс в создании универсальных агентов RL за последние годы был невероятным и исходил в основном от Deepmind. Можно сказать, что они продвигают иглу ближе к общему ИИ (AGI) или интеллекту человеческого уровня (если мы можем, наконец, определить это). Мне нравится, как много деталей они дали в своей статье. Мне не терпится увидеть, что они будут делать или что будут делать другие люди, используя архитектуру этой модели!

Ссылка на статью для получения дополнительной информации о модели находится в описании.

Надеюсь, вам понравилась эта короткая статья. Я только что увидел эту новость, когда проснулся, и должен был сделать репортаж, прежде чем делать что-то еще в свой день. Это слишком захватывающе!

Увидимся на следующей неделе с другой замечательной статьей!

Рекомендации

►Посмотрите видео: https://youtu.be/xZKSWNv6Esc
►Пост в блоге Deepmind: https://www.deepmind.com/publications/a-generalist-agent
►Бумага , Рид С. и др., 2022 г., Диминд: Гато. https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►Мой информационный бюллетень (еженедельное объяснение нового приложения ИИ в ваших электронных письмах!): https: //www.louisbouchard.ai/информационный бюллетень/