1. На пути к многоагентному обучению с подкреплением с использованием квантовых машин Больцмана (arXiv)

Автор: Тобиас Мюллер, Кристоф Рох, Кирилл Шмид, Филипп Альтманн.

Аннотация: Обучение с подкреплением привело к впечатляющим достижениям в машинном обучении. В то же время алгоритмы машинного обучения с квантовым усилением, использующие квантовый отжиг, лежат в основе серьезных разработок. Недавно была предложена архитектура многоагентного обучения с подкреплением (MARL), объединяющая обе парадигмы. Этот новый алгоритм, который использует квантовые машины Больцмана (QBM) для аппроксимации значений Q, превзошел обычное глубокое обучение с подкреплением с точки зрения временных шагов, необходимых для сходимости. Однако этот алгоритм был ограничен одноагентными и небольшими доменами сетки 2x2 с несколькими агентами. В этой работе мы предлагаем расширение исходной концепции для решения более сложных задач. Как и в случае с классическими DQN, мы добавляем буфер воспроизведения опыта и используем разные сети для аппроксимации целевых значений и значений политики. Экспериментальные результаты показывают, что обучение становится более стабильным и позволяет агентам находить оптимальные политики в грид-доменах с более высокой сложностью. Кроме того, мы оцениваем, как совместное использование параметров влияет на поведение агентов в доменах с несколькими агентами. Квантовая выборка оказывается многообещающим методом для задач обучения с подкреплением, но в настоящее время она ограничена размером QPU и, следовательно, размером входных данных и машины Больцмана.

2. Теория групп на квантовой машине Больцмана (arXiv)

Автор: Hai-jing Song, D. Л. Чжоу

Аннотация: Теория групп чрезвычайно успешно описывает симметрии в квантовых системах, что значительно упрощает и унифицирует наши подходы к квантовым системам. Здесь мы вводим понятие симметрии для квантовой машины Больцмана и развиваем теорию групп для описания симметрии. Эта симметрия подразумевает не только то, что все целевые состояния, связанные с преобразованиями симметрии, эквивалентны, но также и то, что для данного целевого состояния эквивалентны все оптимальные решения, связанные с преобразованиями симметрии, которые сохраняют целевое состояние инвариантным. Для машин Больцмана, построенных на кубитах, мы предлагаем систематическую процедуру построения группы и разрабатываем численный алгоритм для проверки полноты нашей конструкции.