Новые задачи, которые сложнее решать моделям типа BERT и GPT

Здравствуйте, любители НЛП! Узнав о тестах НЛП с помощью GLUE, давайте посмотрим, что представляет собой его преемник SuperGLUE. Хорошее понимание тестов НЛП помогает понять сильные и слабые стороны популярных моделей НЛП и правильно читать их оценки. Наслаждаться! 😄

В 2018 году модели, подобные BERT и GPT, привели к значительному повышению производительности в ряде задач понимания языка. Чтобы оценить прогресс в обработке естественного языка, был разработан тест GLUE, который предлагает метрику с одним числом, которая суммирует прогресс в разнообразном наборе таких задач НЛП. Тем не менее, производительность в тесте недавно превзошла уровень людей, не являющихся экспертами, что предполагает ограниченный запас для дальнейших исследований.

По этой причине был разработан SuperGLUE, новый тест, стилизованный под GLUE, с новым набором более сложных заданий на понимание языка и общедоступной таблицей лидеров.

Суперклей против клея

SuperGLUE имеет ту же мотивацию высокого уровня, что и GLUE, то есть обеспечивает простую, но жесткую меру прогресса на пути к технологиям понимания языка общего назначения.

SuperGLUE следует базовому дизайну GLUE: он состоит из общедоступной таблицы лидеров, построенной вокруг восьми задач на понимание языка, сопровождаемой метрикой производительности с одним числом. Тем не менее, он улучшает GLUE несколько способов:

  • Более сложные задачи: SuperGLUE сохраняет две самые сложные задачи в GLUE. Остальные задачи были выбраны исходя из сложности, с которой сталкиваются современные подходы НЛП.
  • Более разнообразные форматы задач. Форматы задач в GLUE ограничены классификацией предложений и пар предложений. SuperGLUE также включает в себя разрешение кореферентности и ответ на вопрос.
  • Исходные данные для людей: SuperGLUE включает оценки производительности человека для всех тестовых задач.

Как и в случае с GLUE, общий балл SuperGLUE получается путем усреднения баллов по всем заданиям.

Задачи SuperGLUE

1. BoolQ (логические вопросы)

  • Цель: ответить на вопрос «да/нет» по тексту.
  • Набор данных: вопросы предоставлены анонимно и по собственной инициативе пользователями поисковой системы Google, а затем объединены с абзацем из статьи в Википедии, содержащей ответ.

2. КБ (CommitmentBank)

  • Цель: Имея текст и предложение, предсказать, насколько текст соответствует предложению.
  • Набор данных: задача оформлена в виде трехуровневого текстового следования на примерах, взятых из Wall Street Journal, художественной литературы из Британского национального корпуса и Switchboard.

3. COPA (Выбор правдоподобных альтернатив)

  • Цель: Имея предложение-посылку и два возможных варианта, система должна определить либо причину, либо следствие посылки из двух возможных вариантов.
  • Набор данных: все примеры созданы вручную и посвящены темам из блогов и энциклопедии, связанной с фотографией.

4. MultiRC (Понимание прочитанного из нескольких предложений)

  • Цель: Имея абзац контекста, вопрос об этом абзаце и список возможных ответов, система должна предсказать, какие ответы верны, а какие нет.
  • Набор данных: абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.

5. ReCoRD (Понимание прочитанного с набором данных здравого смысла)

  • Цель: это задача QA с несколькими вариантами ответов. Каждый пример состоит из новостной статьи и вопроса в стиле Клоуза о статье, в которой одна сущность замаскирована. Система должна предсказать замаскированный объект из списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен несколькими различными поверхностными формами, которые все считаются правильными.
  • Набор данных: статьи из CNN и Daily Mail.

6. RTE (Распознавание текстового дополнения)

  • Цель: определить, влечет ли предложение данную гипотезу или нет.
  • Набор данных: это комбинация данных из ежегодных задач по текстовому следствию (например, из RTE1, RTE2, RTE3 и RTE5). Примеры построены на основе новостей и текста Википедии.

7. WiC (Слово в контексте)

  • Цель: это задание на устранение неоднозначности смысла слов, представленное как бинарная классификация пар предложений. Имея два фрагмента текста и многозначное слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли это слово в одном и том же смысле в обоих предложениях.
  • Набор данных: предложения взяты из WordNet, VerbNet и Викисловаря.

8. WSC (Winograd Schema Challenge)

  • Цель: Это задание на разрешение кореферентности, в котором примеры состоят из предложения с местоимением и списка именных словосочетаний из предложения. Система должна определить правильный референт местоимения из предоставленных вариантов.
  • Набор данных: Схемы Винограда созданы вручную, специально разработаны для решения задач, требующих повседневных знаний и здравого смысла.

Резюме задач

На следующем изображении показаны размеры обучающих и тестовых наборов для задач SuperGLUE, а также используемые метрики и задействованные домены.

Таблица лидеров SuperGLUE

Вы можете найти лучшие результаты в таблице лидеров SuperGLUE, о которой я сообщил на следующих изображениях. Столбцы AX-b и AX-g содержат оценки наборов диагностических данных (о которых мы поговорим в следующем разделе) и не используются в окончательной оценке SuperGLUE.

Диагностические наборы данных

SuperGLUE содержит два набора данных под названием Диагностические наборы данных, предназначенные не для эталона, а как инструмент анализа ошибок, качественного сравнения моделей, разработки состязательных примеров и изучения модельных гендерных предубеждений.

Анализ лингвистических и мировых знаний в моделях

Первый набор диагностических данных тестирует модели для широкого спектра лингвистических, здравых и мировых знаний. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следствия (последствие, нейтральное или противоречие). Это тот же набор диагностических данных, который используется в GLUE.

Анализ гендерной предвзятости в моделях

Второй набор диагностических данных изучает наличие и усиление многих социальных предубеждений в моделях машинного обучения, управляемых данными. Для содействия обнаружению таких предубеждений используется набор данных Winogender, который предназначен для измерения гендерных предубеждений в системах разрешения кореферентности.

Выводы и дальнейшие шаги

В этой статье мы увидели, как SuperGLUE лучше своего предшественника GLUE, и какие задачи решаются в тесте. Затем мы заглянули в текущую таблицу лидеров SuperGLUE и узнали о ее диагностических наборах данных.

Возможные следующие шаги:

  • Обучение модели выполнению задачи SuperGLUE и сравнение ее производительности с таблицей лидеров SuperGLUE.
  • Изучение самых эффективных моделей в задачах SuperGLUE.

Спасибо за чтение! Если вы хотите узнать больше о НЛП, не забудьте подписаться на NLPlanet в Medium, LinkedIn и Twitter!

Сообщения, связанные с NLPlanet