Новые задачи, которые сложнее решать моделям типа BERT и GPT
Здравствуйте, любители НЛП! Узнав о тестах НЛП с помощью GLUE, давайте посмотрим, что представляет собой его преемник SuperGLUE. Хорошее понимание тестов НЛП помогает понять сильные и слабые стороны популярных моделей НЛП и правильно читать их оценки. Наслаждаться! 😄
В 2018 году модели, подобные BERT и GPT, привели к значительному повышению производительности в ряде задач понимания языка. Чтобы оценить прогресс в обработке естественного языка, был разработан тест GLUE, который предлагает метрику с одним числом, которая суммирует прогресс в разнообразном наборе таких задач НЛП. Тем не менее, производительность в тесте недавно превзошла уровень людей, не являющихся экспертами, что предполагает ограниченный запас для дальнейших исследований.
По этой причине был разработан SuperGLUE, новый тест, стилизованный под GLUE, с новым набором более сложных заданий на понимание языка и общедоступной таблицей лидеров.
Суперклей против клея
SuperGLUE имеет ту же мотивацию высокого уровня, что и GLUE, то есть обеспечивает простую, но жесткую меру прогресса на пути к технологиям понимания языка общего назначения.
SuperGLUE следует базовому дизайну GLUE: он состоит из общедоступной таблицы лидеров, построенной вокруг восьми задач на понимание языка, сопровождаемой метрикой производительности с одним числом. Тем не менее, он улучшает GLUE несколько способов:
- Более сложные задачи: SuperGLUE сохраняет две самые сложные задачи в GLUE. Остальные задачи были выбраны исходя из сложности, с которой сталкиваются современные подходы НЛП.
- Более разнообразные форматы задач. Форматы задач в GLUE ограничены классификацией предложений и пар предложений. SuperGLUE также включает в себя разрешение кореферентности и ответ на вопрос.
- Исходные данные для людей: SuperGLUE включает оценки производительности человека для всех тестовых задач.
Как и в случае с GLUE, общий балл SuperGLUE получается путем усреднения баллов по всем заданиям.
Задачи SuperGLUE
1. BoolQ (логические вопросы)
- Цель: ответить на вопрос «да/нет» по тексту.
- Набор данных: вопросы предоставлены анонимно и по собственной инициативе пользователями поисковой системы Google, а затем объединены с абзацем из статьи в Википедии, содержащей ответ.
2. КБ (CommitmentBank)
- Цель: Имея текст и предложение, предсказать, насколько текст соответствует предложению.
- Набор данных: задача оформлена в виде трехуровневого текстового следования на примерах, взятых из Wall Street Journal, художественной литературы из Британского национального корпуса и Switchboard.
3. COPA (Выбор правдоподобных альтернатив)
- Цель: Имея предложение-посылку и два возможных варианта, система должна определить либо причину, либо следствие посылки из двух возможных вариантов.
- Набор данных: все примеры созданы вручную и посвящены темам из блогов и энциклопедии, связанной с фотографией.
4. MultiRC (Понимание прочитанного из нескольких предложений)
- Цель: Имея абзац контекста, вопрос об этом абзаце и список возможных ответов, система должна предсказать, какие ответы верны, а какие нет.
- Набор данных: абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.
5. ReCoRD (Понимание прочитанного с набором данных здравого смысла)
- Цель: это задача QA с несколькими вариантами ответов. Каждый пример состоит из новостной статьи и вопроса в стиле Клоуза о статье, в которой одна сущность замаскирована. Система должна предсказать замаскированный объект из списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен несколькими различными поверхностными формами, которые все считаются правильными.
- Набор данных: статьи из CNN и Daily Mail.
6. RTE (Распознавание текстового дополнения)
- Цель: определить, влечет ли предложение данную гипотезу или нет.
- Набор данных: это комбинация данных из ежегодных задач по текстовому следствию (например, из RTE1, RTE2, RTE3 и RTE5). Примеры построены на основе новостей и текста Википедии.
7. WiC (Слово в контексте)
- Цель: это задание на устранение неоднозначности смысла слов, представленное как бинарная классификация пар предложений. Имея два фрагмента текста и многозначное слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли это слово в одном и том же смысле в обоих предложениях.
- Набор данных: предложения взяты из WordNet, VerbNet и Викисловаря.
8. WSC (Winograd Schema Challenge)
- Цель: Это задание на разрешение кореферентности, в котором примеры состоят из предложения с местоимением и списка именных словосочетаний из предложения. Система должна определить правильный референт местоимения из предоставленных вариантов.
- Набор данных: Схемы Винограда созданы вручную, специально разработаны для решения задач, требующих повседневных знаний и здравого смысла.
Резюме задач
На следующем изображении показаны размеры обучающих и тестовых наборов для задач SuperGLUE, а также используемые метрики и задействованные домены.
Таблица лидеров SuperGLUE
Вы можете найти лучшие результаты в таблице лидеров SuperGLUE, о которой я сообщил на следующих изображениях. Столбцы AX-b и AX-g содержат оценки наборов диагностических данных (о которых мы поговорим в следующем разделе) и не используются в окончательной оценке SuperGLUE.
Диагностические наборы данных
SuperGLUE содержит два набора данных под названием Диагностические наборы данных, предназначенные не для эталона, а как инструмент анализа ошибок, качественного сравнения моделей, разработки состязательных примеров и изучения модельных гендерных предубеждений.
Анализ лингвистических и мировых знаний в моделях
Первый набор диагностических данных тестирует модели для широкого спектра лингвистических, здравых и мировых знаний. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следствия (последствие, нейтральное или противоречие). Это тот же набор диагностических данных, который используется в GLUE.
Анализ гендерной предвзятости в моделях
Второй набор диагностических данных изучает наличие и усиление многих социальных предубеждений в моделях машинного обучения, управляемых данными. Для содействия обнаружению таких предубеждений используется набор данных Winogender, который предназначен для измерения гендерных предубеждений в системах разрешения кореферентности.
Выводы и дальнейшие шаги
В этой статье мы увидели, как SuperGLUE лучше своего предшественника GLUE, и какие задачи решаются в тесте. Затем мы заглянули в текущую таблицу лидеров SuperGLUE и узнали о ее диагностических наборах данных.
Возможные следующие шаги:
- Обучение модели выполнению задачи SuperGLUE и сравнение ее производительности с таблицей лидеров SuperGLUE.
- Изучение самых эффективных моделей в задачах SuperGLUE.
Спасибо за чтение! Если вы хотите узнать больше о НЛП, не забудьте подписаться на NLPlanet в Medium, LinkedIn и Twitter!
Сообщения, связанные с NLPlanet