Две минуты НЛП — Задачи SuperGLUE и таблица лидеров 2022 года

Новые задачи, которые сложнее решать моделям типа BERT и GPT

Здравствуйте, любители НЛП! Узнав о тестах НЛП с помощью GLUE, давайте посмотрим, что представляет собой его преемник SuperGLUE. Хорошее понимание тестов НЛП помогает понять сильные и слабые стороны популярных моделей НЛП и правильно читать их оценки. Наслаждаться! 😄

В 2018 году модели, подобные BERT и GPT, привели к значительному повышению производительности в ряде задач понимания языка. Чтобы оценить прогресс в обработке естественного языка, был разработан тест GLUE, который предлагает метрику с одним числом, которая суммирует прогресс в разнообразном наборе таких задач НЛП. Тем не менее, производительность в тесте недавно превзошла уровень людей, не являющихся экспертами, что предполагает ограниченный запас для дальнейших исследований.

По этой причине был разработан SuperGLUE, новый тест, стилизованный под GLUE, с новым набором более сложных заданий на понимание языка и общедоступной таблицей лидеров.

Суперклей против клея

SuperGLUE имеет ту же мотивацию высокого уровня, что и GLUE, то есть обеспечивает простую, но жесткую меру прогресса на пути к технологиям понимания языка общего назначения.

SuperGLUE следует базовому дизайну GLUE: он состоит из общедоступной таблицы лидеров, построенной вокруг восьми задач на понимание языка, сопровождаемой метрикой производительности с одним числом. Тем не менее, он улучшает GLUE несколько способов:

Более сложные задачи: SuperGLUE сохраняет две самые сложные задачи в GLUE. Остальные задачи были выбраны исходя из сложности, с которой сталкиваются современные подходы НЛП.
Более разнообразные форматы задач. Форматы задач в GLUE ограничены классификацией предложений и пар предложений. SuperGLUE также включает в себя разрешение кореферентности и ответ на вопрос.
Исходные данные для людей: SuperGLUE включает оценки производительности человека для всех тестовых задач.

Как и в случае с GLUE, общий балл SuperGLUE получается путем усреднения баллов по всем заданиям.

Задачи SuperGLUE

1. BoolQ (логические вопросы)

Цель: ответить на вопрос «да/нет» по тексту.
Набор данных: вопросы предоставлены анонимно и по собственной инициативе пользователями поисковой системы Google, а затем объединены с абзацем из статьи в Википедии, содержащей ответ.

2. КБ (CommitmentBank)

Цель: Имея текст и предложение, предсказать, насколько текст соответствует предложению.
Набор данных: задача оформлена в виде трехуровневого текстового следования на примерах, взятых из Wall Street Journal, художественной литературы из Британского национального корпуса и Switchboard.

3. COPA (Выбор правдоподобных альтернатив)

Цель: Имея предложение-посылку и два возможных варианта, система должна определить либо причину, либо следствие посылки из двух возможных вариантов.
Набор данных: все примеры созданы вручную и посвящены темам из блогов и энциклопедии, связанной с фотографией.

4. MultiRC (Понимание прочитанного из нескольких предложений)

Цель: Имея абзац контекста, вопрос об этом абзаце и список возможных ответов, система должна предсказать, какие ответы верны, а какие нет.
Набор данных: абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.

5. ReCoRD (Понимание прочитанного с набором данных здравого смысла)

Цель: это задача QA с несколькими вариантами ответов. Каждый пример состоит из новостной статьи и вопроса в стиле Клоуза о статье, в которой одна сущность замаскирована. Система должна предсказать замаскированный объект из списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен несколькими различными поверхностными формами, которые все считаются правильными.
Набор данных: статьи из CNN и Daily Mail.

6. RTE (Распознавание текстового дополнения)

Цель: определить, влечет ли предложение данную гипотезу или нет.
Набор данных: это комбинация данных из ежегодных задач по текстовому следствию (например, из RTE1, RTE2, RTE3 и RTE5). Примеры построены на основе новостей и текста Википедии.

7. WiC (Слово в контексте)

Цель: это задание на устранение неоднозначности смысла слов, представленное как бинарная классификация пар предложений. Имея два фрагмента текста и многозначное слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли это слово в одном и том же смысле в обоих предложениях.
Набор данных: предложения взяты из WordNet, VerbNet и Викисловаря.

8. WSC (Winograd Schema Challenge)

Цель: Это задание на разрешение кореферентности, в котором примеры состоят из предложения с местоимением и списка именных словосочетаний из предложения. Система должна определить правильный референт местоимения из предоставленных вариантов.
Набор данных: Схемы Винограда созданы вручную, специально разработаны для решения задач, требующих повседневных знаний и здравого смысла.

Резюме задач

На следующем изображении показаны размеры обучающих и тестовых наборов для задач SuperGLUE, а также используемые метрики и задействованные домены.

Таблица лидеров SuperGLUE

Вы можете найти лучшие результаты в таблице лидеров SuperGLUE, о которой я сообщил на следующих изображениях. Столбцы AX-b и AX-g содержат оценки наборов диагностических данных (о которых мы поговорим в следующем разделе) и не используются в окончательной оценке SuperGLUE.

Диагностические наборы данных

SuperGLUE содержит два набора данных под названием Диагностические наборы данных, предназначенные не для эталона, а как инструмент анализа ошибок, качественного сравнения моделей, разработки состязательных примеров и изучения модельных гендерных предубеждений.

Анализ лингвистических и мировых знаний в моделях

Первый набор диагностических данных тестирует модели для широкого спектра лингвистических, здравых и мировых знаний. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следствия (последствие, нейтральное или противоречие). Это тот же набор диагностических данных, который используется в GLUE.

Анализ гендерной предвзятости в моделях

Второй набор диагностических данных изучает наличие и усиление многих социальных предубеждений в моделях машинного обучения, управляемых данными. Для содействия обнаружению таких предубеждений используется набор данных Winogender, который предназначен для измерения гендерных предубеждений в системах разрешения кореферентности.

Выводы и дальнейшие шаги

В этой статье мы увидели, как SuperGLUE лучше своего предшественника GLUE, и какие задачи решаются в тесте. Затем мы заглянули в текущую таблицу лидеров SuperGLUE и узнали о ее диагностических наборах данных.

Возможные следующие шаги:

Обучение модели выполнению задачи SuperGLUE и сравнение ее производительности с таблицей лидеров SuperGLUE.
Изучение самых эффективных моделей в задачах SuperGLUE.

Спасибо за чтение! Если вы хотите узнать больше о НЛП, не забудьте подписаться на NLPlanet в Medium, LinkedIn и Twitter!

Сообщения, связанные с NLPlanet

Двухминутное НЛП — задачи GLUE и таблица лидеров 2022
Задания на одно предложение, задачи на сходство и перефразирование, а также задачи на логические выводыmedium.com

Две минуты НЛП — краткое введение в ответы на вопросы
Извлекающий и генеративный контроль качества, открытый и закрытый контроль качества, SQuAD и SQuAD v2medium.com

Две минуты NLP — частичная зависимость и графики ICE
Объяснимый ИИ с помощью sklearn.inspectionmedium.com

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Tutorial Angular Startup Productivity Python Programming Neural Networks Computer Vision Open Source Javascript Tips AWS Education NLP Learning Mlops