MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

«Выбор вероятных альтернатив» (Choice of Plausible Alternatives for Russian language — PARus) предоставляет исследователям инструмент для оценки прогресса в задаче причинно-следственных рассуждений с учетом здравого смысла (commonsense causal reasoning), на общетематических данных. Каждый вопрос в PARus состоит из ситуации-посылки и двух альтернатив, где задача состоит в том, чтобы выбрать альтернативу, которая более вероятно имеет причинно-следственную связь с посылкой. Правильная альтернатива рандомизирована, так что ожидаемая эффективность случайного угадывания составляет 50%.

Датасет входит в бечнмарк Russian SuperGLUE, был переведен в инструктивный формат и перепроверен. Исходный сет является аналогом английского датасета COPA.

Ключевые слова: Оценка здравого смысла, причинно-следственные связи, бинарная классификация

Авторы: Татьяна Шаврина, Алена Феногенова, Валентин Малых, Екатерина Артемова, Владислав Михайлов, Мария Тихонова, Денис Шевелёв, Антон Емельянов, Андрей Евлампиев

Мотивация

Датасет проверят способности моделей выявлять причинно-следственные связи в тексте, а также делать здравые выводы на их основе. Датасет в бенчмарке RussianSuperGLUE один из немногих, для которых всё ещё сохраняется значительный разрыв между оценками моделей и человеческой.

Поля датасета

Каждый пример данных датасета представляет собой некоторую ситуацию (предпосылку)premise , и два варианта продолжения ситуаций в зависимости от тега причины cause или следствия effect.

instruction — инструктивный промпт заданный под текущее задание;

premise— задача, исходная ситуация (посылка);

choice1— первый вариант ответа (первая альтернатива);

choice2— второй вариант ответа (вторая альтернатива);

meta— мета-информация о задаче:

task— класс задачи (является ли альтернатива причиной или следствием);

id — номер примера из датасета.

Варианты ответа пишутся в поле outputs : строковые значения 1 или 2.

Промпты

Для этой задачи было создано 10 промптов отдельно для причины (cause) и для следствия (effect).

Например:

Для причины

"Дана текстовая ситуация: \"{premise}\" и два текста продолжения: 1) {choice1} 2) {choice2} Определи, какой из двух фрагментов является причиной описанной ситуации? В качестве ответа выведи одну цифру 1 или 2.".

Для следствия

"Дано описание ситуации: \"{premise}\" и два фрагмента текста: 1) {choice1} 2) {choice2} Определи, какой из двух фрагментов является следствием описанной ситуации? В качестве ответа выведи цифру 1 (первый текст) или 2 (второй текст).".

Создание датасета

Все примеры для исходного сета из Russian SuperGLUE были собраны из открытых новостных источников и литературных журналов, затем вручную перепроверены и дополнены человеческой оценкой на Yandex.Toloka.

Пожалуйста, будьте внимательны! PArsed RUssian Sentences — это другой датасет (морфологически и синтаксически аннотированный корпус предложений русского литературного языка ), он не является частью Russian SuperGLUE.

Человеческая оценка

Человеческая оценка производилась с помощью платформы Яндекс.Толока с перекрытием разметчиков равным 3. Примеры заданий находятся в репозитории проекта.

Финальная оценка точности человека: 0.982

Список литературы

[1] Original COPA paper: Roemmele, M., Bejan, C., and Gordon, A. (2011) Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning. AAAI Spring Symposium on Logical Formalizations of Commonsense Reasoning, Stanford University, March 21-23, 2011.

[2] Wang A. et al. Superglue: A stickier benchmark for general-purpose language understanding systems //Advances in Neural Information Processing Systems. – 2019. – С. 3261-3275.

[3] Tatiana Shavrina, Alena Fenogenova, Emelyanov Anton, Denis Shevelev, Ekaterina Artemova, Valentin Malykh, Vladislav Mikhailov, Maria Tikhonova, Andrey Chertok, and Andrey Evlampiev. 2020. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4717–4726, Online. Association for Computational Linguistics.