PARus
Описание задачи
«Выбор вероятных альтернатив» (Choice of Plausible Alternatives for Russian language — PARus) предоставляет исследователям инструмент для оценки прогресса в задаче причинно-следственных рассуждений с учетом здравого смысла (commonsense causal reasoning), на общетематических данных. Каждый вопрос в PARus состоит из ситуации-посылки и двух альтернатив, где задача состоит в том, чтобы выбрать альтернативу, которая более вероятно имеет причинно-следственную связь с посылкой. Правильная альтернатива рандомизирована, так что ожидаемая эффективность случайного угадывания составляет 50%.
Датасет входит в бечнмарк Russian SuperGLUE, был переведен в инструктивный формат и перепроверен. Исходный сет является аналогом английского датасета COPA.
Ключевые слова: Оценка здравого смысла, причинно-следственные связи, бинарная классификация
Авторы: Татьяна Шаврина, Алена Феногенова, Валентин Малых, Екатерина Артемова, Владислав Михайлов, Мария Тихонова, Денис Шевелёв, Антон Емельянов, Андрей Евлампиев
Мотивация
Датасет проверят способности моделей выявлять причинно-следственные связи в тексте, а также делать здравые выводы на их основе. Датасет в бенчмарке RussianSuperGLUE один из немногих, для которых всё ещё сохраняется значительный разрыв между оценками моделей и человеческой.
Описание данных
Примеры датасета
Каждый пример данных датасета представляет собой некоторую ситуацию (предпосылку)
, и два варианта продолжения ситуаций в зависимости от тега причины premise
или следствия cause
.
effect
— инструктивный промпт заданный под текущее задание;
instruction
— задача, исходная ситуация (посылка);
premise
— первый вариант ответа (первая альтернатива);
choice1
— второй вариант ответа (вторая альтернатива);
choice2
— мета-информация о задаче:
meta
— класс задачи (является ли альтернатива причиной или следствием);
task
— номер примера из датасета.
id
Варианты ответа пишутся в поле
: строковые значения outputs
или 1
.
2
Разбиение датасета
Количество обучающих примеров в датаcете 400 обучающих, 100 валидационных и 500 тестовых примеров.
Примеры данных
{
"instruction": "Дано описание ситуации: \"{premise}\" и два возможных продолжения текста: 1. {choice1} 2. {choice2} Определи, какой из двух фрагментов является причиной описанной ситуации? Выведи одну цифру правильного ответа.",
"inputs": {
"premise": "Моё тело отбрасывает тень на траву.",
"choice1": "Солнце уже поднялось.",
"choice2": "Трава уже подстрижена."
},
"outputs": "1",
"meta": {
"task": "cause",
"id": 0
}
}
Промпты
Для этой задачи было создано 10 промптов отдельно для причины (cause) и для следствия (effect).
Например:
Для причины
"Дана текстовая ситуация: \"{premise}\" и два текста продолжения: 1) {choice1} 2) {choice2} Определи, какой из двух фрагментов является причиной описанной ситуации? В качестве ответа выведи одну цифру 1 или 2."
.
Для следствия
"Дано описание ситуации: \"{premise}\" и два фрагмента текста: 1) {choice1} 2) {choice2} Определи, какой из двух фрагментов является следствием описанной ситуации? В качестве ответа выведи цифру 1 (первый текст) или 2 (второй текст)."
.
Создание датасета
Все примеры для исходного сета из Russian SuperGLUE были собраны из открытых новостных источников и литературных журналов, затем вручную перепроверены и дополнены человеческой оценкой на Yandex.Toloka.
Пожалуйста, будьте внимательны! PArsed RUssian Sentences — это другой датасет (морфологически и синтаксически аннотированный корпус предложений русского литературного языка ), он не является частью Russian SuperGLUE.
Оценка
Метрики
В качестве метрики для оценки используется точность (Accuracy).
Человеческая оценка
Человеческая оценка производилась с помощью платформы Яндекс.Толока с перекрытием разметчиков равным 3. Примеры заданий находятся в репозитории проекта.
Финальная оценка точности человека: 0.982
Список литературы
[1] Original COPA paper: Roemmele, M., Bejan, C., and Gordon, A. (2011) Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning. AAAI Spring Symposium on Logical Formalizations of Commonsense Reasoning, Stanford University, March 21-23, 2011.
[2] Wang A. et al. Superglue: A stickier benchmark for general-purpose language understanding systems //Advances in Neural Information Processing Systems. – 2019. – С. 3261-3275.
[3] Tatiana Shavrina, Alena Fenogenova, Emelyanov Anton, Denis Shevelev, Ekaterina Artemova, Valentin Malykh, Vladislav Mikhailov, Maria Tikhonova, Andrey Chertok, and Andrey Evlampiev. 2020. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4717–4726, Online. Association for Computational Linguistics.