PARus
Описание задачи
«Выбор вероятных альтернатив» (Choice of Plausible Alternatives for Russian language — PARus) предоставляет исследователям инструмент для оценки прогресса в задаче причинно-следственных рассуждений с учетом здравого смысла (commonsense causal reasoning), на общетематических данных. Каждый вопрос в PARus состоит из ситуации-посылки и двух альтернатив, где задача состоит в том, чтобы выбрать альтернативу, которая более вероятно имеет причинно-следственную связь с посылкой. Правильная альтернатива рандомизирована, так что ожидаемая эффективность случайного угадывания составляет 50%.
Датасет входит в бечнмарк Russian SuperGLUE, был переведен в инструктивный формат и перепроверен. Исходный сет является аналогом английского датасета COPA.
Ключевые слова: Оценка здравого смысла, причинно-следственные связи, бинарная классификация
Авторы: Татьяна Шаврина, Алена Феногенова, Валентин Малых, Екатерина Артемова, Владислав Михайлов, Мария Тихонова, Денис Шевелёв, Антон Емельянов, Андрей Евлампиев
Мотивация
Датасет проверят способности моделей выявлять причинно-следственные связи в тексте, а также делать здравые выводы на их основе. Датасет в бенчмарке RussianSuperGLUE один из немногих, для которых всё ещё сохраняется значительный разрыв между оценками моделей и человеческой.
Описание данных
Примеры датасета
Каждый пример данных датасета представляет собой некоторую ситуацию предпоссылки
, и два варианта продолжения ситуаций в зависимости от тега причины premise
или следствия cause
.
effect
— инструктивный промпт заданный под текущее задание;
instruction
— задача, исходная ситуация поссылка;
premise
— первый вариант ответа (первая альтернатива);
choice1
— второй вариант ответа (вторая альтернатива);
choice2
— мета-информация о задаче:
meta
— класс задачи (является ли альтернатива причиной или следствием);
task
— номер примера из датасета.
id
Варианты ответа пишутся в поле
: строковые значения outputs
или 1
.
2
{
"instruction": "Дано описание ситуации:\\n'{premise}'\\nи два фрагмента текста:\\n1. {choice1}\\n2. {choice2}\\nОпредели, какой из двух фрагментов является следствием описанной ситуации? Ответь одной цифрой 1 или 2, ничего не добавляя.",
"inputs": {
"premise": "Власти пообещали сохранить в тайне личность жертвы преступления.",
"choice1": "Жертва изо всех сил пыталась вспомнить подробности преступления.",
"choice2": "Они скрывали имя жертвы от общественности."
},
"outputs": "2",
"meta": {
"task": "effect",
"id": 72
}
}
Разбиение датасета
Количество обучающих примеров в датаcете 400, 100 валидационных примеров и 500 тестовых.
Промпты
Промпты представлены отдельно для причины
и для следствия cause
effect
Например:
для причины
Дано описание ситуации:\\n'{premise}'\\nи два фрагмента текста:\\n1. {choice1}\\n2. {choice2}\\nОпредели, какой из двух фрагментов является причиной описанной ситуации? Ответь одной цифрой 1 или 2, ничего не добавляя.
для следствия
Дано описание ситуации:\\n'{premise}'\\nи два фрагмента текста:\\n1. {choice1}\\n2. {choice2}\\nОпредели, какой из двух фрагментов является следствием описанной ситуации? Ответь одной цифрой 1 или 2, ничего не добавляя.
Создание датасета
Все примеры для исходного сета из Russian SuperGLUE были собраны из открытых новостных источников и литературных журналов, затем вручную перепроверены и дополнены человеческой оценкой на Yandex.Toloka.
Пожалуйста, будьте внимательны! PArsed RUssian Sentences это другой датасет (морфологически и синтаксически аннотированный корпус предложений русского литературного языка ), он не является частью Russian SuperGLUE.
Оценка
Метрики
В качестве метрики для оценки используется точность (Accuracy).
Человеческая оценка
Человеческая оценка производилась с помощью платформы Яндекс.Толока с перекрытием разметчиков равным 3. Примеры заданий находятся в репозитории проекта.
Финальная оценка точности человека: 0.982
Список литературы
[1] Original COPA paper: Roemmele, M., Bejan, C., and Gordon, A. (2011) Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning. AAAI Spring Symposium on Logical Formalizations of Commonsense Reasoning, Stanford University, March 21-23, 2011.
[2] Wang A. et al. Superglue: A stickier benchmark for general-purpose language understanding systems //Advances in Neural Information Processing Systems. – 2019. – С. 3261-3275.
[3] Tatiana Shavrina, Alena Fenogenova, Emelyanov Anton, Denis Shevelev, Ekaterina Artemova, Valentin Malykh, Vladislav Mikhailov, Maria Tikhonova, Andrey Chertok, and Andrey Evlampiev. 2020. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4717–4726, Online. Association for Computational Linguistics.