Задачи

Скачать

PARus

Описание задачи

«Выбор вероятных альтернатив» (Choice of Plausible Alternatives for Russian language — PARus) предоставляет исследователям инструмент для оценки прогресса в задаче причинно-следственных рассуждений с учетом здравого смысла (commonsense causal reasoning), на общетематических данных. Каждый вопрос в PARus состоит из ситуации-посылки и двух альтернатив, где задача состоит в том, чтобы выбрать альтернативу, которая более вероятно имеет причинно-следственную связь с посылкой. Правильная альтернатива рандомизирована, так что ожидаемая эффективность случайного угадывания составляет 50%.

Датасет входит в бечнмарк Russian SuperGLUE, был переведен в инструктивный формат и перепроверен. Исходный сет является аналогом английского датасета COPA.

Ключевые слова: Оценка здравого смысла, причинно-следственные связи, бинарная классификация

Авторы: Татьяна Шаврина, Алена Феногенова, Валентин Малых, Екатерина Артемова, Владислав Михайлов, Мария Тихонова, Денис Шевелёв, Антон Емельянов, Андрей Евлампиев

Мотивация

Датасет проверят способности моделей выявлять причинно-следственные связи в тексте, а также делать здравые выводы на их основе. Датасет в бенчмарке RussianSuperGLUE один из немногих, для которых всё ещё сохраняется значительный разрыв между оценками моделей и человеческой.

Описание данных

Примеры датасета

Каждый пример данных датасета представляет собой некоторую ситуацию предпоссылки premise , и два варианта продолжения ситуаций в зависимости от тега причины cause или следствия effect.

instruction — инструктивный промпт заданный под текущее задание;

premise— задача, исходная ситуация поссылка;

choice1— первый вариант ответа (первая альтернатива);

choice2— второй вариант ответа (вторая альтернатива);

meta— мета-информация о задаче: 

       task— класс задачи (является ли альтернатива причиной или следствием);

        id — номер примера из датасета.

Варианты ответа пишутся в поле outputs : строковые значения 1 или 2.

{
    "instruction": "Дано описание ситуации:\\n'{premise}'\\nи два фрагмента текста:\\n1. {choice1}\\n2. {choice2}\\nОпредели, какой из двух фрагментов является следствием описанной ситуации? Ответь одной цифрой 1 или 2, ничего не добавляя.",
    "inputs": {
        "premise": "Власти пообещали сохранить в тайне личность жертвы преступления.",
        "choice1": "Жертва изо всех сил пыталась вспомнить подробности преступления.",
        "choice2": "Они скрывали имя жертвы от общественности."
    },
    "outputs": "2",
    "meta": {
        "task": "effect",
        "id": 72
    }
}

Разбиение датасета

Количество обучающих примеров в датаcете 400, 100 валидационных примеров и 500 тестовых. 

Промпты

Промпты представлены отдельно для причины cause и для следствия effect

Например:

для причины

Дано описание ситуации:\\n'{premise}'\\nи два фрагмента текста:\\n1. {choice1}\\n2. {choice2}\\nОпредели, какой из двух фрагментов является причиной описанной ситуации? Ответь одной цифрой 1 или 2, ничего не добавляя.

для следствия

Дано описание ситуации:\\n'{premise}'\\nи два фрагмента текста:\\n1. {choice1}\\n2. {choice2}\\nОпредели, какой из двух фрагментов является следствием описанной ситуации? Ответь одной цифрой 1 или 2, ничего не добавляя.

Создание датасета

Все примеры для исходного сета из Russian SuperGLUE были собраны из открытых новостных источников и литературных журналов, затем вручную перепроверены и дополнены человеческой оценкой на Yandex.Toloka.

Пожалуйста, будьте внимательны! PArsed RUssian Sentences это другой датасет (морфологически и синтаксически аннотированный корпус предложений русского литературного языка ), он не является частью Russian SuperGLUE.

Оценка

Метрики

В качестве метрики для оценки используется точность (Accuracy).

Человеческая оценка

Человеческая оценка производилась с помощью платформы Яндекс.Толока с перекрытием разметчиков равным 3. Примеры заданий находятся в репозитории проекта.

Финальная оценка точности человека: 0.982

Список литературы

  • [1] Original COPA paper: Roemmele, M., Bejan, C., and Gordon, A. (2011) Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning. AAAI Spring Symposium on Logical Formalizations of Commonsense Reasoning, Stanford University, March 21-23, 2011.
  • [2] Wang A. et al. Superglue: A stickier benchmark for general-purpose language understanding systems //Advances in Neural Information Processing Systems. – 2019. – С. 3261-3275.
  • [3] Tatiana Shavrina, Alena Fenogenova, Emelyanov Anton, Denis Shevelev, Ekaterina Artemova, Valentin Malykh, Vladislav Mikhailov, Maria Tikhonova, Andrey Chertok, and Andrey Evlampiev. 2020. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4717–4726, Online. Association for Computational Linguistics.