RWSD
Описание
Russian Winograd Schema Dataset (RWSD) - это задание, в котором в предложении выделено два текстовых фрагмента. Задача состоит в том, чтобы определить, употреблены ли они в одном смысле или в разных. Схема берет свое имя из известного примера Терри Винограда.
Корпус заданий составлен как вызов для ИИ в соответствии с тестом Тьюринга. Одним из плюсов такой постановки задания является простая форма машинного ответа, и ответы системы делают даже для неспециалистов очевидным недостаток в знаниях проблемы в понимании задания машиной. Сделан на основе английского сета аналога [1, 2], входит в Russian SuperGLUE [3].
Тип задачи: Логика и аргументация, знания о мире. Бинарная классификация: да/нет
Ключевые слова: Логика, Знания о мире, Здравый смысл
Авторы: Татьяна Шаврина, Алена Феногенова, Валентин Малых, Екатерина Артемова, Владислав Михайлов, Мария Тихонова, Денис Шевелёв, Антон Емельянов, Андрей Евлампиев
Мотивация
Датасет проверяет способности моделей выявлять и разрешать синтаксическую неоднозначность, используя логику и знания о мире. Классический сет Терри Винограда. Датасет в бенчмарке RussianSuperGLUE один из немногих, для которых всё ещё сохраняется значительный разрыв между оценками моделей и человеческой.
Описание Датасета
Поля датасета
meta
— метаинформация о задаче:-
id
— номер примера в датасете;
-
instruction
— строка содержащая инструкции для задания;inputs
— словарь, содержащий следующую информацию:text
— текст, содержащий исходную ситуацию, обычно предложение, которое содержит некоторую синтаксическую неоднозначность;span1_index
иspan_text
— индекс начала слова и само слово - объект ситуации (референт);span2_index
иspan2_text
— индекс начала слова и само слово - (анафор) обычно местоимение, для которого требуется определить, употребляется ли оно в том же смысле что и референт или нет;
outputs
— строка с бинарным ответом (Да или Нет).
Примеры Данных
Каждый пример выглядит следующим образом:
{
"instruction": "Перед тобой текст: \"{text}\"\nОпираясь на текст, скажи, относится ли местоимение во фрагменте текста \"{span2_text}\" к объекту фрагмента \"{span1_text}\"? В качестве ответа выдай одно слово: Да, если относится, или Нет, если не относится. Напиши только правильный ответ без дополнительных объяснений.",
"inputs": {
"text": "Члены городского совета отказали организаторам митинга в разрешении, потому что они опасались насилия.",
"span1_index": 0,
"span1_text": "Члены городского совета",
"span2_index": 10,
"span2_text": "они опасались"
},
"outputs": "Да",
"meta": {
"id": 0
}
}
Разбиение данных
Количество обучающих примеров в датаcете равно 606, валидационных — 204, тестовых — 260.
Промпты
Промпты представлены в виде инструкций, в которых даны текст, обозначены вставки для выделенных слов, и объяснено как модели отвечать. Для задания подобраны 10 инструкций разной сложности.
Пример промпта:
"Дан небольшой текст и два выделенных в нем фрагмента, \"{span1_text}\" и \"{span2_text}\". Текст: \"{text}\" Ответь, относится ли \"{span2_text}\" к \"{span1_text}\" в этом тексте? Напиши Да, если относится, если не относится — напиши Нет."
Создание датасета
Датасет создан на основе соотвествующего датасета из Russian SuperGLUE [3], тестовая часть была дополнительна выверена и дополнена новыми примера для баланса классов (баланс классов 130 на 130 примеров). Все примеры для исходного сета из Russian SuperGLUE были переведены в инструктивный формат.
Оценка
Метрики
В качестве метрики для оценки качества на данном датасете используется точность (Accuracy).
Человеческая оценка
Человеческая оценка производилась с помощью платформы Яндекс.Толока с перекрытием разметчиков равным 5.
Финальная оценка точности человека: 0.835
Список литературы
[1] Levesque, H. J., Davis, E., & Morgenstern, L. (2012). The winograd schema challenge. In 13th International Conference on the Principles of Knowledge Representation and Reasoning, KR 2012 (pp. 552-561). (Proceedings of the International Conference on Knowledge Representation and Reasoning). Institute of Electrical and Electronics Engineers Inc.
[2] Wang A. et al. Superglue: A stickier benchmark for general-purpose language understanding systems //Advances in Neural Information Processing Systems. – 2019. – С. 3261-3275.
[3] Tatiana Shavrina, Alena Fenogenova, Emelyanov Anton, Denis Shevelev, Ekaterina Artemova, Valentin Malykh, Vladislav Mikhailov, Maria Tikhonova, Andrey Chertok, and Andrey Evlampiev. 2020. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4717–4726, Online. Association for Computational Linguistics.