MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

ruWorldTree — это QA датасет с четырьмя вариантами ответов (из которых только один правильный), которые оценивают понимание основных научных фактов. Набор создан на основе исходного английского WorldTree [1], который создан на основе корпуса графов и объяснений вопросов элементарных наук. Набор является частью бенчмарка TAPE [2], который был переработан в формат инструкций и отфильтрован.

Ключевые слова: логика, знания о мире, фактология, здравый смысл

Authors: Екатерина Такташева, Татьяна Шаврина, Алена Феногенова, Денис Шевелёв, Надежда Катричева, Мария Тихонова, Альбина Ахметгареева, Олег Зинкевич, Анастасия Башмакова, Светлана Иорданская, Алена Спиридонова, Валентина Куренщикова, Екатерина Артемова, Владислав Михайлов

Мотивация

Дизайн WorldTree был первоначально предложен в [1] . Набор данных WorldTree содержит классы задач “Рассуждение/Логика” и “Знания о мире”. Данные включают в себя корпус фактоидных высказываний разного рода, сложные фактоидные вопросы и соответствующую причинно-следственную цепочку фактов из корпуса, приводящую к правильному ответу. ruWorldTree проверяет, насколько языковые модели знакомы с общеизвестными фактами. Русский ruWorldTree является аналогом WorldTree и является частью бенчмарка TAPE, переработанного под формат команд и отфильтрованного.

Поля данных

meta — метаинформация о задании:
- id — номер примера в датасете;
- exam_name — информации об источнике экзамена;
- school_grade — уровень сложности;
- knowledge_type — тип вопроса;
instruction — инструктивный промпт заданный под текущее задание;
inputs — словарь, который содержит следующую информацию:
- question — вопрос теста;
- option_a — опция A;
- option_b — опция B;
- option_c — опция C;
- option_d — опция D;
outputs — ответ, может быть одни из следующих строковых переменных: A, B, C, D.

Промпты

Промпты представлены в виде инструкции, всего 10 различных промптов.

Примеры промптов:

"{question}\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\nКакой ответ является правильным? В качестве ответа запишите только букву верного варианта: A, B, C или D без дополнительных объяснений.\nОтвет:"

"Опираясь на логику и общеизвестные факты, ответьте на вопрос: {question}\nA. {option_a}\nB. {option_b}\nC. {option_c}\nD. {option_d}\nВ качестве ответа запишите только букву верного варианта: A, B, C или D без дополнительных объяснений.\nОтвет:"

Создание датасета

Вопросы для набора данных взяты из исходного набора данных WorldTree, который был получен из корпуса AI2 Science Questions V2, состоящего как из стандартизированных экзаменационных вопросов из 12 штатов США, так и из набора данных AI2 Science Questions Mercury, набора вопросов, лицензированного органа по оценке учащихся. Набор данных в основном состоит из автоматического перевода английского корпуса WorldTree, а также ручных проверок и русификации Образцы, входящие в набор BIG-Bench, были исключены из версии бенчмарка TAPE и переписаны в инструктивном формате.

Человеческая оценка

Человеческая оценка измерена с помощью платформы Яндекс.Толока с перекрытием разметчиков 3.

Результаты F1 среднего макро и точности: 93.5 / 93.5, соответственно.

Литература

[1] Peter Jansen, Elizabeth Wainwright, Steven Marmorstein, and Clayton Morrison. 2018. WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
[2] Taktasheva, Ekaterina, et al. "TAPE: Assessing Few-shot Russian Language Understanding." Findings of the Association for Computational Linguistics: EMNLP 2022.