MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

Задание содержит вопросы из игры “Что? Где? Когда?” и представляет из себя вопросно-ответное задание со свободным ответом. Датасет основан на одноименном датасете из бенчмарка TAPE [1].

Ключевые слова: знания о мире, логика, вопросно-ответные задачи, открытые вопросно-ответные задачи

Авторы: Екатерина Такташева, Татьяна Шаврина, Алена Феногенова, Денис Шевелев, Надежда Катричева, Мария Тихонова, Альбина Ахметгареева, Олег Зинкевич, Анастасия Башмакова, Светлана Иорданская, Алена Спиридонова, Валентина Курешникова, Екатерина Артемова, Владислав Михайлов

Мотивация

Это задание считается крайне сложным, так как требует логических рассуждений и знаний о мире. Задание предполагает вопросы со свободной формой ответа (без выбора ответа); однако правильный ответ образует длинная цепочка причинно-следственных связей между фактами и ассоциациями.

Поля данных

meta — словарь, содержащий метаинформацию о примере:
- id — номер примера в датасете;
- author — автор вопроса;
- tour name — название игры, в которой использовался вопрос;
- tour_link — ссылка на игру, в которой использовался вопрос (None для тестового сета);
instruction — инструктивный промпт заданный под текущее задание;
inputs — словарь, содержащий следующую входную информацию;
- text — текстовый фрагмент с вопросом из игры “Что? Где? Когда?”;
- topic — строка, содержащая категорию вопроса;
outputs — строка, содержащая правильный ответ на вопрос.

Промпты

Для датасета было создано 10 промптов различной сложности.

Пример промпта:

"Вы участвуете в викторине “Что? Где? Когда?”. Категория вопроса: {topic}\nВнимательно прочитайте и ответьте на него только словом или фразой. Вопрос: {text}\nОтвет:"

Создание датасета

Датасет основан на соотвествующем датасете из бенчмарка TAPE [1], который, в свою очередь, был создан на основе оригинального корпуса с вопросами из игры “Что? Где? Когда?” [2].

Человеческая оценка

Результаты F1 score / Exact Match равны 0.719 / 0.645, соотвественно.

Литература

[1] Taktasheva, Ekaterina, et al. "TAPE: Assessing Few-shot Russian Language Understanding." Findings of the Association for Computational Linguistics: EMNLP 2022. 2022.

[2] Mikhalkova, Elena, and Alexander A. Khlyupin. "Russian Jeopardy! Data Set for Question-Answering Systems." Proceedings of the Thirteenth Language Resources and Evaluation Conference. 2022.

CheGeKa