MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

MultiQ — это вопросно-ответный multi-hop датасет для русского языка. Датасет основан на одноименном датасете из бенчмарка TAPE.

Ключевые слова: multi-hop QA, вопросно-ответное задание, знания о мире, логика

Авторы: Екатерина Такташева, Татьяна Шаврина, Алена Феногенова, Денис Шавелев, Надежда Катричева, Мария Тихонова, Альбина Ахметгареева, Олег Зинкевич, Анастасия Башмакова, Светлана Иорданская, Алена Спиридонова, Валентина Курешникова, Екатерина Артемова, Владислав Михайлов

Мотивация

Вопросно-ответные системы всегда играли важную роль в задачах обработки естественного языка. Однако некоторые области, связанные с вопросно-ответными заданиями, все еще являются достаточно сложными для современных моделей. К таким задачам относятся в том числе вопросно-ответные multi-hop задачи. такие как MultiQ.

Поля данных

Каждый пример состоит из двух текстов (основного и дополнительного), а также вопроса по этим текстам, на который необходимо дать правильный ответ.

meta — словарь, содержащий метаинформацию о примере:
- id — номер примера в датасете;
- bridge_answer — список сущностей, необходимых для того чтобы с использованием двух имеющихся текстов дать по ним ответ на вопрос, содержащийся в поле outputs;
instruction — строка содержащая инструкции для задания;
inputs — словарь, содержащий следующую информацию:
- text — строка с основным текстом;
- support_text — строка с дополнительным текстом;
- question — вопрос, ответ на который содержится в данных текстах;
outputs — строка, содержащая правильный ответ.

Промпты

Для датасета было подготовлено 10 промптов различной сложности.

Пример промпта: "Текст 1: {support_text}\nТекст 2: {text}\nОпираясь на данные тексты, ответьте на вопрос: {question}\nЗапишите только ответ без дополнительных объяснений.\nОтвет:"

Создание датасета

Датасет основан на соответствующем датасете из бенчмарка TAPE [1], и был собран из текстов Википедии и WikiData. Полное описание сбора данных можно найти по ссылке.

Человеческая оценка

Результаты F1 score / EM равны 0.92 / 0.91, соответственно.

Литература

[1] Taktasheva, Ekaterina, et al. "TAPE: Assessing Few-shot Russian Language Understanding." Findings of the Association for Computational Linguistics: EMNLP 2022. 2022.