Описание задачи
MultiQ — это вопросно-ответный multi-hop датасет для русского языка. Датасет основан на одноименном датасете из бенчмарка TAPE.
Ключевые слова: multi-hop QA, вопросно-ответное задание, знания о мире, логика
Авторы: Екатерина Такташева, Татьяна Шаврина, Алена Феногенова, Денис Шавелев, Надежда Катричева, Мария Тихонова, Альбина Ахметгареева, Олег Зинкевич, Анастасия Башмакова, Светлана Иорданская, Алена Спиридонова, Валентина Курешникова, Екатерина Артемова, Владислав Михайлов
Мотивация
Вопросно-ответные системы всегда играли важную роль в задачах обработки естественного языка. Однако некоторые области, связанные с вопросно-ответными заданиями, все еще являются достаточно сложными для современных моделей. К таким задачам относятся в том числе вопросно-ответные multi-hop задачи. такие как MultiQ.
Поля данных
Каждый пример состоит из двух текстов (основного и дополнительного), а также вопроса по этим текстам, на который необходимо дать правильный ответ.
meta
— словарь, содержащий метаинформацию о примере:id
— номер примера в датасете;bridge_answer
— список сущностей, необходимых для того чтобы с использованием двух имеющихся текстов дать по ним ответ на вопрос, содержащийся в полеoutputs
;
instruction
— строка содержащая инструкции для задания;inputs
— словарь, содержащий следующую информацию:text
— строка с основным текстом;support_text
— строка с дополнительным текстом;question
— вопрос, ответ на который содержится в данных текстах;
outputs
— строка, содержащая правильный ответ.
Промпты
Для датасета было подготовлено 10 промптов различной сложности.
Пример промпта: "Текст 1: {support_text}\nТекст 2: {text}\nОпираясь на данные тексты, ответьте на вопрос: {question}\nЗапишите только ответ без дополнительных объяснений.\nОтвет:"
Создание датасета
Датасет основан на соответствующем датасете из бенчмарка TAPE [1], и был собран из текстов Википедии и WikiData. Полное описание сбора данных можно найти по ссылке.
Человеческая оценка
Результаты F1 score / EM равны 0.92 / 0.91, соответственно.
Литература
[1] Taktasheva, Ekaterina, et al. "TAPE: Assessing Few-shot Russian Language Understanding." Findings of the Association for Computational Linguistics: EMNLP 2022. 2022.