MultiQ
Описание задачи
MultiQ - это вопросно-ответный multi-hop датасет для русского языка. Датасет основан на одноименном датасете из бенчмарка TAPE.
Ключевые слова: multi-hop QA, вопросно-ответное задание, знания о мире, логика
Авторы: Екатерина Такташева, Татьяна Шаврина, Алена Феногенова, Денис Шавелев, Надежда Катричева, Мария Тихонова, Альбина Ахметгареева, Олег Зинкевич, Анастасия Башмакова, Светлана Иорданская, Алена Спиридонова, Валентина Курешникова, Екатерина Артемова, Владислав Михайлов
Мотивация
Вопросно-ответные системы всегда играли важную роль в задачах обработки естественного языка. Однако некоторые области , связанные с вопросно-ответными заданиями, все еще являются достаточно сложными для современных моделей. К таким задачам относятся в том числе вопросно-ответные multi-hop задачи. такие как MultiQ.
Описание датасета
Поля данных
meta
— словарь, содержащий метаинформацию о примере:id
— номер примера в датасете;bridge_answer
— список сущностей, необходимых для того чтобы с использованием двух имеющихся текстов дать по ним ответ на вопрос, содержащийся в полеoutputs
;
instruction
— строка содержащая инструкции для задания;inputs
— словарь, содержащий следующую информацию:text
— строка с основным текстом;support_text
— строка с дополнительным текстом;question
— вопрос, ответ на который содержится в данных текстах;
outputs
— строка, содержащая правильный ответ.
Примеры данных
Каждый пример состоит из двух текстов (основного и дополнительного), а также вопроса по этим текстам, на который необходимо дать правильный ответ.
{
"instruction": "Даны два текста:\nТекст 1: {support_text}\nТекст 2: {text}\nОпираясь на данные тексты, ответьте на вопрос: {question}\nВаш ответ не должен содержать дополнительные объяснения.\nОтвет:",
"inputs": {
"text": "Нижний Новгород (в разговорной речи часто — \"Нижний\", c XIII по XVII век — Новгород Низовской земли, с 7 октября 1932 по 22 октября 1990 года — Горький) — город в центральной России, административный центр Приволжского федерального округа и Нижегородской области. Второй по численности населения город в Приволжском федеральном округе и на реке Волге.\\n\\nКультура.\\nИсторический центр Нижнего Новгорода, расположенный в Нагорной части города, несмотря на значительные перестройки, сохранил значительное число исторических гражданских строений XVIII — начала XX веков, включая многочисленные памятники деревянного зодчества. Дмитриевская башня Кремля выходит на историческую площадь Минина и Пожарского. Нижегородский кремль является официальной резиденцией Городской думы Нижнего Новгорода и правительства Нижегородской области. Зоопарк \"Лимпопо\". Зоопарк \"Лимпопо\" — первый частный зоопарк в России, расположенный в Московском районе.",
"support_text": "Евгений Владимирович Крестьянинов (род. 12 июля 1948, Горький) — российский государственный деятель.",
"question": "Как называется законодательный орган города, где родился Евгений Владимирович Крестьянинов?"
},
"outputs": "Городской думы",
"meta": {
"id": 0,
"bridge_answers": "Горький"
}
}
Разбиение данных
Датасет состоит из 1056 обучающих примеров (train set) и 900 тестовых примеров (test set).
Промпты
Для датасета было подготовлено 10 промптов различной сложности.
Пример промпта: "Текст 1: {support_text}\nТекст 2: {text}\nОпираясь на данные тексты, ответьте на вопрос: {question}\nЗапишите только ответ без дополнительных объяснений.\nОтвет:"
Создание датасета
Датасет основан на соответствующем датасете из бенчмарка TAPE [1], и был собран из текстов Википедии и WikiData. Полное описание сбора данных можно найти по ссылке.
Оценка
Метрики
Для оценки моделей на данном датасете используется две метрики: F1 score и полное совпадение (Exact Match - EM).
Человеческая оценка
Результаты F1 score /EM равны 0.92 / 0.91, соответственно.
Литература
[1] Taktasheva, Ekaterina, et al. "TAPE: Assessing Few-shot Russian Language Understanding." Findings of the Association for Computational Linguistics: EMNLP 2022. 2022.