Задачи

Скачать

CheGeKa

Описание задачи

Задание содержит вопросы из игры “Что? Где? Когда?” и представляет из себя вопросно-ответное задание со свободным ответом. Датасет основан на одноименном датасете из бенмарка TAPE [1].

Ключевые слова: знания о мире, логика, вопросно-ответные задачи, открытые вопросно-ответные задачи

Авторы: Екатерина Такташева, Татьяна Шаврина, Алена Феногенова, Денис Шавелев, Надежда Катричева, Мария Тихонова, Альбина Ахметгареева, Олег Зинкевич, Анастасия Башмакова, Светлана Иорданская, Алена Спиридонова, Валентина Курешникова, Екатерина Артемова, Владислав Михайлов

Мотивация

Это задание считается крайне сложным, так как требует логических рассуждений и знаний о мире. Задание предполагает вопросы со свободной формой ответа (без выбора ответа); однако правильный ответ образует длинная цепочка причинно-следственных связей между фактами и ассоциациями.

Описание датасета

Поля данных

  • meta — словарь, содержащий метаинформацию о примере:
    • id — номер примера в датасете;
    • author — автор вопроса;
    • tour name — название игры, в которой использовался вопрос;
    • tour_link — ссылка на игру, в которой использовался вопрос (None для тестового сета);
  • instruction — инструктивный промпт заданный под текущее задание;
  • inputs — словарь, содержащий следующую входную информацию;
    • text — текстовый фрагмент с вопросом из игры “Что? Где? Когда?”;
    • topic — строка, содержащая категорию вопроса;
  • outputs — строка, содержащая правильный ответ на вопрос.

Примеры данных

Каждый пример содержит инструкцию (промпт), вопрос, тему вопроса, правильный ответ и метаинформацию.

{
    "instruction": "Вы участвуете в викторине “Что? Где? Когда?”. Внимательно прочитайте вопрос из категории \\"{topic}\\" и ответьте на него.\\nВопрос: {text}\\nВ качестве ответа запишите только ваш вариант без дополнительных объяснений.\\nОтвет:",
    "inputs": {
	  "text": "В корриде, кроме быка, он тоже играет одну из главных ролей.",
	  "topic": "\\"ТОР\\""
    },
    "outputs": [
       "Тореадор"
    ],
    "meta": {
      "id": 7571,
      "author": "Максим Стасюк",
      "tour_name": "Своя игра. ШДК им. Рабиндраната Дебендранатовича Тагора",
      "tour_link": ""
    }
}

Разбиение данных

Датасет состоит из 29376 обучающих примеров (train set) и 416 тестовых примеров (test set).

Промпты

Для датасета было создано 4 промпта различной сложно.

Пример промпта:

"Вы участвуете в викторине “Что? Где? Когда?”. Категория вопроса: {topic}\\\\nВнимательно прочитайте вопрос и ответьте на него: {text}\\\\nОтвет:"

Создание датасета

Датасет основан на соотвествующем датасете из бенчмарка TAPE [1], который, в свою очередь, был создан на основе оригинального корпусы с вопросами из игры “Что? Где? Когда?” [2].

Оценка

Метрики

Для оценки моделей на данном датасете используется две метрики: F1 score и полное совпадение (Exact Match - EM).

Человеческая оценка

Результаты F1 score /EM равны 0.719 / 0.645, соотвественно.

Литература

[1] Taktasheva, Ekaterina, et al. "TAPE: Assessing Few-shot Russian Language Understanding." Findings of the Association for Computational Linguistics: EMNLP 2022. 2022.

[2] Mikhalkova, Elena, and Alexander A. Khlyupin. "Russian Jeopardy! Data Set for Question-Answering Systems." Proceedings of the Thirteenth Language Resources and Evaluation Conference. 2022.