Задачи

Скачать

CheGeKa

Описание задачи

Задание содержит вопросы из игры “Что? Где? Когда?” и представляет из себя вопросно-ответное задание со свободным ответом. Датасет основан на одноименном датасете из бенмарка TAPE [1].

Ключевые слова: знания о мире, логика, вопросно-ответные задачи, открытые вопросно-ответные задачи

Авторы: Екатерина Такташева, Татьяна Шаврина, Алена Феногенова, Денис Шавелев, Надежда Катричева, Мария Тихонова, Альбина Ахметгареева, Олег Зинкевич, Анастасия Башмакова, Светлана Иорданская, Алена Спиридонова, Валентина Курешникова, Екатерина Артемова, Владислав Михайлов

Мотивация

В диагностическом задании мы стремимся ответить на следующий вопрос: могут ли большие языковые модели эффективно перефразировать токсичную и оскорбительную лексику вежливыми альтернативами, сохраняя при этом первоначальный смысл и качество текста? В этом задании оценивается способность модели распознавать и преобразовывать токсичные предложения в более вежливые, что требует глубокого понимания языковых нюансов и умения создавать альтернативные выражения без изменения предполагаемого сообщения. По сути, мы стремимся оценить, насколько хорошо языковые модели могут нормализовывать и улучшать текст для более уважительного общения.

Это задание считается крайне сложным, так как требует логических рассуждений и знаний о мире. Задание предполагает пары QA со свободной формой ответа (без выбора ответа); однако правильный ответ образует длинная цепочка причинно-следственных связей между фактами и ассоциациями.

Описание датасета

Поля данных

  • meta — словарь, содержащий метаинформацию о примере:
    • id — номер примера в датасете;
    • author — автор вопроса;
    • tour name — название игры, в которой использовался вопрос;
    • tour_link — ссылка на игру, в которой использовался вопрос (None для тестового сета);
  • instruction — инструктивный промпт заданный под текущее задание;
  • inputs — словарь, содержащий следующую входную информацию;
    • text — текстовый фрагмент с вопросом из игры “Что? Где? Когда?”;
    • topic — строка, содержащая категорию вопроса;
  • outputs — строка, содержащая правильный ответ на вопрос.

Примеры данных

Каждый пример содержит инструкцию (промпт), вопрос, тему вопроса, правильный ответ и метаинформацию.

{
    "instruction": "Вы участвуете в викторине “Что? Где? Когда?”. Внимательно прочитайте вопрос из категории \\"{topic}\\" и ответьте на него.\\nВопрос: {text}\\nВ качестве ответа запишите только ваш вариант без дополнительных объяснений.\\nОтвет:",
    "inputs": {
	  "text": "В корриде, кроме быка, он тоже играет одну из главных ролей.",
	  "topic": "\\"ТОР\\""
    },
    "outputs": [
       "Тореадор"
    ],
    "meta": {
      "id": 7571,
      "author": "Максим Стасюк",
      "tour_name": "Своя игра. ШДК им. Рабиндраната Дебендранатовича Тагора",
      "tour_link": ""
    }
}

Разбиение данных

Датасет состоит из 29376 обучающих примеров (train set) и 416 тестовых примеров (test set).

Промпты

Для датасета было создано 4 промпта различной сложно.

Пример промпта:

"Вы участвуете в викторине “Что? Где? Когда?”. Категория вопроса: {topic}\\\\nВнимательно прочитайте вопрос и ответьте на него: {text}\\\\nОтвет:"

Создание датасета

Датасет основан на соотвествующем датасете из бенчмарка TAPE [1], который, в свою очередь, был создан на основе оригинального корпусы с вопросами из игры “Что? Где? Когда?” [2].

Оценка

Метрики

Для оценки моделей на данном датасете используется две метрики: F1 score и полное совпадение (Exact Match - EM).

Человеческая оценка

Результаты F1 score /EM равны 0.719 / 0.645, соотвественно.

Литература

[1] Taktasheva, Ekaterina, et al. "TAPE: Assessing Few-shot Russian Language Understanding." Findings of the Association for Computational Linguistics: EMNLP 2022. 2022.

[2] Mikhalkova, Elena, and Alexander A. Khlyupin. "Russian Jeopardy! Data Set for Question-Answering Systems." Proceedings of the Thirteenth Language Resources and Evaluation Conference. 2022.