Задачи

Скачать

ruWorldTree

Описание задачи

ruWorldTree — это QA датасет с четырьмя вариантами ответов (из которых только один правильный), которые оценивают понимание основных научных фактов. Набор создан на основе исходного английского WorldTree [1], который создан на основе корпуса графов и объяснений вопросов элементарных наук. Набор является частью бенчмарка TAPE [2], который был переработан в формат инструкций и отфильтрован.

Ключевые слова: логика, знания о мире, фактология, здравый смысл

Authors: Екатерина Такташева, Татьяна Шаврина, Алена Феногенова, Денис Шевелёв, Надежда Катричева, Мария Тихонова, Альбина Ахметгареева, Олег Зинкевич, Анастасия Башмакова, Светлана Иорданская, Алена Спиридонова, Валентина Куренщикова, Екатерина Артемова, Владислав Михайлов

Мотивация

Дизайн WorldTree был первоначально предложен в [1] . Набор данных WorldTree содержит классы задач “Рассуждение/Логика” и “Знания о мире”. Данные включают в себя корпус фактоидных высказываний разного рода, сложные фактоидные вопросы и соответствующую причинно-следственную цепочку фактов из корпуса, приводящую к правильному ответу. ruWorldTree проверяет, насколько языковые модели знакомы с общеизвестными фактами. Русский ruWorldTree является аналогом WorldTree и является частью бенчмарка TAPE, переработанного под формат команд и отфильтрованного.

Описание датасета

Поля данных

  • meta — метаинформация о задании:
    • id — номер примера в датасете;
    • exam_name — информации об источнике экзамена;
    • school_grade — уровень сложности;
    • knowledge_type — тип вопроса;
  • instruction — инструктивный промпт заданный под текущее задание;
  • inputs — словарь, который содержит следующую информацию:
    • question — вопрос теста;
    • option_a — опция A;
    • option_b — опция B;
    • option_c — опция C;
    • option_d — опция D;
  • outputs — ответ, может быть одни из следующих строковых переменных: A, B, C, D.

Примеры данных

Каждый пример выглядит следующим образом:

{
    "instruction": "{question}\\nA. {option_a}\\nB. {option_b}\\nC. {option_c}\\nD. {option_d}\\nКакой ответ является правильным? В качестве ответа запишите только букву верного варианта: A, B, C или D без дополнительных объяснений.\\nОтвет: ",
    "inputs": {
        "question": "Какие из следующих структур развиваются у лягушки, когда она превращается из головастика во взрослую лягушку?",
        "option_a": "глаза",
        "option_b": "сердце",
        "option_c": "легкие",
        "option_d": "хвост"
    },
    "outputs": "C",
    "meta": {
        "id": 5,
        "exam_name": "MCAS",
        "school_grade": 5,
        "knowledge_type": "PROCESS"
    }
}

Разбиение данных

Количество тренировочных примеров в датасете 115, и 525 тестовых.

Промпты

Промпты представлены в виде инструкции, всего 10 различных промптов.

Пример промпта:

{question}\\nA. {option_a}\\nB. {option_b}\\nC. {option_c}\\nD. {option_d}\\nВыберите ответ из списка.\\nОтвет:
Опираясь на логику и общеизвестные факты, ответьте на вопрос: {question}\\nA) {option_a}\\nB) {option_b}\\nC) {option_c}\\nD) {option_d}\\nОтвет:

Создание датасета

Вопросы для набора данных взяты из исходного набора данных WorldTree, который был получен из корпуса AI2 Science Questions V2, состоящего как из стандартизированных экзаменационных вопросов из 12 штатов США, так и из набора данных AI2 Science Questions Mercury, набора вопросов, лицензированного органа по оценке учащихся. Набор данных в основном состоит из автоматического перевода английского корпуса WorldTree, а также ручных проверок и русификации Образцы, входящие в набор BIG-Bench, были исключены из версии бенчмарка TAPE и переписаны в инструктивном формате.

Оценка

Метрики

В качестве метрик используются среднее макро F1 (Average Macro F1) и точность (Accuracy).

Человеческая оценка

Человеческая оценка измерена с помощью платформы Яндекс.Толока с перекрытием разметчиков 3.

Результаты F1 среднего макро и точности: 93.593.5, соответственно.

Литература

  • [1] Peter Jansen, Elizabeth Wainwright, Steven Marmorstein, and Clayton Morrison. 2018. WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
  • [2] Taktasheva, Ekaterina, et al. "TAPE: Assessing Few-shot Russian Language Understanding." Findings of the Association for Computational Linguistics: EMNLP 2022.