Задачи

Скачать

ruMMLU

Описание задачи

Оригинальный Massive Multitask Language Understanding (MMLU) переведен на русский язык. Данный датасет предназначен для измерения профессиональных знаний модели, приобретенных в процессе предобучения в различных областях. Задача охватывает 57 области знаний (поддомена) по различным темам (доменам): ГУМАНИТАРНЫЕ НАУКИ; СОЦИАЛЬНЫЕ НАУКИ; НАУКА, ТЕХНОЛОГИИ, ИНЖЕНЕРИЯ И МАТЕМАТИКА (STEM); ДРУГОЕ. Датасет был переведен на русский язык на основе оригинального MMLU, предложенного в [1], и представлен в инструктивном формате. Каждый пример содержит вопрос из одной из категорий с четырьмя возможными ответами, из которых только один правильный.

Предупреждение: Это диагностический датасет с открытым тестом, он не используется для общей оценки модели по бенчмарку. Результаты на наборах данных MMLU и ruMMLU не могут быть напрямую сопоставлены. Открытые данные — это публичный тестовый сет оригинального MMLU. Не используйте его для обучения моделей!

Ключевые слова: логика, знания о мире, факты, экспертные знания

Мотивация

Датасет является продолжением идеи бенчмарков GLUE [2] и SuperGLUE [3], которые сосредоточены на общей оценке задач по пониманию языка (NLU). В отличие от таких датасетов, как ruWorldTree и ruOpenBookQA (где вопросы похожи на формат MMLU), которые охватывают тесты школьной программы и базовые знания, MMLU предназначен для проверки профессиональных знаний в различных областях. Мы предоставляем публичную тестовую версию MMLU на русском языке для тестирования моделей.

Описание набора данных

Поля данных

  • instruction — это строка, содержащая инструкции для задачи и информацию о требованиях к формату вывода модели;
  • inputs — это словарь, содержащий следующую информацию:
    • text — это тестовый вопрос;
    • option_a — вариант ответа A;
    • option_b — вариант ответа B;
    • option_c — вариант ответа C;
    • option_d — вариант ответа D;
    • subject — тема вопроса (обобщение группы субдоменов по смыслу);
  • outputs — результат: может быть одной из следующих строковых переменных: "A", "B", "C", "D";
  • meta — это словарь, содержащий метаинформацию:
    • id — целое число, указывающее индекс примера;
    • domain — субдомен вопроса.

Примеры данных

Ниже приведен пример из набора данных:

{
    "instruction": "Задание содержит вопрос по теме {subject} и 4 варианта ответа A, B, C, D, из которых только один правильный.\n{text}\nA {option_a}\nB {option_b}\nC {option_c}\nD {option_d}\nЗапишите букву правильного ответа\nОтвет:",
    "inputs": {
        "text": "Найдите все c в Z_3 таким образом, чтобы Z_3[x]/(x ^ 2 + c) было полем.",
        "option_a": "0",
        "option_b": "1",
        "option_c": "2",
        "option_d": "3",
        "subject": "Математика"
    },
    "outputs": "B",
    "meta": {
        "id": 0,
        "domain": "abstract_algebra"
    }
}

Разбиения данных

Тестовая часть содержит 14012 вручную переведённых примеров из тестовой части MMLU. Тренировочная выборка с несколькими примерами (few-shot train) содержит 285 вручную переведённых примеров из dev-части MMLU.

Промпты

Для этой задачи было создано 10 промптов разной сложности. Пример:

"Дан вопрос по теме {subject}: {text}. Варианты ответа:\nA {option_a}\nB {option_b}\nC {option_c}\nD {option_d}\nОпредели, какой вариант ответа правильный. Напиши только букву этого ответа: A, B, C, D. Ответ:"

Создание набора данных

Оригинальный датасет MMLU был переведён с использованием следующего пайплайна: 1) тестовая и dev-часть MMLU была переведена на русский язык с помощью автоматического перевода; 2) переводы были проверены на платформе Yandex.Toloka; 3) данные, не прошедшие проверку, были вручную проверены и русифицированы.

Оценка

Метрики

Датасет оценивается с помощью доли правильных ответов (Accuracy) и, на основе оригинальной методологии, оценивается в формате few-shot с 1 примером.

Человеческий бенчмарк

Согласно оригинальной статье, доля правильных ответов на тесте на английском языке среди людей варьируется: "Не специализированные люди с Amazon Mechanical Turk достигают 34,5% точности на тесте на английском языке. Тем временем, результат на уровне экспертов может быть значительно выше. Например, доля правильных ответов людей на 95-м процентиле на экзаменах для получения медицинской лицензии США составляет около 87%, и эти вопросы составляют наши задачи в категории “Профессиональная медицина”. Если взять долю правильных ответов людей на 95-м процентиле на экзаменах, которые формируют наш тест, и сделать обоснованное предположение, когда такие данные недоступны, то доля правильных ответов на уровне экспертов составляет около 89,8%."

Доля правильных ответов разметчиков на тестовом наборе составляет 84,4%.

Ограничения

Вопросы относятся к знаниям человека, актуальным на 1 января 2020 года.

Ссылки

[1] Hendrycks, Dan, et al. "Measuring Massive Multitask Language Understanding." International Conference on Learning Representations. 2020.

[2] Wang, Alex, et al. "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding." International Conference on Learning Representations. 2018.

[3] Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." Advances in neural information processing systems 32 (2019).

[4] Оригинальный MMLU, переведённый на русский (без фильтрации) https://github.com/NLP-Core-Team/mmlu_ru.

[5] 🤗 Open LLM Leaderboard (содержит внутри MMLU, замеры происходят по 5-шотам) https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard.