Задачи

Скачать

ruMMLU

Описание задачи

Russian Massive Multitask Language Understanding (ruMMLU) — датасет, направленный на оценку экспертных знаний модели, полученных на этапе предобучения, в различных областях знаний. Задание покрывает 57 направлений (поддоменов) в ряде областей знаний: HUMANITIES; SOCIAL SCIENCE; SCIENCE, TECHNOLOGY, ENGINEERING, AND MATHEMATICS (STEM); OTHER. Датасет ruMMLU был создан на основе английского датасета MMLU [1] и в своей структуре следует его методологии в инструктивном формате. Каждый пример в датасете состоит из вопроса по одному из направлений и четырех вариантов ответа, из которых только один правильный.

Важно! В целях избежания утечки данных, для ruMMLU мы создали НОВУЮ закрытую тестовую часть датасета, которая по своей структуре и методологии полностью повторяет оригинальный тест MMLU, но содержит новые примеры. В связи с этим результаты моделей на MMLU и ruMMLU нельзя напрямую сравнивать между собой.

Ключевые слова: логика, знания о мире, фактология, экспертные знания.

Мотивация

Данный датасет является продолжением идеи GLUE [2] и SuperGLUE [3] по обобщенной оценке задачи понимания языка (NLU). В отличие от датасетов типа ruWorldTree и ruOpenBookQA (где вопросы по формату схожи с MMLU), которые покрывают тесты школьной программы и элементарных знаний, ruMMLU предназначен для проверки экспертных знаний в различных областях.

Описание Датасета

Поля Данных

  • instruction — инструкция для заданой задачи;
  • inputs — словарь, который содержит следующую информацию:
    • text — вопрос теста;
    • option_a — опция A;
    • option_b — опция B;
    • option_c — опция C;
    • option_d — опция D;
    • subject — тема вопроса = область знаний (обобщение группы поддоменов по смыслу);
  • outputs — результат: может быть одной из следующих строковых переменных: A, B, C, D;
  • meta — метаинформация о задании:
    • id — номер примера из датасета;
    • domain — поддомен вопроса.

Примеры Данных

Каждый пример данных выглядит следующим образом:

{
    "instruction": "Задание содержит вопрос по теме {subject} и 4 варианта ответа A, B, C, D, из которых только один правильный.\\n{text}\\nA {option_a}\\nB {option_b}\\nC {option_c}\\nD {option_d}\\nЗапишите букву правильного ответа\\nОтвет:"
    "inputs": {
	"text": "Пусть A - множество всех упорядоченных пар целых чисел (m, n), таких, что 7m + 12n = 22. Какое наибольшее отрицательное число в множестве B = {m + n : (m, n) \\\\in A}?\\n",
	"option_a": "-5",
	"option_b": "-4",
	"option_c": "-3",
	"option_d": "-2",
	"subject": "математика"
    }
    "outputs": "B"
    "meta": {
	"id": 666,
        "domain": "college_mathematics"
    }
}

Разбиение данных

Обучающая выборка составляет 10033 примеров.

Тестовая закрытая часть содержит 961 написанных вручную примеров.

Промпты

Промпты представлены в виде инструкций, всего 5 различных промптов.

Пример:

"Ниже приведен вопрос на определенную профессиональную тематику {subject} и даны варианты ответа A, B, C, D. Гарантируется, что только один из ответов правильный.\nПравильно ответьте на вопрос, выбрав букву A, B, C или D:\n{text}\nA {option_a}\nB {option_b}\nC {option_c}\nD {option_d}\nОтвет:".

Создание Датасета

Обучающий датасет ruMMLU основан на оригинальном датасете, который был переведен и адаптирован под русский язык следующим образом: 1) переведен на русский язык с помощью автоперевода 2) перевод верифицирован на платформе Yandex.Toloka 3) данные, отбракованные при верификации, были вручную скорректированы и русифицированы. После чего все данные были приведены к единому формату. Текущая обучающая выборка не является финальной и будет в дальнейшем обновляться.

Для закрытой тестовой выборки был вручную собран НОВЫЙ тестовый датасет по методологии исходного теста в таком же формате. Данный сет был адаптирован под специфику русского языка и русскую культуру.

Оценка

Метрики

В качестве метрики точность (Accuracy). Следуя оригинальной методологии [1], задание оценивают в формате few-shot с пятью шотами.

Человеческая оценка

Согласно оригинальной статье [1]: точность этого теста на человеческом уровне варьируется. Неспециализированные люди из Amazon Mechanical Turk получают accuracy 34,5%. Между тем, производительность экспертного уровня может быть намного выше. Например, реальная человеческая оценка тестируемых на уровне 95-го процентиля составляет около 87% для экзаменов на получение медицинской лицензии в США.

Точность разметчиков на тестовых данных составила 84.4%.

Ограничения

Вопросы относятся к человеческим знаниям актуальным для train части на момент 1 января 2020 года, для test части на момент 31 октября 2023 года.

Ссылки

[1] Hendrycks, Dan, et al. "Measuring Massive Multitask Language Understanding." International Conference on Learning Representations. 2020.  

[2] Wang, Alex, et al. "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding." International Conference on Learning Representations. 2018.

[3] Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." Advances in neural information processing systems 32 (2019).

[4] Переведенная версия MMU для русского языка (без фильтрации и чистки) https://github.com/NLP-Core-Team/mmlu_ru

[5] The 🤗 Open LLM Leaderboard (содержит внутри MMLU, замеры происходят по 5-шотам) https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard