ruMMLU
Описание задачи
Russian Massive Multitask Language Understanding (ruMMLU) — датасет, направленный на оценку экспертных знаний модели, полученных на этапе предобучения, в различных областях знаний. Задание покрывает 57 направлений (поддоменов) в ряде областей знаний: HUMANITIES; SOCIAL SCIENCE; SCIENCE, TECHNOLOGY, ENGINEERING, AND MATHEMATICS (STEM); OTHER.
Датасет ruMMLU был создан на основе английского датасета MMLU [1] и в своей структуре следует его методологии в инструктивном формате. Каждый пример в датасете состоит из вопроса по одному из направлений и четырех вариантов ответа, из которых только один правильный.
Важно! В целях избежания утечки данных, для ruMMLU мы создали НОВУЮ закрытую тестовую часть датасета, которая по своей структуре и методологии полностью повторяет оригинальный тест MMLU, но содержит новые примеры. В связи с этим результаты моделей на MMLU и ruMMLU нельзя напрямую сравнивать между собой.
Важно! Дополнительные открытые данные это публичный тест из оригинального MMLU! Не используйте его для обучения.
Ключевые слова: логика, знания о мире, фактология, экспертные знания.
Мотивация
Данный датасет является продолжением идеи GLUE [2] и SuperGLUE [3] по обобщенной оценке задачи понимания языка (NLU). В отличие от датасетов типа ruWorldTree и ruOpenBookQA (где вопросы по формату схожи с MMLU), которые покрывают тесты школьной программы и элементарных знаний, ruMMLU предназначен для проверки экспертных знаний в различных областях.
Описание Датасета
Поля Данных
instruction
— инструкция для заданой задачи;inputs
— словарь, который содержит следующую информацию:text
— вопрос теста;option_a
— опция A;option_b
— опция B;option_c
— опция C;option_d
— опция D;subject
— тема вопроса = область знаний (обобщение группы поддоменов по смыслу);
outputs
— результат: может быть одной из следующих строковых переменных: A, B, C, D;meta
— метаинформация о задании:id
— номер примера из датасета;domain
— поддомен вопроса.
Примеры Данных
Каждый пример данных выглядит следующим образом:
{
"instruction": "Задание содержит вопрос по теме {subject} и 4 варианта ответа A, B, C, D, из которых только один правильный.\\n{text}\\nA {option_a}\\nB {option_b}\\nC {option_c}\\nD {option_d}\\nЗапишите букву правильного ответа\\nОтвет:"
"inputs": {
"text": "Пусть A - множество всех упорядоченных пар целых чисел (m, n), таких, что 7m + 12n = 22. Какое наибольшее отрицательное число в множестве B = {m + n : (m, n) \\\\in A}?\\n",
"option_a": "-5",
"option_b": "-4",
"option_c": "-3",
"option_d": "-2",
"subject": "математика"
}
"outputs": "B"
"meta": {
"id": 666,
"domain": "college_mathematics"
}
}
Разбиение данных
Публичный открытый тест (train split) составляет 10033
примеров.
Закрытая тестовая выборка (test split) содержит 961
написанных вручную примеров.
Промпты
Промпты представлены в виде инструкций, всего 5 различных промптов.
Пример:
"Ниже приведен вопрос на определенную профессиональную тематику {subject} и даны варианты ответа A, B, C, D. Гарантируется, что только один из ответов правильный.\nПравильно ответьте на вопрос, выбрав букву A, B, C или D:\n{text}\nA {option_a}\nB {option_b}\nC {option_c}\nD {option_d}\nОтвет:"
.
Создание Датасета
Открытый датасет ruMMLU основан на оригинальном датасете, который был переведен и адаптирован под русский язык следующим образом: 1) публичный тест MMLU переведен на русский язык с помощью автоперевода 2) перевод верифицирован на платформе Yandex.Toloka 3) данные, отбракованные при верификации, были вручную скорректированы и русифицированы. После чего все данные были приведены к единому формату. Текущая открытая выборка не является финальной и будет в дальнейшем обновляться. Сет выложен для сообщества. Не используйте его в обучающих целях!
Для закрытой тестовой выборки был вручную собран НОВЫЙ тестовый датасет по методологии исходного теста в таком же формате.
Данный сет был адаптирован под специфику русского языка и русскую культуру.
Оценка
Метрики
В качестве метрики точность (Accuracy). Следуя оригинальной методологии [1], задание оценивают в формате few-shot с пятью шотами.
Человеческая оценка
Согласно оригинальной статье [1]: точность этого теста на человеческом уровне варьируется. Неспециализированные люди из Amazon Mechanical Turk получают accuracy 34,5%. Между тем, производительность экспертного уровня может быть намного выше. Например, реальная человеческая оценка тестируемых на уровне 95-го процентиля составляет около 87% для экзаменов на получение медицинской лицензии в США.
Точность разметчиков на тестовых данных составила 84.4%
.
Ограничения
Вопросы относятся к человеческим знаниям актуальным для train части на момент 1 января 2020 года, для test части на момент 31 октября 2023 года.
Ссылки
[1] Hendrycks, Dan, et al. "Measuring Massive Multitask Language Understanding." International Conference on Learning Representations. 2020.
[2] Wang, Alex, et al. "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding." International Conference on Learning Representations. 2018.
[3] Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." Advances in neural information processing systems 32 (2019).
[4] Переведенная версия MMU для русского языка (без фильтрации и чистки) https://github.com/NLP-Core-Team/mmlu_ru
[5] The 🤗 Open LLM Leaderboard (содержит внутри MMLU, замеры происходят по 5-шотам) https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard