MERA Новый открытый бенчмарк для русского языка для оценки фундаментальных моделей

Описание задачи

Massive Multitask Russian AMplified Understudy (MaMuRAMu) — это датасет, созданный для измерения профессиональных знаний модели, приобретённых во время предобучения в различных областях. Задача охватывает 57 предметов (субдоменов) по разным тематикам (доменам): ГУМАНИТАРНЫЕ НАУКИ; СОЦИАЛЬНЫЕ НАУКИ; НАУКА, ТЕХНОЛОГИИ, ИНЖЕНЕРИЯ И МАТЕМАТИКА (STEM); ПРОЧЕЕ. Датасет был создан на основе английского MMLU, предложенного в [1], и следует его методологии инструкционного формата. Каждый пример содержит вопрос из одной из категорий с 4 возможными ответами, только один из которых является правильным.

Предупреждение: чтобы избежать утечки данных для MaMuRAMu, мы создали НОВЫЙ закрытый датасет, который следует дизайну оригинального MMLU. Таким образом, результаты на MMLU и MaMuRAMu не могут быть напрямую сравнимы друг с другом.

Ключевые слова: логика, знания о мире, фактические знания, экспертные знания.

Мотивация

Датасет является продолжением идеи бенчмарков GLUE [2] и SuperGLUE [3], которые фокусируются на обобщённой оценке задач по пониманию языка (Natural Language Understanding = NLU). В отличие от таких датасетов, как ruWorldTree и ruOpenBookQA (в которых вопросы схожи с форматом MMLU), которые охватывают тесты школьной программы и элементарные знания, MaMuRAMu предназначен для тестирования профессиональных знаний в различных областях.

Поля данных

instruction — это строка, содержащая инструкции для задачи и информацию о требованиях к формату вывода модели;
inputs — это словарь, содержащий следующую информацию:
- text — это тестовый вопрос;
- option_a — вариант ответа A;
- option_b — вариант ответа B;
- option_c — вариант ответа C;
- option_d — вариант ответа D;
- subject — тема вопроса (обобщение группы субдоменов по смыслу);
outputs — результат: может быть одной из следующих строковых переменных: "A", "B", "C", "D";
meta — это словарь, содержащий метаинформацию:
- id — целое число, указывающее индекс примера;
- domain — субдомен вопроса.

Промпты

Для этой задачи было создано 10 промптов разной сложности. Пример:

"Вопрос:\n{text}. Варианты ответа:\nA {option_a}\nB {option_b}\nC {option_c}\nD {option_d}\nИспользуй знания по теме {subject} и выбери правильный ответ. Выведи только одну букву. Ответ:"

Создание датасета

Тестовая часть была создана на основе методологии оригинального датасета MMLU. Набор был вручную составлен в соответствии с оригинальным форматом с доменами, максимально приближенными к оригинальному датасету. Датасет адаптирован для русского языка и культуры. Распределение задач по отдельным доменам и предметам сбалансировано и соответствует распределению в оригинальном MMLU.

Метрики

Датасет оценивается с помощью доли правильных ответов и, следуя оригинальной методологии, оценивается в формате few-shot с 1 примером.

Человеческая оценка

Экспертная оценка составила 79.6%, не-экспертная (нижний порог) составила 46%.

При подсчете использовалось перекрытие разметчиков равное 5.

Примечание: для данного датасета, из-за ограниченных ресурсов разметчиков, разметка проводилась только для выбранных доменов и категорий (биология, география, история, общие факты, физика — по 100 примеров на категорию). Этот результат не отражает среднюю точность по всем доменам датасета и, таким образом, не может быть напрямую сопоставлен с результатами моделей на всём наборе.

Ссылки

[1] Hendrycks, Dan, et al. "Measuring Massive Multitask Language Understanding." International Conference on Learning Representations. 2020.

[2] Wang, Alex, et al. "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding." International Conference on Learning Representations. 2018.

[3] Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." Advances in neural information processing systems 32 (2019).

[4] Оригинальный MMLU, переведённый на русский (без фильтрации) https://github.com/NLP-Core-Team/mmlu_ru.

[5] 🤗 Open LLM Leaderboard (содержит внутри MMLU, замеры происходят по 5-шотам) https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard.