Вернуться к списку задач

MaMuRAMu

Тип задачи
Ризонинг
Формат вывода
Многоклассовая классификация
Метрика
Accuracy
Домены
Астрономия
Безопасность
Бизнес и управление
Биология
География
Инженерия
Искусство
История
Компьютерные науки
Математика
Медицина
Политика
Психология
Развлечения и быт
Реклама и PR
Религия
Системное мышление
Социология
Спорт
Физика
Философия
Фольклор
Химия
Экология
Экономика
Этика
Юриспруденция
Языки и культуры
Статистика
dev: 285
test: 4248

Описание задачи

Massive Multitask Russian AMplified Understudy (MaMuRAMu) — это датасет, созданный для измерения профессиональных знаний модели, приобретённых во время предобучения в различных областях. Задача охватывает 57 предметов (субдоменов) по разным тематикам (доменам): ГУМАНИТАРНЫЕ НАУКИ; СОЦИАЛЬНЫЕ НАУКИ; НАУКА, ТЕХНОЛОГИИ, ИНЖЕНЕРИЯ И МАТЕМАТИКА (STEM); ПРОЧЕЕ. Датасет был создан на основе английского MMLU, предложенного в [1], и следует его методологии инструкционного формата. Каждый пример содержит вопрос из одной из категорий с 4 возможными ответами, только один из которых является правильным.

Предупреждение: чтобы избежать утечки данных для MaMuRAMu, мы создали НОВЫЙ закрытый датасет, который следует дизайну оригинального MMLU. Таким образом, результаты на MMLU и MaMuRAMu не могут быть напрямую сравнимы друг с другом.

Ключевые слова: логика, знания о мире, фактические знания, экспертные знания.

Мотивация

Датасет является продолжением идеи бенчмарков GLUE [2] и SuperGLUE [3], которые фокусируются на обобщённой оценке задач по пониманию языка (Natural Language Understanding = NLU). В отличие от таких датасетов, как ruWorldTree и ruOpenBookQA (в которых вопросы схожи с форматом MMLU), которые охватывают тесты школьной программы и элементарные знания, MaMuRAMu предназначен для тестирования профессиональных знаний в различных областях.

Поля данных

  • instruction — это строка, содержащая инструкции для задачи и информацию о требованиях к формату вывода модели;
  • inputs — это словарь, содержащий следующую информацию:
    • text — это тестовый вопрос;
    • option_a — вариант ответа A;
    • option_b — вариант ответа B;
    • option_c — вариант ответа C;
    • option_d — вариант ответа D;
    • subject — тема вопроса (обобщение группы субдоменов по смыслу);
  • outputs — результат: может быть одной из следующих строковых переменных: "A", "B", "C", "D";
  • meta — это словарь, содержащий метаинформацию:
    • id — целое число, указывающее индекс примера;
    • domain — субдомен вопроса.

Промпты

Для этой задачи было создано 10 промптов разной сложности. Пример:

"Вопрос:\n{text}. Варианты ответа:\nA {option_a}\nB {option_b}\nC {option_c}\nD {option_d}\nИспользуй знания по теме {subject} и выбери правильный ответ. Выведи только одну букву. Ответ:"

Создание датасета

Тестовая часть была создана на основе методологии оригинального датасета MMLU. Набор был вручную составлен в соответствии с оригинальным форматом с доменами, максимально приближенными к оригинальному датасету. Датасет адаптирован для русского языка и культуры. Распределение задач по отдельным доменам и предметам сбалансировано и соответствует распределению в оригинальном MMLU.

Метрики

Датасет оценивается с помощью доли правильных ответов и, следуя оригинальной методологии, оценивается в формате few-shot с 1 примером.

Человеческая оценка

Согласно оригинальной статье, доля правильных ответов на тесте на английском языке среди людей варьируется: "Не специализированные люди с Amazon Mechanical Turk достигают 34,5% точности на тесте на английском языке. Тем временем, результат на уровне экспертов может быть значительно выше. Например, доля правильных ответов людей на 95-м процентиле на экзаменах для получения медицинской лицензии США составляет около 87%, и эти вопросы составляют наши задачи в категории “Профессиональная медицина”. Если взять долю правильных ответов людей на 95-м процентиле на экзаменах, которые формируют наш тест, и сделать обоснованное предположение, когда такие данные недоступны, то доля правильных ответов на уровне экспертов составляет около 89,8%." Доля правильных ответов разметчиков на тестовом наборе составляет 84,4%. На лидерборде MERA версии 1.0.0 цифры посчитаны по датасету MMLU.

Для обновленной версии MERA 1.1.0 и выше мы пересчитали человеческую оценку. Экспертная оценка составила 79.6%, не-экспертная (нижний порог) составила 46%

Ссылки

[1] Hendrycks, Dan, et al. "Measuring Massive Multitask Language Understanding." International Conference on Learning Representations. 2020.

[2] Wang, Alex, et al. "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding." International Conference on Learning Representations. 2018.

[3] Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." Advances in neural information processing systems 32 (2019).

[4] Оригинальный MMLU, переведённый на русский (без фильтрации) https://github.com/NLP-Core-Team/mmlu_ru.

[5] 🤗 Open LLM Leaderboard (содержит внутри MMLU, замеры происходят по 5-шотам) https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard.

Домены
Астрономия
Безопасность
Бизнес и управление
Биология
География
Инженерия
Искусство
История
Компьютерные науки
Математика
Медицина
Политика
Психология
Развлечения и быт
Реклама и PR
Религия
Системное мышление
Социология
Спорт
Физика
Философия
Фольклор
Химия
Экология
Экономика
Этика
Юриспруденция
Языки и культуры
Статистика
dev: 285
test: 4248