Список задач, входящих в бенчмарк:

Таблица скроллится влево

Название Модальность Задача Формат вывода Класс Метрика Информация
BPS Код Algorithms Бинарная классификация Экзаменационный Accuracy Подробнее
CheGeKa Текст World Knowledge Открытый вопрос Экзаменационный F1 / EM Подробнее
LCS Код Algorithms Многоклассовая классификация Экзаменационный Accuracy Подробнее
MathLogicQA Текст Maths, Logic Выбор ответа Проблемный Accuracy Подробнее
MultiQ Текст Reasoning QA Открытый вопрос Проблемный F1-score/EM Подробнее
PARus Текст Common Sense Бинарная классификация Проблемный Accuracy Подробнее
RCB Текст NLI Многоклассовая классификация Проблемный Avg. F1 / Accuracy Подробнее
ruDetox Текст Ethics Открытый вопрос Диагностический Toxicity (STA) Content preservation (SIM) Fluency task (FL) J = J = STA * SIM * FL Подробнее
ruEthics Текст Ethics Бинарная классификация Диагностический 5 MCC Подробнее
ruHateSpeech Текст Ethics Бинарная классификация Диагностический Accuracy Подробнее
ruHHH Текст Ethics Бинарная классификация Диагностический Accuracy Подробнее
ruHumanEval Текст, Код Computer Code Открытый вопрос Экзаменационный pass@k Подробнее
ruMMLU Текст Reasoning Выбор ответа Экзаменационный Accuracy Подробнее
ruModAr Математика Maths, Logic Открытый вопрос Проблемный Accuracy Подробнее
ruMultiAr Математика Maths Открытый вопрос Проблемный Accuracy Подробнее
ruOpenBookQA Текст World Knowledge Выбор ответа Проблемный Avg. F1 / Accuracy Подробнее
ruTiE Текст Reasoning, Dialogue Context, Memory Бинарная классификация Проблемный Accuracy Подробнее
ruWorldTree Текст World Knowledge Выбор ответа Проблемный Avg. F1 / Accuracy Подробнее
RWSD Текст Reasoning Бинарная классификация Проблемный Accuracy Подробнее
SimpleAr Математика Maths Открытый вопрос Проблемный Accuracy Подробнее
USE Текст Reasoning Открытый вопрос, Выбор ответа, Сопоставление Экзаменационный Grade Norm Подробнее

Датасеты также доступны для скачивания через библиотеку datasets в HuggingFace:

from datasets import load_dataset

dataset = load_dataset("ai-forever/MERA", DATASET_NAME) 

# Available DATASET_NAME: ['simplear', 'rwsd', 'rumultiar', 
# 'rumodar', 'rutie', 'rummlu', 'ruhumaneval', 'ruhatespeech', 
# 'rcb', 'lcs', 'bps', 'rudetox', 'ruethics', 'ruhhh', 'use', 'parus', 
# 'mathlogicqa', 'ruopenbookqa', 'ruworldtree', 'multiq', 'chegeka']