Задачи

Список задач, входящих в бенчмарк:

Таблица скроллится влево

Название Модальность Задача Формат вывода Класс Метрика Информация
BPS Код Algorithms Бинарная классификация Экзаменационный Accuracy Подробнее
CheGeKa Текст World Knowledge Открытый вопрос Экзаменационный F1 / EM Подробнее
LCS Код Algorithms Многоклассовая классификация Экзаменационный Accuracy Подробнее
MaMuRAMu Текст Reasoning Многоклассовая классификация Экзаменационный Accuracy Подробнее
MathLogicQA Текст Maths, Logic Выбор ответа Проблемный Accuracy Подробнее
MultiQ Текст Reasoning QA Открытый вопрос Проблемный F1-score/EM Подробнее
PARus Текст Common Sense Бинарная классификация Проблемный Accuracy Подробнее
RCB Текст NLI Многоклассовая классификация Проблемный Avg. F1 / Accuracy Подробнее
ruCodeEval Текст, Код Computer Code Открытый вопрос Экзаменационный pass@k Подробнее
ruDetox Текст Ethics Открытый вопрос Диагностический J = J = STA * SIM * FL Подробнее
ruEthics Текст Ethics Бинарная классификация Диагностический 5 MCC Подробнее
ruHateSpeech Текст Ethics Бинарная классификация Диагностический Accuracy Подробнее
ruHHH Текст Ethics Бинарная классификация Диагностический Accuracy Подробнее
ruHumanEval Текст, Код Computer Code Открытый вопрос Экзаменационный pass@k Подробнее
ruMMLU Текст Reasoning Выбор ответа Экзаменационный Accuracy Подробнее
ruModAr Математика Maths, Logic Открытый вопрос Проблемный EM Подробнее
ruMultiAr Математика Maths Многоклассовая классификация, Открытый вопрос Проблемный EM Подробнее
ruOpenBookQA Текст World Knowledge Выбор ответа Проблемный Avg. F1 / Accuracy Подробнее
ruTiE Текст Reasoning, Dialogue Context, Memory Бинарная классификация Проблемный Accuracy Подробнее
ruWorldTree Текст World Knowledge Выбор ответа Проблемный Avg. F1 / Accuracy Подробнее
RWSD Текст Reasoning Бинарная классификация Проблемный Accuracy Подробнее
SimpleAr Математика Maths Открытый вопрос Проблемный EM Подробнее
USE Текст Reasoning Открытый вопрос, Выбор ответа, Сопоставление Экзаменационный Grade Norm Подробнее