Как работает MERA
Современные кодовые языковые модели и модели общего назначения (ChatGPT, Claude, Qwen, YandexGPT, GigaChat и др.) развиваются быстрыми темпами, но их сравнение затруднено из-за отсутствия единой методологии оценки. Ключевая проблема — разрозненность тестовых задач и условий замеров: разные датасеты, промптинговые стратегии и метрики. Кроме того, оценка часто проводится самими разработчиками, что ставит под сомнение объективность результатов.
Мы предлагаем открытый инструкционный бенчмарк для русскоязычных моделей для задач работы с кодом, основанный на фиксированном наборе тестов с четкими критериями. Наш подход обеспечивает:
— Стандартизированные конфигурации (промпты, параметры генерации);
— Экспертно составленные задачи, отражающие реальные сценарии использования при работе с кодом;
— Прозрачную методику оценки, исключающую конфликт интересов.
Проект поддерживается Альянсом ИИ, индустриальными лидерами и академическими исследователями, что гарантирует независимость и релевантность бенчмарка для развития кодовых моделей.
Таксономия MERA CODE предлагает системный подход к оценке кодовых способностей моделей, сосредоточенный на навыках программирования, необходимых для решения конкретных задач. Такой подход позволяет разбить любую задачу на ограниченный и управляемый набор ключевых навыков, что делает таксономию одновременно всеобъемлющей и доступной для понимания.
В основе подхода лежит представление языковой модели как системы с тремя компонентами: входными данными, внутренним состоянием и выходом. Исходя из этого, выделяются четыре базовых навыка — Восприятие (Perception), отвечающее за входные данные, Логическое мышление (Reasoning) и Знания (Knowledge) являющиеся внутренними характеристиками модели, и Генерация (Generation) отвечающая за выходные данные, — которые служат фундаментом всей таксономии. Остальные навыки выстраиваются в иерархическую структуру, постепенно уточняясь и специализируясь на каждом следующем уровне.
Для обеспечения корректного сравнения моделей эксперты разработали:
— Набор независимых универсальных промптов – каждый вопрос в задаче сопровождается строго одним промптом из заранее подготовленного набора;
— Жесткие требования к формату вывода – все модели получают одинаковые инструкции по структуре ответа;
— Фиксированные условия генерации – запрет на модификацию промптов, параметров генерации и few-shot примеров во время тестирования.Такой подход устраняет смещения в оценках:
— Усреднение по разным промптам минимизирует влияние специфики формулировок;
— Единые условия для всех моделей исключают "подстройку" под конкретные архитектуры.
Кодовая база для оценки на бенчмарке MERA Code разработана на основе международной кодовой базы LM Evaluation Harness, которая позволяет оценивать модель в генеративном формате. После того, как пользователь протестировал свою модель, кодовая база выдает ZIP-архив - это сабмит участника, который далее загружается на сайт. Сабмит с результатами моделей автоматически тестируется и сравнивается с золотыми ответами. Для этого поднимаются окружения и тестовые среды для разных языков. Обработка сабмита может занимать несколько часов. Далее, участник видит результаты оценки моделей на бенчмарке в личном кабинете.
Вопросы и ответы
Что такое MERA Multi?
MERA Multi — бенчмарк мультимодальных задач в рамках независимого бенчмарка MERA. 18 инструктивных задач включают анализ изображений и видео, распознавание речи и неречевых звуков. Эти навыки тестируются в задачах с коротким ответом в свободной форме и в задачах с выбором ответа
Как использовать бенчмарк MERA?
Чтобы оценить свою модель на бенчмарке MERA, соберите результаты её прогонов для каждого датасета:
— Воспользуйтесь официальной кодовой базой оценки из официального репозитория проекта. Добавьте свою модель в код и запустите тестирование согласно инструкции. Не изменяйте параметры запуска!
— В результате работы кода вы получите сабмит в виде ZIP-архива для заливки на сайт. Не меняйте название файлов или ID в ответах в сабмитах, иначе результат оценки будет некорректный.
— Зарегистрируйтесь на сайте. В личном кабинете создайте новый сабмит. Добавьте как можно больше информации о своей модели и укажите ссылки на своё решение (статью или код на github). Это важно! Для того чтобы попасть на лидерборд, нам нужно убедиться, что ваш результат честный. Мы верим, что наука должна быть воспроизводимой!
— Прикрепите ZIP-архив. Отправьте сабмит в систему. Через несколько часов автоматический скрипт обработает данные, и результат станет доступен в личном кабинете
Как добавить свой результат на публичный лидерборд?
По умолчанию загруженные сабмиты остаются приватными. Чтобы сделать результат публичным, отметьте опцию «Опубликовать». После этого администраторам MERA (они же члены экспертного совета бенчмарка) придёт запрос на проверку. Если сабмит соответствует требованиям, его одобрят, и вы получите уведомление на email. Ваша модель появится на лидерборде. В случае необходимости с вами могут связаться для уточнения деталей.
Чтобы сабмит приняли к публикации, он должен содержать:
— результаты по всем основным заданиям;
— описание решения (как минимум ссылку на модель, статью или описание модели с деталями обучения);
— полный перечень использованных ресурсов (источники данных, параметры моделей и другие ключевые детали).
Если вы обновите сабмит, процесс проверки повторится. Перед отправкой убедитесь, что все данные указаны корректно, а описание максимально подробное
Могу ли я протестировать свою проприетарную модель на MERA?
Да, можете! Мы подготовили код для оценки через фреймворк lm-harness, в том числе для API-моделей. Запустите тестирование своей модели и загрузите архив с результатами на сайт.
Скоры будут доступны вам в личном кабинете и останутся закрытыми для других пользователей.
Если вы хотите разместить свою модель на публичном лидерборде, при сабмите укажите как можно больше информации о ней:
— процесс обучения;
— использованные данные;
— архитектуру;
— параметры системы.
Эти сведения помогут сообществу понять и воспроизвести вашу систему. Сабмит проходит модерацию экспертами, которые могут связаться с вами для уточнения деталей.
Важно: даже если ваша модель будет опубликована в рейтинге, её ответы останутся доступными только экспертам и не будут раскрыты широкой публике
Можно ли сделать анонимный сабмит на публичном лидерборде?
Можно. В лидерборде отображаются названия команд и моделей, но вы можете сделать анонимный аккаунт. Главное, чтобы участники и администраторы могли с вами связаться
Под какой лицензией выложены датасеты?
Датасеты, созданные на основе данных из открытых источников, наследуют оригинальную лицензию (в основном CC-BY-4.0). Изображения, аудио и видео, собранные специально для MERA Multi, защищает специальная лицензия MERA: материалы можно использовать только для тестирования моделей, а не для обучения. Такие изображения, аудио и видео помечены вотермаркой, что исключает «случайное» использование их в обучении моделей.Материалы разрешено использовать в образовательных целях, но только для оценки моделей
Почему я не вижу результаты моей модели/сабмита?
Если вы отправили сабмит на оценку, для начала подождите — обработка модели может занять некоторое время.Затем проверьте, что ваш сабмит загрузился в системе — он появится в списке ваших сабмитов. В противном случае появится сообщение об ошибке.В остальных случаях, если сабмит почему-то не сработал, свяжитесь с нами по адресу: mera@a-ai.ruЕсли сабмит некорректен, система выдаст текстовое описание ошибки, которое покрывает случаи вида:— В загруженном ZIP-архиве нет какого-то из необходимых файлов для заданий.— Что-то не так с метаданными (например, вы пропустили ID). Все ID для каждого из заданий в JSON обязательны и начинаются с 0. Проверьте, что все ID соответствуют тестовому сету
Я нашел ошибку, у меня есть предложения и комментарии!
Вы можете связаться с нами по почте: mera@a-ai.ru. По предложениям и ошибкам в коде оценки или данных, пожалуйста, создавайте Issues в нашем официальном GitHub-репозитории.Для оперативной связи работает Telegram-чат техподдержки
Как осуществляется агррегация результатов на лидерборде?
Мы ввели три ключевые метрики, отражающие качество модели:
— Качество по решённым задачам (Attempted Score) — оценка по решённым задачам: оценка агрегирована только среди тех заданий, которые модель реально попыталась выполнить. Например, если модель не поддерживает обработку звука, на Мультиборде за задачи для аудио она не получит 0, они не будут учтены пи агрегации.
— Охват (Coverage) — доля обработанных заданий в рамках лидерборда.
— Общий балл (Total Score) — итоговый балл, который формирует рейтинг рассчитывается как Total Score = Attempted Score × Coverage.
Общий балл ранжирует модели в лидербордах. Такой механизм уже сегодня позволяет собирать мультимодальный рейтинг моделей с учётом разных типов задач. А в будущем — бесшовно расширять бенчмарк, добавляя новые и более сложные сценарии, без потери совместимости с текущими результатами.
На какой борд мне отправлять модель?
Для мультимодальной версии MERA мы ввели четыре независимых лидерборда:
1. Изображения — задачи на анализ фото, иллюстраций и скриншотов.
2. Аудио — задачи на понимание речи, музыки и фоновых звуков.
3. Видео — задачи на анализ видео без звука.
4. Мульти — задачи всех модальностей в едином лидерборде.
Пользователь сам выбирает, на какой лидерборд отправить модель. Для этого в сабмите достаточно хотя бы одной задачи из лидерборда.
Разрешены неполные сабмиты, чтобы оценка оставалась справедливой и прозрачной.