О проекте
MERA — это независимый бенчмарк для оценки LLM на русском языке. Он проверяет не только знания о мире и способность рассуждать в текстовой форме, но и умение работать с кодом (MERA Code), или отраслевыми знаниями (Mera Industrial).
MERA Multi расширяет бенчмарк задачами для оценки русскоязычных мультимодальных моделей. Новые 18 задач следуют методологии основного бенчмарка и составлены экспертами специально для MERA. MERA Multi охватывает четыре модальности: Текст (базовая модальность); Изображения — 11 наборов данных; Аудио — 4 набора; Видео — 3 набора. Форматы заданий — либо с множественным выбором (multiple-choice), либо открытые вопросы с коротким ответом (число, слово или словосочетание).
На сайте размещены лидерборды (рейтинг) моделей по качеству решений фиксированного набора задач, как отдельно по модальностям, так и полного мультимодального бенчмарка (Мульти). Замеры моделей проводятся по стандартизированной процедуре с фиксированными конфигурациями промптов и параметров.
Проект поддерживают Альянс ИИ, ведущие индустриальные игроки и академические партнёры, которые занимаются исследованием языковых моделей
Лицензия и утечка данных
Создавая MERA Multi, мы сделали всё, чтобы тесты были юридически чистыми, защищёнными и корректно работающими, без риска утечек или переобучения на тестовых данных. Поэтому мы предлагаем три уровня защиты:
— Лицензия. Датасеты, собранные из открытых источников (публичные тесты) сохраняют оригинальные лицензии (в основном CC-BY-4.0). Для приватных тестов действует специальная лицензия MERA, полностью запрещающая использование данных в обучении и коммерческих целях. Все задания (изображения, аудио и видео) можно использовать только для тестирования моделей, а не для обучения.
— Вотермарки. Все мультимодальные материалы, созданные специально для MERA Multi, помечены видимыми и невидимыми вотермарками. Это исключает их случайное попадание в обучающие выборки и помогает краулерам распознавать такие данные как тестовые, а не обучающие.
— Инструменты против утечек. В репозитории DataLeakage предложен фреймворк, который помогает проверить, не видел ли ваш ИИ эти данные раньше.
Как устроен замер?Для обеспечения корректного сравнения моделей эксперты разработали:
Чтобы результаты тестирования были корректные и объективные, мы внедрили строгие стандарты проведения замеров.
— Независимый набор универсальных промптов. Каждый вопрос в задаче сопровождается строго одним промптом из заранее подготовленного пула.
— Единый формат вывода. Все модели получают одинаковые инструкции по структуре ответа — без импровизации.
— Фиксированные условия генерации. Во время тестирования запрещено изменять промпты, параметры генерации или few-shot-примеры.
— Без кастомных системных промптов. Мы не допускаем использование собственных системных инструкций при запуске замеров. Исключение — встроенный системный промпт, который идёт “по умолчанию” в API зарубежных моделей. Он остаётся неизменным, но не оптимизирован под русскоязычный MERA-бенчмарк.
— Промпты в MERA адаптированы под разные типы моделей, часть промптов жёстко фиксирует формат вывода, обеспечивая сопоставимость, а другая часть оставляет пространство для рассуждений и развёрнутых ответов.
Как корректно сравнить жёстко формализованный ответ со свободным рассуждением? Это особенно важно для мультимодальных моделей, которые иногда игнорируют инструкции. Для этого мы разработали отдельную модель-судью (Judge), которая работает вместе со стандартными метриками вроде Exact Match.
Exact Match проверяет точное совпадение с эталоном.
Наша модель-судья Judge анализирует смысловую точность, логику рассуждений и корректность вывода относительно референсного (золотого) ответа, даже если она не совпадает дословно.
Кодовая база для оценки на бенчмарке MERA разработана на основе международного фреймворка LM Evaluation Harness, который позволяет оценивать модель в генеративном формате. Результат тестирования — ZIP-архив, который участник далее загружает на сайт. Этот сабмит с результатами моделей автоматически тестируется и сравнивается с «золотыми ответами». Далее участник видит в личном кабинете результаты оценки моделей на бенчмарке. По запросу участника результат оценки можно отправить на публичный лидерборд.
Таксономия навыков
Таксономия навыков MERA Multi предлагает системный подход к оценке способностей MLLM, необходимых для решения задач с мультимодальным контентом. Такой подход позволяет разбить любую задачу на ограниченный и управляемый набор ключевых навыков, что делает таксономию одновременно всеобъемлющей и доступной для понимания.
В основе подхода лежит представление языковой модели как системы с тремя компонентами: входными данными, внутренним состоянием и выходом. Исходя из этого, выделяются три базовые группы навыков — восприятие (Perception), отвечающее за входные данные, логическое мышление (Reasoning) и знания (Knowledge), являющиеся внутренними характеристиками модели, — которые служат фундаментом всей таксономии. Остальные навыки выстраиваются в иерархическую структуру, постепенно уточняясь и специализируясь на каждом следующем уровне. В MERA Code есть ещё один базовый блок — Generation (генерация)
Полезные ссылки
Вопросы и ответы
Что такое MERA Multi?
MERA Multi — бенчмарк мультимодальных задач в рамках независимого бенчмарка MERA. 18 инструктивных задач включают анализ изображений и видео, распознавание речи и неречевых звуков. Эти навыки тестируются в задачах с коротким ответом в свободной форме и в задачах с выбором ответа
Как использовать бенчмарк MERA?
Чтобы оценить свою модель на бенчмарке MERA, соберите результаты её прогонов для каждого датасета:
— Воспользуйтесь официальной кодовой базой оценки из официального репозитория проекта. Добавьте свою модель в код и запустите тестирование согласно инструкции. Не изменяйте параметры запуска!
— В результате работы кода вы получите сабмит в виде ZIP-архива для заливки на сайт. Не меняйте название файлов или ID в ответах в сабмитах, иначе результат оценки будет некорректный.
— Зарегистрируйтесь на сайте. В личном кабинете создайте новый сабмит. Добавьте как можно больше информации о своей модели и укажите ссылки на своё решение (статью или код на github). Это важно! Для того чтобы попасть на лидерборд, нам нужно убедиться, что ваш результат честный. Мы верим, что наука должна быть воспроизводимой!
— Прикрепите ZIP-архив. Отправьте сабмит в систему. Через несколько часов автоматический скрипт обработает данные, и результат станет доступен в личном кабинете
Как добавить свой результат на публичный лидерборд?
По умолчанию загруженные сабмиты остаются приватными. Чтобы сделать результат публичным, отметьте опцию «Опубликовать». После этого администраторам MERA (они же члены экспертного совета бенчмарка) придёт запрос на проверку. Если сабмит соответствует требованиям, его одобрят, и вы получите уведомление на email. Ваша модель появится на лидерборде. В случае необходимости с вами могут связаться для уточнения деталей.
Чтобы сабмит приняли к публикации, он должен содержать:
— результаты по всем основным заданиям;
— описание решения (как минимум ссылку на модель, статью или описание модели с деталями обучения);
— полный перечень использованных ресурсов (источники данных, параметры моделей и другие ключевые детали).
Если вы обновите сабмит, процесс проверки повторится. Перед отправкой убедитесь, что все данные указаны корректно, а описание максимально подробное
Могу ли я протестировать свою проприетарную модель на MERA?
Да, можете! Мы подготовили код для оценки через фреймворк lm-harness, в том числе для API-моделей. Запустите тестирование своей модели и загрузите архив с результатами на сайт.
Скоры будут доступны вам в личном кабинете и останутся закрытыми для других пользователей.
Если вы хотите разместить свою модель на публичном лидерборде, при сабмите укажите как можно больше информации о ней:
— процесс обучения;
— использованные данные;
— архитектуру;
— параметры системы.
Эти сведения помогут сообществу понять и воспроизвести вашу систему. Сабмит проходит модерацию экспертами, которые могут связаться с вами для уточнения деталей.
Важно: даже если ваша модель будет опубликована в рейтинге, её ответы останутся доступными только экспертам и не будут раскрыты широкой публике
Можно ли сделать анонимный сабмит на публичном лидерборде?
Можно. В лидерборде отображаются названия команд и моделей, но вы можете сделать анонимный аккаунт. Главное, чтобы участники и администраторы могли с вами связаться
Под какой лицензией выложены датасеты?
Датасеты, созданные на основе данных из открытых источников, наследуют оригинальную лицензию (в основном CC-BY-4.0). Изображения, аудио и видео, собранные специально для MERA Multi, защищает специальная лицензия MERA: материалы можно использовать только для тестирования моделей, а не для обучения. Такие изображения, аудио и видео помечены вотермаркой, что исключает «случайное» использование их в обучении моделей.Материалы разрешено использовать в образовательных целях, но только для оценки моделей
Почему я не вижу результаты моей модели/сабмита?
Если вы отправили сабмит на оценку, для начала подождите — обработка модели может занять некоторое время.Затем проверьте, что ваш сабмит загрузился в системе — он появится в списке ваших сабмитов. В противном случае появится сообщение об ошибке.В остальных случаях, если сабмит почему-то не сработал, свяжитесь с нами по адресу: mera@a-ai.ruЕсли сабмит некорректен, система выдаст текстовое описание ошибки, которое покрывает случаи вида:— В загруженном ZIP-архиве нет какого-то из необходимых файлов для заданий.— Что-то не так с метаданными (например, вы пропустили ID). Все ID для каждого из заданий в JSON обязательны и начинаются с 0. Проверьте, что все ID соответствуют тестовому сету
Я нашел ошибку, у меня есть предложения и комментарии!
Вы можете связаться с нами по почте: mera@a-ai.ru. По предложениям и ошибкам в коде оценки или данных, пожалуйста, создавайте Issues в нашем официальном GitHub-репозитории.Для оперативной связи работает Telegram-чат техподдержки
Как осуществляется агррегация результатов на лидерборде?
Мы ввели три ключевые метрики, отражающие качество модели:
— Качество по решённым задачам (Attempted Score) — оценка по решённым задачам: оценка агрегирована только среди тех заданий, которые модель реально попыталась выполнить. Например, если модель не поддерживает обработку звука, на Мультиборде за задачи для аудио она не получит 0, они не будут учтены пи агрегации.
— Охват (Coverage) — доля обработанных заданий в рамках лидерборда.
— Общий балл (Total Score) — итоговый балл, который формирует рейтинг рассчитывается как Total Score = Attempted Score × Coverage.
Общий балл ранжирует модели в лидербордах. Такой механизм уже сегодня позволяет собирать мультимодальный рейтинг моделей с учётом разных типов задач. А в будущем — бесшовно расширять бенчмарк, добавляя новые и более сложные сценарии, без потери совместимости с текущими результатами.
На какой борд мне отправлять модель?
Для мультимодальной версии MERA мы ввели четыре независимых лидерборда:
1. Изображения — задачи на анализ фото, иллюстраций и скриншотов.
2. Аудио — задачи на понимание речи, музыки и фоновых звуков.
3. Видео — задачи на анализ видео без звука.
4. Мульти — задачи всех модальностей в едином лидерборде.
Пользователь сам выбирает, на какой лидерборд отправить модель. Для этого в сабмите достаточно хотя бы одной задачи из лидерборда.
Разрешены неполные сабмиты, чтобы оценка оставалась справедливой и прозрачной.