О проекте

Современные большие языковые модели (такие как ChatGPT, Llama, YandexGPT, GigaChat) активно развиваются и нуждаются в честном сравнении и независимой оценке.

Единого стандарта для оценки не существует, и поэтому модели невозможно честно сравнивать, так как замеры проводятся в разрозненных экспериментальных постановках (разные данные для оценки, способы замера). Открытость и прозрачность процедуры — это ключевая проблема оценивания, в том числе потому, что модели как правило оцениваются разработчиками, заинтересованными в том, чтобы их модели получали высокие оценки.

Мы разработали открытый инструкционный бенчмарк для оценки больших языковых моделей для русского языка. На сайте бенчмарка есть рейтинг моделей по качеству решения фиксированного набора задач, составленных экспертами, со стандартизированными конфигурациями промптов и параметров.

Проект поддерживает Альянс ИИ, ведущие индустриальные игроки и академические партнеры, которые занимаются исследованием языковых моделей.

Мы предлагаем методологию тестирования, основанную на тестах для сильного ИИ:

23 задачи, сложные для фундаментальных моделей: вопросы охватывают знания о мире, логику, причинно-следственные связи, этику ИИ и многое другое.

Две группы задач:

Основные задачи с закрытым тестовым датасетом, из которых складывается рейтинг моделей (RWSD, PARus, RCB, MultiQ, ruWorldTree, ruOpenBookQA, CheGeKa, ruTiE, USE, MathLogicQA, ruMultiAr, LCS, ruModAr, MaMuRaMu, ruCodeEval)

Публичные задачи с открытыми ответами, на которых можно оценивать модель напрямую c помощью кодовой базы и сразу получать результат (ruMMLU, ruHumanEval, BPS, SimpleAr, ruHHH, ruDetox, ruEthics, ruHateSpeech)

Как устроены промпты для задач?

Для каждой задачи эксперты вручную составили несколько разных универсальных промптов-инструкций, независимо от моделей, с четко обозначенным требованием по формату вывода ответа. Эти промпты равномерно распределены между всеми вопросами в задаче по принципу "один вопрос — один промпт".

Такой формат позволяет получать усредненную оценку по разным промптам, и все модели оказываются в равных условиях: промпты не "подсуживают" конкретным моделям. Из этих соображений инструкции нельзя менять при замерах моделей, так же как и параметры генерации и few-shot примеры.

Как устроен замер?

Кодовая база для оценки на бенчмарке MERA разработана на основе международного фреймворка LM Evaluation Harness, который позволяет оценивать модель в генеративном и log-likelihood формате.

Генеративная оценка Log-likelihood оценка
Не требует доступа к логитам, подходит для любой модели, которая умеет генерировать текст. Нельзя оценивать модели API, так как они как правило не возвращают логиты, на основе которых построена log-likelihood оценка.
Требуется постобработка ответа (универсальной эвристики нет, human side-by-side (SBS) и LLM-as-a-Judge / специальные парсеры). Не требуется постобработка ответа модели, так как ответ — фиксированная буква или число.
Маленькие по размеру модели генерируют нерелевантные ответы. Позволяет оценивать вероятность получить конкретные ответы от языковой модели.
Рекомендуем запускать инструктивные модели (SFT-like) и API только в генеративном сетапе. Лучше подходит для замеров претрейн моделей и маленьких моделей.
Промпты-инструкции для заданий в MERA фиксированы бенчмарком, а собственный системный промпт для модели общий для всех задач использовать не только можно, но и нужно! Мы рекомендуем обязательно указывать системный промпт для получения более корректных результатов в API и инструктивных моделях.

Вопросы и ответы

Что такое MERA Industrial?

MERA Industrial — это независимой русскоязычный бенчмарк для тестирования крупных языковых моделей в реальных отраслевых сценариях. Пилотными направлениями проекта были выбраны медицина и сельское хозяйство. Бенчмарк, созданный ведущими отраслевыми экспертами, включает широкий спектр сложных специализированных задач и будет масштабироваться на новые индустрии.

Как использовать бенчмарк MERA Industrial?

Чтобы оценить свою модель на бенчмарке MERA Industrial, соберите результаты её прогонов для каждого датасета.

Воспользуйтесь официальной кодовой базой оценки из официального репозитория проекта. Добавьте свою модель в код и запустите тестирование согласно инструкции. Не изменяйте параметры запуска!
В результате работы кода вы получите сабмит в правильном формате для заливки на сайт. Не меняйте название файлов или ID в ответах в сабмитах, иначе результат оценки будет некорректный.
Зарегистрируйтесь на сайте. В личном кабинете создайте новый сабмит. Добавьте как можно больше информации о своей модели, и укажите ссылки на своё решение (статью или код на github). Это важно! Для того, чтобы попасть на лидерборд, нам нужно убедиться, что ваш результат честный. Мы верим, что наука должна быть воспроизводимой!
Прикрепите ZIP архив. Отправьте сабмит в систему. Через несколько минут автоматический скрипт обработает данные, и результат станет доступен в личном кабинете.

Пример корректного форматирования сабмита доступен здесь https://github.com/MERA-Evaluation/MERA_Industrial

Могу ли я протестировать свою проприетарную модель на MERA Industrial?

Да, можете! Мы подготовили код для оценки через фреймворк lm-harness, в том числе для API-моделей. Запустите тестирование своей модели и загрузите архив с результатами на сайт.

Скоры будут доступны вам в личном кабинете и останутся закрытыми для других пользователей.

Если вы хотите разместить свою модель на публичном лидерборде, при сабмите укажите как можно больше информации о ней:

процесс обучения,
использованные данные,
архитектуру,
параметры системы.

Эти сведения помогут сообществу понять и воспроизвести вашу систему. Сабмит проходит модерацию экспертами, которые могут связаться с вами для уточнения деталей.

Важно: даже если ваша модель будет опубликована в рейтинге, её ответы останутся доступными только экспертам и не будут раскрыты широкой публике.

Можно ли замерять на MERA Industrial модели по API?

Да! Для этого необходимо только добавить в кодовую базу поддержку вашей модели. Инструкцию от авторов lm-evaluation-harness по добавлению API в фреймворк можно прочесть здесь.

Как добавить свой результат на публичный лидерборд?

По умолчанию все загруженные сабмиты остаются приватными. Чтобы сделать результат публичным, отметьте опцию «Опубликовать».
Можно выбрать целевой лидерборд (например, «Сельское хозяйство», «Медицина») или отправить сабмит на все доступные борды. После этого администраторам MERA (членам экспертного совета бенчмарка) поступит запрос на проверку.

Требования к публикации:

Чтобы сабмит был одобрен и ваша модель появилась на лидерборде, он должен содержать:

- Результаты по всем основным заданиям выбранного лидерборда. Если вы отправляете сабмит на публичный лидерборд, все задачи внутри него должны быть протестированы — не допускается отправка результатов с пропусками.
- Описание решения (как минимум — ссылку на модель, статью или детальное описание модели и её обучения).
- Полный перечень использованных ресурсов (источники данных, параметры моделей и другие ключевые детали).
Если сабмит соответствует всем требованиям, его одобрят, и вы получите уведомление на email. В случае необходимости с вами могут связаться для уточнения деталей.

Важно: Если вы обновите сабмит, процесс проверки повторится. Перед отправкой убедитесь, что все данные указаны корректно, а описание максимально подробное.

Есть ли ограничения на сабмиты и модели?

Вы можете использовать любые публичные или приватные данные при разработке и обучении языковых моделей, за исключением следующих случаев:

Для тестирования необходимо использовать только данные с официального сайта или репозитория MERA, либо с официального Hugging Face. Данные из других источников могут содержать некорректное разбиение, ID или иной набор метаданных.
Запрещено использовать неразмеченные тестовые данные MERA для обучения модели или как-либо передавать информацию между тестовыми примерами. Обучаться на тестовых данных — ненаучно и неэтично!
Тренировочные и валидационные данные предоставляются участникам только в качестве примеров и для few-shot тестирования.
Вы можете отправлять результаты любой модели, при условии, что соблюдается формат, совпадают id вопросов и метки (labels). Мы оцениваем системы на основе машинного обучения, а не ручное решение задач!

Можно ли сделать анонимный сабмит на публичном лидерборде?

Можно. В лидерборде отображаются названия команд и моделей, но вы можете сделать анонимный аккаунт. Главное, чтобы участники и администраторы могли с вами связаться.

Под какой лицензией выложены датасеты?

Все задачи оригинального MERA Industrial собраны и обработаны на основе открытых источников. Все наборы данных публикуются по лицензии MIT.

Почему я не вижу результаты моей модели/сабмита?

Если вы отправили сабмит на оценку, для начала подождите — обработка модели может занять некоторое время.

Затем проверьте, что ваш сабмит загрузился в системe — он появится в списке ваших сабмитов. В противном случае появится сообщение об ошибке.

В остальных случаях, если сабмит почему-то не сработал — свяжитесь с нами по адресу mera@a-ai.ru

В случае некорректного сабмита система выдаст текстовое описание ошибки, которое покрывает случаи вида:

В загруженном zip архиве нет какого-то из необходимых файлов для заданий.
Что-то не так с метаданными (например, вы пропустили ID). Все ID для каждого из заданий в JSON обязательны и начинаются с 0. Проверьте, что все ID соответствуют тестовому сету.

Я нашел ошибку, у меня есть предложения и комментарии!

Вы можете связаться с нами по почте: mera@a-ai.ru. По предложениям и ошибкам в коде оценки или данных, пожалуйста, создавайте Issues в нашем официальном GitHub-репозитории https://github.com/MERA-Evaluation/MERA_Industrial

Для оперативной связи работает telegram-чат https://t.me/+XkBIbHFg8s5iNGIy техподдержки.

Сколько заданий в MERA Industrial?

На данный момент В MERA Industria 3 задачи - одна медицинская, две по сельскому хозяйству. Каждая задача относится к одному из домену в отрасли. Внутри задачи есть разделение на тематики, относящиеся к домену. Все задачи относятся к закрытому типу вопросов.