О проекте

Современные фундаментальные языковые модели активно развиваются.
Такие модели как chatGPT, YandexGPT, GigaChat, LLAMA и другие — нуждаются в честном сравнении и независимой оценке. Мы видим как на международной арене оценка моделей проводится на разных бенчмарках, в разных экспериментальных постановках, что ведет к непониманию, что реально умеют модели и невозможности оценить честно в едином сетапе способности моделей.  

Открытость, прозрачность процедуры оценки является ключевой проблемой, т. к. любая проприетарная модель будет оцениваться внутри компании по-своему, и каждая компания будет утверждать, что именно их модель лучшая.

Мы предлагаем методологию тестирования, основанную на тестах для сильного ИИ:

21 сложную для фундаментальных моделей задачу, вопросы охватывающие знания о мире, логику, причинно-следственные связи, этику ИИ и многое другое.

Мы разработали открытый инструкционный бенчмарк для оценки больших языковых моделей для русского языка. Единый лидерборд на сайте с фиксированными верифицированными экспертами задачами и стандартизированными конфигурациями промптов и параметров.

Проект поддержали Альянс ИИ, ведущие индустриальные игроки и академические партнеры, которые занимаются исследованием языковых моделей.