Проблемы оценки моделей сейчас:
Отсутствует способ независимого, единого, экспертного сравнения русскоязычных моделей
Каждый создатель модели оценивает решение в собственных локальных условиях, на своих метриках и нет воспроизводимости результатов
Предыдущие поколения бенчмарков (т.к. RussianSuperGLUE и TAPE) устаревают, новые модели работают инструктивно, есть тенденция к появлению новых модальностей
Что дает данный проект?
Единая площадка для рейтинга моделей, и отражения способностей моделей по доменам/задачам/модальностям.
Формирование реального образа способностей технологий ИИ и их возможностей.
Описание задач, которые сложны даже для человека, не только машин и замеры относительно способностей человека.
Информационный портал и площадка для исследований в области больших языковых моделей.