Агрегированный скор для рейтинга позволяет честно сравнивать модели даже тогда, когда они запускались на разных наборах задач: за пропущенные задачи модель получает нули, а по тем, где модель дала ответы, результаты усредняются с равными весами для всех задач. Такой подход даёт одно итоговое число и позволяет сравнивать оценки с разным набором входящих задач.
Публичный рейтинг результатов настраиваемый. Используйте фильтр, чтобы выбрать интересующие вас задачу и модели, и проводите сравнение только важных для вас моделей и задач.
| {{ task.title }} |
|---|
| {{ submit.task_scores?.[task.title.replace('-', '_')] ?? '-' }} |
Ничего не нашлось
Измените или сбросьте запрос