Общая оценка модели на лидерборде считается по среднему всех метрик для задачи. Общий тотал — это среднее по всем задачам, приватный тотал — по только приватным тестам.
Лидерборд MERA SWE для динамической оценки кодовых моделей доступен на отдельном сайте по ссылке
{{ task.title }} |
---|
{{ getTaskScore(submit, task) }} |
Нет подходящих результатов