Общая оценка модели на лидерборде считается по среднему всех метрик для задачи. Общий тотал — это среднее по всем задачам, приватный тотал — по только приватным тестам.
Лидерборд MERA SWE для динамической оценки кодовых моделей доступен на отдельном сайте по ссылке
| {{ task.title }} |
|---|
| {{ getTaskScore(submit, task) }} |
Нет подходящих результатов