Лидерборд

Общая оценка модели на лидерборде считается по среднему скору задач без учёта публичных заданий. Для задач с несколькими метриками — метрики в начале усредняются.

Лидерборд считается по обновленному коду и датасетам бенчмарка MERA v1.2.0. Прошлый лидерборд не поддерживается и доступен здесь.

Тип модели
{{ name }}
Способ замера
{{ name }}
Размер модели
{{ name }}
 
Chat Template
 
Системный промт
 
Multi-turn
Основные задачи
Задачи, из которых состоит финальный рейтинг моделей. Это 15 сложных для современных языковых моделей задач. Все задачи имеют закрытый тестовый датасет.
Открытые задачи
Задачи публичных тестов, которые не учитываются в основном рейтинге. Для этих задач все ответы доступны публично. Это открытые датасеты, популярные в сообществе; диагностические экспериментальные, например, на этику и стереотипы моделей; базовые проверки для моделей инструктивного типа (например, SimpleAr).
Оценки по подкатегориям
Основные и открытые задачи, для которых кроме общего результата можно посмотреть оценки по категориям. Например, для MaMuRaMu или ruMMLU можно посмотреть и сравнить оценки моделей по конкретным доменам
Фильтры
Выбрать задачи
Все задачи
{{ task.title }}
{{ task.leaderboard_description }}
Выбрать домены
Все домены
{{ domain.title }}
Развернуть список доменов Свернуть список доменов
Метрика: {{ subcategoriesFilters.activeTask.subcategories.metric }}
Фильтры Сбросить
Chat Template
Системный промт
Multi-turn
Тип модели
{{ name }}
Способ замера
{{ name }}
Размер модели
{{ name }}
Основные задачи Открытые задачи
Все задачи
{{ task.title }}
{{ task.leaderboard_description }}
Выбрать домены
Все задачи
{{ domain.title }}
{{ group.title }}
Модель, команда
Результат
{{ i + 1 }}
{{ submit.name }} {{ transformSize(submit.size) }}
{{ submit.team_name }}
{{ submit.score }}
{{ task.title }}
{{ getTaskScore(submit, task) }}
{{ column.title }}
{{ getSubcategoryColumnValue(submit, column) }}

Нет подходящих результатов