Задачи

Каталог мультимодальных задач для оценки современных LLMs.
Таксономия указывает какие навыки модели проверяет тест

Выбрать модальность
Все задачи
Приватные
{{ name }}
Тестируемые навыки
Все таксоны
{{ skill.title }}
Развернуть список навыков Свернуть список навыков
Фильтры Сбросить
Выбрать модальность
{{ name }}
Тестируемые навыки
{{ skill.title }}
Фильтры
Название сета
Top Score | Human Baseline
Метрика
В задачах с двумя и более метриками оценка считается как среднее по всем метрикам
Тестируемые навыки