Лидерборд

Общая оценка модели на лидерборде считается по сумме классов задач. Диагностические результаты выдаются отдельно. Подробная информация о сабмитах доступна на страницах сабмитов (по клику на название модели).

Таблица скроллится влево

 
Модель, команда
Общий результат
BPS CheGeKa LCS MathLogicQA MultiQ PARus RCB ruHumanEval ruMMLU ruModAr ruMultiAr ruOpenBookQA ruTiE ruWorldTree RWSD SimpleAr USE
1
0.872
1.0 0.719 / 0.645 0.56 0.99 0.928 / 0.91 0.982 0.565 / 0.587 1 / 1 / 1 0.844 0.999 0.998 0.875 / 0.865 0.942 0.935 / 0.935 0.835 1.0 0.701
2
0.536
0.23 0.05 / 0.022 0.178 0.589 0.247 / 0.171 0.884 0.598 / 0.603 0.023 / 0.113 / 0.226 0.704 0.949 0.337 0.813 / 0.813 0.674 0.872 / 0.872 0.665 0.986 0.266
3

GigaChat Pro

SberDevices

0.514
0.224 0.451 / 0.363 0.12 0.395 0.192 / 0.097 0.896 0.562 / 0.484 0.021 / 0.107 / 0.213 0.811 0.589 0.226 0.875 / 0.874 0.779 0.96 / 0.96 0.546 0.96 0.169
4
0.479
0.276 0.083 / 0.046 0.094 0.407 0.361 / 0.278 0.834 0.532 / 0.53 0.018 / 0.088 / 0.177 0.689 0.717 0.233 0.763 / 0.762 0.574 0.846 / 0.845 0.615 0.955 0.128
5

GigaChat Lite+

SberDevices

0.479
0.416 0.308 / 0.255 0.088 0.369 0.21 / 0.109 0.844 0.491 / 0.398 0.009 / 0.046 / 0.091 0.769 0.481 0.184 0.818 / 0.818 0.756 0.931 / 0.932 0.527 0.913 0.109
6

Mixtral 8x7B Instruct

Russian_NLP

0.478
0.157 0.071 / 0 0.082 0.408 0.151 / 0.071 0.858 0.521 / 0.48 0.024 / 0.122 / 0.244 0.776 0.674 0.288 0.825 / 0.825 0.695 0.907 / 0.907 0.635 0.977 0.069
7

SOLAR 10.7B Instruct

Russian_NLP

0.469
0.359 0.206 / 0.139 0.078 0.396 0.205 / 0.097 0.828 0.523 / 0.503 0.013 / 0.067 / 0.134 0.698 0.459 0.2 0.825 / 0.824 0.7 0.884 / 0.884 0.654 0.946 0.04
8

Yi 34B 200K

LM Research

0.455
0.426 0.01 / 0 0.108 0.473 0.185 / 0.107 0.74 0.498 / 0.402 0.004 / 0.021 / 0.043 0.676 0.635 0.277 0.748 / 0.746 0.602 0.838 / 0.838 0.562 0.981 0.049
9

Llama 2 70b

NLP Team

0.453
0.495 0.076 / 0 0.08 0.388 0.185 / 0.041 0.744 0.466 / 0.424 0.02 / 0.101 / 0.201 0.741 0.65 0.216 0.818 / 0.817 0.453 0.914 / 0.915 0.5 0.965 0.031
10
0.433
0.374 0.029 / 0 0.082 0.374 0.18 / 0.002 0.724 0.532 / 0.485 0.015 / 0.076 / 0.152 0.673 0.473 0.227 0.775 / 0.774 0.549 0.829 / 0.829 0.573 0.941 0.066
11

Mistral 7B

MERA

0.4
0.392 0.038 / 0 0.098 0.344 0.124 / 0.067 0.518 0.372 / 0.344 0.012 / 0.058 / 0.116 0.676 0.516 0.195 0.735 / 0.732 0.502 0.81 / 0.811 0.512 0.95 0.022
12
0.383
0.521 0.018 / 0 0.124 0.353 0.119 / 0.044 0.506 0.331 / 0.178 0.005 / 0.023 / 0.037 0.613 0.476 0.176 0.675 / 0.676 0.519 0.766 / 0.765 0.481 0.927 0.016
13
0.368
0.507 0.043 / 0 0.09 0.314 0.098 / 0.014 0.478 0.329 / 0.258 0.008 / 0.04 / 0.079 0.563 0.486 0.156 0.638 / 0.637 0.493 0.703 / 0.703 0.5 0.911 0.01
14

Yi-6B

MERA

0.354
0.469 0.008 / 0 0.112 0.382 0.079 / 0.051 0.514 0.333 / 0.167 0.003 / 0.015 / 0.03 0.487 0.416 0.189 0.59 / 0.588 0.505 0.541 / 0.542 0.496 0.951 0.023
15

Llama 2 7B

MERA

0.327
0.426 0.021 / 0 0.106 0.277 0.081 / 0.011 0.532 0.349 / 0.272 0.007 / 0.034 / 0.067 0.452 0.367 0.124 0.475 / 0.471 0.5 0.545 / 0.543 0.504 0.839 0.014
16
0.208
0.492 0.037 / 0 0.132 0.258 0.115 / 0.036 0.504 0.331 / 0.194 0.001 / 0.003 / 0.006 0.246 0.001 0.025 0.223 / 0.208 0.488 0.246 / 0.22 0.523 0.029 0.025
17
0.205
0.5 0.002 / 0 0.096 0.244 0.014 / 0.001 0.482 0.361 / 0.36 0 / 0 / 0 0.258 0.0 0.0 0.245 / 0.245 0.472 0.23 / 0.229 0.519 0.0 0.064
18
0.201
0.43 0.005 / 0 0.102 0.248 0.106 / 0.043 0.498 0.333 / 0.167 0 / 0 / 0 0.271 0.001 0.012 0.273 / 0.271 0.5 0.251 / 0.248 0.5 0.008 0.002
19
0.201
0.494 0.001 / 0 0.12 0.261 0.013 / 0.003 0.506 0.326 / 0.185 0 / 0 / 0 0.254 0.0 0.0 0.23 / 0.223 0.528 0.269 / 0.255 0.5 0.0 0.001
20
0.198
0.546 0.002 / 0 0.108 0.261 0.003 / 0 0.52 0.288 / 0.255 0 / 0 / 0 0.225 0.0 0.0 0.255 / 0.223 0.5 0.225 / 0.198 0.481 0.0 0.002
21

mGPT 1.3B

MERA

0.198
0.449 0.004 / 0 0.136 0.258 0.055 / 0.014 0.498 0.333 / 0.167 0 / 0 / 0 0.241 0.001 0.012 0.245 / 0.193 0.5 0.251 / 0.225 0.519 0.007 0
22

mGPT 13B

MERA

0.196
0.463 0.006 / 0 0.132 0.263 0.062 / 0.023 0.498 0.333 / 0.167 0 / 0 / 0 0.235 0.0 0.019 0.25 / 0.193 0.5 0.232 / 0.172 0.485 0.023 0.002
23
0.195
0.523 0.001 / 0 0.106 0.252 0.002 / 0 0.468 0.336 / 0.306 0 / 0 / 0 0.231 0.0 0.0 0.243 / 0.148 0.526 0.238 / 0.147 0.5 0.0 0
24
0.195
0.486 0.003 / 0 0.094 0.241 0.093 / 0.041 0.496 0.315 / 0.166 0 / 0 / 0 0.296 0.0 0.0 0.24 / 0.169 0.488 0.238 / 0.147 0.504 0.0 0.004
25
0.194
0.475 0.001 / 0 0.086 0.24 0.052 / 0 0.492 0.354 / 0.248 0 / 0 / 0 0.248 0.0 0.0 0.265 / 0.215 0.493 0.232 / 0.174 0.492 0.0 0
26
0.193
0.486 0.001 / 0 0.1 0.259 0.008 / 0 0.508 0.336 / 0.269 0 / 0 / 0 0.237 0.0 0.0 0.265 / 0.183 0.493 0.234 / 0.151 0.481 0.0 0
27
0.193
0.416 0.007 / 0 0.122 0.251 0.099 / 0.026 0.498 0.333 / 0.167 0 / 0 / 0 0.245 0.001 0.007 0.21 / 0.178 0.5 0.232 / 0.191 0.515 0.004 0
28
0.191
0.367 0.007 / 0 0.08 0.244 0.063 / 0.009 0.498 0.333 / 0.167 0 / 0 / 0 0.263 0.001 0.009 0.258 / 0.253 0.5 0.257 / 0.254 0.492 0.0 0.001
29
0.191
0.508 0.006 / 0 0.088 0.246 0.031 / 0.001 0.498 0.333 / 0.167 0 / 0 / 0 0.262 0.001 0.0 0.25 / 0.129 0.495 0.255 / 0.13 0.5 0.0 0
30
0.19
0.402 0 / 0 0.11 0.254 0.01 / 0 0.498 0.326 / 0.296 0 / 0 / 0 0.24 0.0 0.0 0.263 / 0.158 0.505 0.259 / 0.159 0.485 0.0 0