Лидерборд

Общая оценка модели на лидерборде считается по сумме классов задач. Диагностические результаты выдаются отдельно. Подробная информация о сабмитах доступна на страницах сабмитов (по клику на название модели).

Таблица скроллится влево

 
Модель, команда
Общий результат
BPS CheGeKa LCS MathLogicQA MultiQ PARus RCB ruHumanEval ruMMLU ruModAr ruMultiAr ruOpenBookQA ruTiE ruWorldTree RWSD SimpleAr USE
1
0.872
1.0 0.719 / 0.645 0.56 0.99 0.928 / 0.91 0.982 0.565 / 0.587 1 / 1 / 1 0.844 0.999 0.998 0.875 / 0.865 0.942 0.935 / 0.935 0.835 1.0 0.701
2

GigaChat Pro

SberDevices

0.514
0.224 0.451 / 0.363 0.12 0.395 0.192 / 0.097 0.896 0.562 / 0.484 0.021 / 0.107 / 0.213 0.811 0.589 0.226 0.875 / 0.874 0.779 0.96 / 0.96 0.546 0.96 0.169
3
0.479
0.276 0.083 / 0.046 0.094 0.407 0.361 / 0.278 0.834 0.532 / 0.53 0.018 / 0.088 / 0.177 0.689 0.717 0.233 0.763 / 0.762 0.574 0.846 / 0.845 0.615 0.955 0.128
4

GigaChat Lite+

SberDevices

0.479
0.416 0.308 / 0.255 0.088 0.369 0.21 / 0.109 0.844 0.491 / 0.398 0.009 / 0.046 / 0.091 0.769 0.481 0.184 0.818 / 0.818 0.756 0.931 / 0.932 0.527 0.913 0.109
5

Mixtral 8x7B Instruct

Russian_NLP

0.478
0.157 0.071 / 0 0.082 0.408 0.151 / 0.071 0.858 0.521 / 0.48 0.024 / 0.122 / 0.244 0.776 0.674 0.288 0.825 / 0.825 0.695 0.907 / 0.907 0.635 0.977 0.069
6

SOLAR 10.7B Instruct

Russian_NLP

0.469
0.359 0.206 / 0.139 0.078 0.396 0.205 / 0.097 0.828 0.523 / 0.503 0.013 / 0.067 / 0.134 0.698 0.459 0.2 0.825 / 0.824 0.7 0.884 / 0.884 0.654 0.946 0.04
7

Yi 34B 200K

LM Research

0.455
0.426 0.01 / 0 0.108 0.473 0.185 / 0.107 0.74 0.498 / 0.402 0.004 / 0.021 / 0.043 0.676 0.635 0.277 0.748 / 0.746 0.602 0.838 / 0.838 0.562 0.981 0.049
8

Llama 2 70b

NLP Team

0.453
0.495 0.076 / 0 0.08 0.388 0.185 / 0.041 0.744 0.466 / 0.424 0.02 / 0.101 / 0.201 0.741 0.65 0.216 0.818 / 0.817 0.453 0.914 / 0.915 0.5 0.965 0.031
9

Mistral 7B

MERA

0.4
0.392 0.038 / 0 0.098 0.344 0.124 / 0.067 0.518 0.372 / 0.344 0.012 / 0.058 / 0.116 0.676 0.516 0.195 0.735 / 0.732 0.502 0.81 / 0.811 0.512 0.95 0.022
10
0.383
0.521 0.018 / 0 0.124 0.353 0.119 / 0.044 0.506 0.331 / 0.178 0.005 / 0.023 / 0.037 0.613 0.476 0.176 0.675 / 0.676 0.519 0.766 / 0.765 0.481 0.927 0.016
11
0.368
0.507 0.043 / 0 0.09 0.314 0.098 / 0.014 0.478 0.329 / 0.258 0.008 / 0.04 / 0.079 0.563 0.486 0.156 0.638 / 0.637 0.493 0.703 / 0.703 0.5 0.911 0.01
12

Yi-6B

MERA

0.354
0.469 0.008 / 0 0.112 0.382 0.079 / 0.051 0.514 0.333 / 0.167 0.003 / 0.015 / 0.03 0.487 0.416 0.189 0.59 / 0.588 0.505 0.541 / 0.542 0.496 0.951 0.023
13

Llama 2 7B

MERA

0.327
0.426 0.021 / 0 0.106 0.277 0.081 / 0.011 0.532 0.349 / 0.272 0.007 / 0.034 / 0.067 0.452 0.367 0.124 0.475 / 0.471 0.5 0.545 / 0.543 0.504 0.839 0.014
14
0.208
0.492 0.037 / 0 0.132 0.258 0.115 / 0.036 0.504 0.331 / 0.194 0.001 / 0.003 / 0.006 0.246 0.001 0.025 0.223 / 0.208 0.488 0.246 / 0.22 0.523 0.029 0.025
15
0.205
0.5 0.002 / 0 0.096 0.244 0.014 / 0.001 0.482 0.361 / 0.36 0 / 0 / 0 0.258 0.0 0.0 0.245 / 0.245 0.472 0.23 / 0.229 0.519 0.0 0.064
16
0.201
0.43 0.005 / 0 0.102 0.248 0.106 / 0.043 0.498 0.333 / 0.167 0 / 0 / 0 0.271 0.001 0.012 0.273 / 0.271 0.5 0.251 / 0.248 0.5 0.008 0.002
17
0.201
0.494 0.001 / 0 0.12 0.261 0.013 / 0.003 0.506 0.326 / 0.185 0 / 0 / 0 0.254 0.0 0.0 0.23 / 0.223 0.528 0.269 / 0.255 0.5 0.0 0.001
18
0.198
0.546 0.002 / 0 0.108 0.261 0.003 / 0 0.52 0.288 / 0.255 0 / 0 / 0 0.225 0.0 0.0 0.255 / 0.223 0.5 0.225 / 0.198 0.481 0.0 0.002
19

mGPT 1.3B

MERA

0.198
0.449 0.004 / 0 0.136 0.258 0.055 / 0.014 0.498 0.333 / 0.167 0 / 0 / 0 0.241 0.001 0.012 0.245 / 0.193 0.5 0.251 / 0.225 0.519 0.007 0
20

mGPT 13B

MERA

0.196
0.463 0.006 / 0 0.132 0.263 0.062 / 0.023 0.498 0.333 / 0.167 0 / 0 / 0 0.235 0.0 0.019 0.25 / 0.193 0.5 0.232 / 0.172 0.485 0.023 0.002
21
0.195
0.523 0.001 / 0 0.106 0.252 0.002 / 0 0.468 0.336 / 0.306 0 / 0 / 0 0.231 0.0 0.0 0.243 / 0.148 0.526 0.238 / 0.147 0.5 0.0 0
22
0.195
0.486 0.003 / 0 0.094 0.241 0.093 / 0.041 0.496 0.315 / 0.166 0 / 0 / 0 0.296 0.0 0.0 0.24 / 0.169 0.488 0.238 / 0.147 0.504 0.0 0.004
23
0.194
0.475 0.001 / 0 0.086 0.24 0.052 / 0 0.492 0.354 / 0.248 0 / 0 / 0 0.248 0.0 0.0 0.265 / 0.215 0.493 0.232 / 0.174 0.492 0.0 0
24
0.193
0.486 0.001 / 0 0.1 0.259 0.008 / 0 0.508 0.336 / 0.269 0 / 0 / 0 0.237 0.0 0.0 0.265 / 0.183 0.493 0.234 / 0.151 0.481 0.0 0
25
0.193
0.416 0.007 / 0 0.122 0.251 0.099 / 0.026 0.498 0.333 / 0.167 0 / 0 / 0 0.245 0.001 0.007 0.21 / 0.178 0.5 0.232 / 0.191 0.515 0.004 0
26
0.191
0.367 0.007 / 0 0.08 0.244 0.063 / 0.009 0.498 0.333 / 0.167 0 / 0 / 0 0.263 0.001 0.009 0.258 / 0.253 0.5 0.257 / 0.254 0.492 0.0 0.001
27
0.191
0.508 0.006 / 0 0.088 0.246 0.031 / 0.001 0.498 0.333 / 0.167 0 / 0 / 0 0.262 0.001 0.0 0.25 / 0.129 0.495 0.255 / 0.13 0.5 0.0 0
28
0.19
0.402 0 / 0 0.11 0.254 0.01 / 0 0.498 0.326 / 0.296 0 / 0 / 0 0.24 0.0 0.0 0.263 / 0.158 0.505 0.259 / 0.159 0.485 0.0 0