Лидерборд

Общая оценка модели на лидерборде считается по сумме классов задач. Диагностические результаты выдаются отдельно. Подробная информация о сабмитах доступна на страницах сабмитов (по клику на название модели).

Таблица скроллится влево

 
Модель, команда
Общий результат
BPS CheGeKa LCS MathLogicQA MultiQ PARus RCB ruHumanEval ruMMLU ruModAr ruMultiAr ruOpenBookQA ruTiE ruWorldTree RWSD SimpleAr USE
1
0.872
1.0 0.719 / 0.645 0.56 0.99 0.928 / 0.91 0.982 0.565 / 0.587 1 / 1 / 1 0.844 0.999 0.998 0.875 / 0.865 0.942 0.935 / 0.935 0.835 1.0 0.701
2

GigaChat-Pro

GIGACHAT

0.537
0.318 0.104 / 0 0.09 0.467 0.369 / 0.247 0.884 0.53 / 0.449 0.013 / 0.064 / 0.128 0.816 0.866 0.273 0.873 / 0.872 0.791 0.939 / 0.939 0.585 0.971 0.338
3
0.536
0.23 0.05 / 0.022 0.178 0.589 0.247 / 0.171 0.884 0.598 / 0.603 0.023 / 0.113 / 0.226 0.704 0.949 0.337 0.813 / 0.813 0.674 0.872 / 0.872 0.665 0.986 0.266
4

GigaChat Lite

GIGACHAT

0.504
0.412 0.063 / 0 0.084 0.45 0.193 / 0.071 0.848 0.543 / 0.452 0.018 / 0.088 / 0.177 0.783 0.77 0.216 0.823 / 0.822 0.726 0.897 / 0.897 0.627 0.9 0.284
5
0.479
0.276 0.083 / 0.046 0.094 0.407 0.361 / 0.278 0.834 0.532 / 0.53 0.018 / 0.088 / 0.177 0.689 0.717 0.233 0.763 / 0.762 0.574 0.846 / 0.845 0.615 0.955 0.128
6

Mixtral 8x7B Instruct

Russian_NLP

0.478
0.157 0.071 / 0 0.082 0.408 0.151 / 0.071 0.858 0.521 / 0.48 0.024 / 0.122 / 0.244 0.776 0.674 0.288 0.825 / 0.825 0.695 0.907 / 0.907 0.635 0.977 0.069
7

SOLAR 10.7B Instruct

Russian_NLP

0.469
0.359 0.206 / 0.139 0.078 0.396 0.205 / 0.097 0.828 0.523 / 0.503 0.013 / 0.067 / 0.134 0.698 0.459 0.2 0.825 / 0.824 0.7 0.884 / 0.884 0.654 0.946 0.04
8

Yi 34B 200K

LM Research

0.455
0.426 0.01 / 0 0.108 0.473 0.185 / 0.107 0.74 0.498 / 0.402 0.004 / 0.021 / 0.043 0.676 0.635 0.277 0.748 / 0.746 0.602 0.838 / 0.838 0.562 0.981 0.049
9
0.453
0.336 0.035 / 0 0.142 0.373 0.261 / 0.161 0.744 0.521 / 0.424 0.01 / 0.052 / 0.104 0.712 0.59 0.254 0.795 / 0.795 0.614 0.844 / 0.844 0.569 0.955 0.018
10

Llama 2 70b

NLP Team

0.453
0.495 0.076 / 0 0.08 0.388 0.185 / 0.041 0.744 0.466 / 0.424 0.02 / 0.101 / 0.201 0.741 0.65 0.216 0.818 / 0.817 0.453 0.914 / 0.915 0.5 0.965 0.031
11
0.433
0.374 0.029 / 0 0.082 0.374 0.18 / 0.002 0.724 0.532 / 0.485 0.015 / 0.076 / 0.152 0.673 0.473 0.227 0.775 / 0.774 0.549 0.829 / 0.829 0.573 0.941 0.066
12

Mistral 7B

MERA

0.4
0.392 0.038 / 0 0.098 0.344 0.124 / 0.067 0.518 0.372 / 0.344 0.012 / 0.058 / 0.116 0.676 0.516 0.195 0.735 / 0.732 0.502 0.81 / 0.811 0.512 0.95 0.022
13
0.387
0.381 0.005 / 0 0.086 0.391 0.103 / 0.003 0.672 0.511 / 0.425 0.02 / 0.101 / 0.201 0.478 0.49 0.271 0.558 / 0.558 0.551 0.621 / 0.62 0.496 0.91 0.052
14
0.383
0.521 0.018 / 0 0.124 0.353 0.119 / 0.044 0.506 0.331 / 0.178 0.005 / 0.023 / 0.037 0.613 0.476 0.176 0.675 / 0.676 0.519 0.766 / 0.765 0.481 0.927 0.016
15
0.368
0.507 0.043 / 0 0.09 0.314 0.098 / 0.014 0.478 0.329 / 0.258 0.008 / 0.04 / 0.079 0.563 0.486 0.156 0.638 / 0.637 0.493 0.703 / 0.703 0.5 0.911 0.01
16

Yi-6B

MERA

0.354
0.469 0.008 / 0 0.112 0.382 0.079 / 0.051 0.514 0.333 / 0.167 0.003 / 0.015 / 0.03 0.487 0.416 0.189 0.59 / 0.588 0.505 0.541 / 0.542 0.496 0.951 0.023
17

Llama 2 7B

MERA

0.327
0.426 0.021 / 0 0.106 0.277 0.081 / 0.011 0.532 0.349 / 0.272 0.007 / 0.034 / 0.067 0.452 0.367 0.124 0.475 / 0.471 0.5 0.545 / 0.543 0.504 0.839 0.014
18
0.208
0.492 0.037 / 0 0.132 0.258 0.115 / 0.036 0.504 0.331 / 0.194 0.001 / 0.003 / 0.006 0.246 0.001 0.025 0.223 / 0.208 0.488 0.246 / 0.22 0.523 0.029 0.025
19
0.205
0.5 0.002 / 0 0.096 0.244 0.014 / 0.001 0.482 0.361 / 0.36 0 / 0 / 0 0.258 0.0 0.0 0.245 / 0.245 0.472 0.23 / 0.229 0.519 0.0 0.064
20
0.201
0.43 0.005 / 0 0.102 0.248 0.106 / 0.043 0.498 0.333 / 0.167 0 / 0 / 0 0.271 0.001 0.012 0.273 / 0.271 0.5 0.251 / 0.248 0.5 0.008 0.002
21
0.201
0.494 0.001 / 0 0.12 0.261 0.013 / 0.003 0.506 0.326 / 0.185 0 / 0 / 0 0.254 0.0 0.0 0.23 / 0.223 0.528 0.269 / 0.255 0.5 0.0 0.001
22
0.199
0.461 0.007 / 0 0.116 0.222 0.104 / 0.023 0.498 0.333 / 0.167 0 / 0 / 0 0.275 0.001 0.01 0.248 / 0.201 0.5 0.265 / 0.222 0.5 0.006 0.004
23
0.198
0.546 0.002 / 0 0.108 0.261 0.003 / 0 0.52 0.288 / 0.255 0 / 0 / 0 0.225 0.0 0.0 0.255 / 0.223 0.5 0.225 / 0.198 0.481 0.0 0.002
24

mGPT 1.3B

MERA

0.198
0.449 0.004 / 0 0.136 0.258 0.055 / 0.014 0.498 0.333 / 0.167 0 / 0 / 0 0.241 0.001 0.012 0.245 / 0.193 0.5 0.251 / 0.225 0.519 0.007 0
25

mGPT 13B

MERA

0.196
0.463 0.006 / 0 0.132 0.263 0.062 / 0.023 0.498 0.333 / 0.167 0 / 0 / 0 0.235 0.0 0.019 0.25 / 0.193 0.5 0.232 / 0.172 0.485 0.023 0.002
26
0.195
0.523 0.001 / 0 0.106 0.252 0.002 / 0 0.468 0.336 / 0.306 0 / 0 / 0 0.231 0.0 0.0 0.243 / 0.148 0.526 0.238 / 0.147 0.5 0.0 0
27
0.195
0.486 0.003 / 0 0.094 0.241 0.093 / 0.041 0.496 0.315 / 0.166 0 / 0 / 0 0.296 0.0 0.0 0.24 / 0.169 0.488 0.238 / 0.147 0.504 0.0 0.004
28
0.194
0.475 0.001 / 0 0.086 0.24 0.052 / 0 0.492 0.354 / 0.248 0 / 0 / 0 0.248 0.0 0.0 0.265 / 0.215 0.493 0.232 / 0.174 0.492 0.0 0
29
0.193
0.486 0.001 / 0 0.1 0.259 0.008 / 0 0.508 0.336 / 0.269 0 / 0 / 0 0.237 0.0 0.0 0.265 / 0.183 0.493 0.234 / 0.151 0.481 0.0 0
30
0.193
0.416 0.007 / 0 0.122 0.251 0.099 / 0.026 0.498 0.333 / 0.167 0 / 0 / 0 0.245 0.001 0.007 0.21 / 0.178 0.5 0.232 / 0.191 0.515 0.004 0
31
0.191
0.367 0.007 / 0 0.08 0.244 0.063 / 0.009 0.498 0.333 / 0.167 0 / 0 / 0 0.263 0.001 0.009 0.258 / 0.253 0.5 0.257 / 0.254 0.492 0.0 0.001
32
0.191
0.508 0.006 / 0 0.088 0.246 0.031 / 0.001 0.498 0.333 / 0.167 0 / 0 / 0 0.262 0.001 0.0 0.25 / 0.129 0.495 0.255 / 0.13 0.5 0.0 0
33
0.19
0.402 0 / 0 0.11 0.254 0.01 / 0 0.498 0.326 / 0.296 0 / 0 / 0 0.24 0.0 0.0 0.263 / 0.158 0.505 0.259 / 0.159 0.485 0.0 0