GigaChat Max

Created at 24.10.2024 07:30

Assessment of the main tasks: 0.588

The table will scroll to the left

Task name Result Metric
LCS 0.192 Accuracy
RCB 0.58 / 0.423 Avg. F1 / Accuracy
USE 0.393 Grade Norm
RWSD 0.665 Accuracy
PARus 0.928 Accuracy
ruTiE 0.715 Accuracy
MultiQ 0.486 / 0.322 F1-score/EM
CheGeKa 0.469 / 0.397 F1 / EM
ruModAr 0.938 EM
MaMuRAMu 0.824 Accuracy
ruMultiAr 0.362 EM
ruCodeEval 0.077 / 0.093 / 0.098 pass@k
MathLogicQA 0.575 Accuracy
ruWorldTree 0.975 / 0.975 Avg. F1 / Accuracy
ruOpenBookQA 0.918 / 0.737 Avg. F1 / Accuracy

Evaluation on open tasks:

It is not taken into account in the overall rating

The table will scroll to the left

Task name Result Metric
BPS 0.977 Accuracy
ruMMLU 0.718 Accuracy
SimpleAr 0.989 EM
ruHumanEval 0.184 / 0.195 / 0.201 pass@k
ruHHH

0.775

  • Honest: 0.77
  • Harmless: 0.828
  • Helpful: 0.729
Accuracy
ruHateSpeech

0.611

  • Women : 0.824
  • Man : 0.543
  • LGBT : 0.0
  • Nationality : 0.135
  • Migrants : 0.286
  • Other : 0.77
Accuracy
ruDetox
  • 0.199
  • 0.327
  • 0.749
  • 0.765

Overall average score (J)

Assessment of the preservation of meaning (SIM)

Assessment of naturalness (FL)

Style Transfer Accuracy (STA)

ruEthics
Correct God Ethical
Virtue 0.394 0.369 0.42
Law 0.379 0.358 0.422
Moral 0.422 0.386 0.451
Justice 0.347 0.328 0.377
Utilitarianism 0.336 0.332 0.386

Table results:

[[0.394, 0.379 , 0.422, 0.347 , 0.336],
[0.369, 0.358 , 0.386, 0.328 , 0.332],
[0.42, 0.422 , 0.451, 0.377 , 0.386]]

5 MCC

Information about the submission:

Team:

GIGACHAT

Name of the ML model:

GigaChat Max

Model type:

Closed

API

Architecture description:

GigaChat MAX (version 1.0.0.0) is the largest in GigaChat Model family (LLM). The model will be available for B2C users https://giga.chat/ and B2B users via API soon https://developers.sber.ru/docs/ru/gigachat/api/tariffs.

Description of the training:

Pretrain data:

License:

Proprietary model by Sber

Basic tags:

MERA version:
v.1.2.0

The version of the codebase:
44ddcb3

Torch Version:
2.4.0

CUDA version:
12.1

Transformers version:
4.43.2

The number of GPUs and their type:
5 x NVIDIA H100 80GB HBM3

Butch:
1

Seed:
1234

Architecture:
gigachat_llms

Chat template:
Yes

Special tokens:
No

Multi-Turn:
1

Inference parameters

Generation Parameters:
simplear - do_sample=false;until=["\n"];
chegeka - do_sample=false;until=["\n"];
rudetox - do_sample=false;until=["\n"];
rumultiar - do_sample=false;until=["\n"];
use - do_sample=false;until=["\n","."];
multiq - do_sample=false;until=["\n"];
rumodar - do_sample=false;until=["\n"];
ruhumaneval - do_sample=true;until=["\nclass","\ndef","\n#","\nif","\nprint"];
rucodeeval - do_sample=true;until=["\nclass","\ndef","\n#","\nif","\nprint"];

System prompt:
Реши задачу по инструкции ниже. Не давай никаких объяснений и пояснений к своему ответу. Не пиши ничего лишнего. Пиши только то, что указано в инструкции. Если по инструкции нужно решить пример, то напиши только числовой ответ без хода решения и пояснений. Если по инструкции нужно вывести букву, цифру или слово, выведи только его. Если по инструкции нужно выбрать один из вариантов ответа и вывести букву или цифру, которая ему соответствует, то выведи только эту букву или цифру, не давай никаких пояснений, не добавляй знаки препинания, только 1 символ в ответе. Если по инструкции нужно дописать код функции на языке Python, пиши сразу код, соблюдая отступы так, будто ты продолжаешь функцию из инструкции, не давай пояснений, не пиши комментарии, используй только аргументы из сигнатуры функции в инструкции, не пробуй считывать данные через функцию input. Не извиняйся, не строй диалог. Выдавай только ответ и ничего больше.

Description of the template:
API Default