Таблица скроллится влево
Задача | Результат | Метрика |
---|---|---|
LCS | 0.192 | Accuracy |
RCB | 0.58 / 0.423 | Avg. F1 / Accuracy |
USE | 0.393 | Grade Norm |
RWSD | 0.665 | Accuracy |
PARus | 0.928 | Accuracy |
ruTiE | 0.715 | Accuracy |
MultiQ | 0.486 / 0.322 | F1-score/EM |
CheGeKa | 0.469 / 0.397 | F1 / EM |
ruModAr | 0.938 | EM |
MaMuRAMu | 0.824 | Accuracy |
ruMultiAr | 0.362 | EM |
ruCodeEval | 0.077 / 0.093 / 0.098 | pass@k |
MathLogicQA | 0.575 | Accuracy |
ruWorldTree | 0.975 / 0.975 | Avg. F1 / Accuracy |
ruOpenBookQA | 0.918 / 0.737 | Avg. F1 / Accuracy |
Таблица скроллится влево
Задача | Результат | Метрика | ||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
BPS | 0.977 | Accuracy | ||||||||||||||||||||||||
ruMMLU | 0.718 | Accuracy | ||||||||||||||||||||||||
SimpleAr | 0.989 | EM | ||||||||||||||||||||||||
ruHumanEval | 0.184 / 0.195 / 0.201 | pass@k | ||||||||||||||||||||||||
ruHHH |
0.775
|
Accuracy | ||||||||||||||||||||||||
ruHateSpeech |
0.611
|
Accuracy | ||||||||||||||||||||||||
ruDetox |
|
Общая средняя оценка (J) Оценка сохранения смысла (SIM) Оценка натуральности (FL) Точность переноса стиля (STA) |
||||||||||||||||||||||||
ruEthics |
Результаты таблицы:
[[0.394, 0.379
, 0.422, 0.347
, 0.336], |
5 MCC |
GIGACHAT
GigaChat Max
Закрытая
API
GigaChat MAX (version 1.0.0.0) is the largest in GigaChat Model family (LLM) with the number of parameters 70-100B that was fine-tuned on instruction corpus with the context length 32k. The model will be available for B2C users https://giga.chat/ and B2B users via API soon https://developers.sber.ru/docs/ru/gigachat/api/tariffs.
—
—
Proprietary model by Sber
Версия MERA:
v.1.2.0
Версия кодовой базы:
44ddcb3
Версия Torch:
2.4.0
Версия CUDA:
12.1
Версия transformers:
4.43.2
Количество GPU и их тип:
5 x NVIDIA H100 80GB HBM3
Батч:
1
Сид:
1234
Архитектура:
gigachat_llms
Chat template:
Да
Специальные токены:
Нет
Multi-Turn:
1
Параметры генерации:
simplear - do_sample=false;until=["\n"];
chegeka - do_sample=false;until=["\n"];
rudetox - do_sample=false;until=["\n"];
rumultiar - do_sample=false;until=["\n"];
use - do_sample=false;until=["\n","."];
multiq - do_sample=false;until=["\n"];
rumodar - do_sample=false;until=["\n"];
ruhumaneval - do_sample=true;until=["\nclass","\ndef","\n#","\nif","\nprint"];
rucodeeval - do_sample=true;until=["\nclass","\ndef","\n#","\nif","\nprint"];
Системный промпт:
Реши задачу по инструкции ниже. Не давай никаких объяснений и пояснений к своему ответу. Не пиши ничего лишнего. Пиши только то, что указано в инструкции. Если по инструкции нужно решить пример, то напиши только числовой ответ без хода решения и пояснений. Если по инструкции нужно вывести букву, цифру или слово, выведи только его. Если по инструкции нужно выбрать один из вариантов ответа и вывести букву или цифру, которая ему соответствует, то выведи только эту букву или цифру, не давай никаких пояснений, не добавляй знаки препинания, только 1 символ в ответе. Если по инструкции нужно дописать код функции на языке Python, пиши сразу код, соблюдая отступы так, будто ты продолжаешь функцию из инструкции, не давай пояснений, не пиши комментарии, используй только аргументы из сигнатуры функции в инструкции, не пробуй считывать данные через функцию input. Не извиняйся, не строй диалог. Выдавай только ответ и ничего больше.
Описание темплейта:
API Default