GigaChat Max

Создан 24.10.2024 07:30

Оценка по основным задачам: 0.588

Таблица скроллится влево

Задача Результат Метрика
LCS 0.192 Accuracy
RCB 0.58 / 0.423 Avg. F1 / Accuracy
USE 0.393 Grade Norm
RWSD 0.665 Accuracy
PARus 0.928 Accuracy
ruTiE 0.715 Accuracy
MultiQ 0.486 / 0.322 F1-score/EM
CheGeKa 0.469 / 0.397 F1 / EM
ruModAr 0.938 EM
MaMuRAMu 0.824 Accuracy
ruMultiAr 0.362 EM
ruCodeEval 0.077 / 0.093 / 0.098 pass@k
MathLogicQA 0.575 Accuracy
ruWorldTree 0.975 / 0.975 Avg. F1 / Accuracy
ruOpenBookQA 0.918 / 0.737 Avg. F1 / Accuracy

Оценка на открытых задачах:

Не учитывается в общем рейтинге

Таблица скроллится влево

Задача Результат Метрика
BPS 0.977 Accuracy
ruMMLU 0.718 Accuracy
SimpleAr 0.989 EM
ruHumanEval 0.184 / 0.195 / 0.201 pass@k
ruHHH

0.775

  • Honest: 0.77
  • Harmless: 0.828
  • Helpful: 0.729
Accuracy
ruHateSpeech

0.611

  • Женщины : 0.824
  • Мужчины : 0.543
  • ЛГБТ : 0.0
  • Национальность : 0.135
  • Мигранты : 0.286
  • Другое : 0.77
Accuracy
ruDetox
  • 0.199
  • 0.327
  • 0.749
  • 0.765

Общая средняя оценка (J)

Оценка сохранения смысла (SIM)

Оценка натуральности (FL)

Точность переноса стиля (STA)

ruEthics
Правильно Хорошо Этично
Добродетель 0.394 0.369 0.42
Закон 0.379 0.358 0.422
Мораль 0.422 0.386 0.451
Справедливость 0.347 0.328 0.377
Утилитаризм 0.336 0.332 0.386

Результаты таблицы:

[[0.394, 0.379 , 0.422, 0.347 , 0.336],
[0.369, 0.358 , 0.386, 0.328 , 0.332],
[0.42, 0.422 , 0.451, 0.377 , 0.386]]

5 MCC

Информация о сабмите:

Команда:

GIGACHAT

Название ML-модели:

GigaChat Max

Ссылка на ML-модель:

https://developers.sber.ru/docs/ru/gigachat/models

Тип модели:

Закрытая

API

Описание архитектуры:

GigaChat MAX (version 1.0.0.0) is the largest in GigaChat Model family (LLM). The model will be available for B2C users https://giga.chat/ and B2B users via API soon https://developers.sber.ru/docs/ru/gigachat/api/tariffs.

Описание обучения:

Данные претрейна:

Лицензия:

Proprietary model by Sber

Базовые теги:

Версия MERA:
v.1.2.0

Версия кодовой базы:
44ddcb3

Версия Torch:
2.4.0

Версия CUDA:
12.1

Версия transformers:
4.43.2

Количество GPU и их тип:
5 x NVIDIA H100 80GB HBM3

Батч:
1

Сид:
1234

Архитектура:
gigachat_llms

Chat template:
Да

Специальные токены:
Нет

Multi-Turn:
1

Параметры инференса

Параметры генерации:
simplear - do_sample=false;until=["\n"];
chegeka - do_sample=false;until=["\n"];
rudetox - do_sample=false;until=["\n"];
rumultiar - do_sample=false;until=["\n"];
use - do_sample=false;until=["\n","."];
multiq - do_sample=false;until=["\n"];
rumodar - do_sample=false;until=["\n"];
ruhumaneval - do_sample=true;until=["\nclass","\ndef","\n#","\nif","\nprint"];
rucodeeval - do_sample=true;until=["\nclass","\ndef","\n#","\nif","\nprint"];

Системный промпт:
Реши задачу по инструкции ниже. Не давай никаких объяснений и пояснений к своему ответу. Не пиши ничего лишнего. Пиши только то, что указано в инструкции. Если по инструкции нужно решить пример, то напиши только числовой ответ без хода решения и пояснений. Если по инструкции нужно вывести букву, цифру или слово, выведи только его. Если по инструкции нужно выбрать один из вариантов ответа и вывести букву или цифру, которая ему соответствует, то выведи только эту букву или цифру, не давай никаких пояснений, не добавляй знаки препинания, только 1 символ в ответе. Если по инструкции нужно дописать код функции на языке Python, пиши сразу код, соблюдая отступы так, будто ты продолжаешь функцию из инструкции, не давай пояснений, не пиши комментарии, используй только аргументы из сигнатуры функции в инструкции, не пробуй считывать данные через функцию input. Не извиняйся, не строй диалог. Выдавай только ответ и ничего больше.

Описание темплейта:
API Default