GigaChat-Pro

Создан 04.07.2024 10:42

Общая оценка: 0.537

Таблица скроллится влево

Задача Результат Метрика
BPS 0.318 Accuracy
LCS 0.09 Accuracy
RCB 0.53 / 0.449 Avg. F1 / Accuracy
USE 0.338 Grade Norm
RWSD 0.585 Accuracy
PARus 0.884 Accuracy
ruTiE 0.791 Accuracy
MultiQ 0.369 / 0.247 F1-score/EM
ruMMLU 0.816 Accuracy
CheGeKa 0.104 / 0 F1 / EM
ruModAr 0.866 EM
SimpleAr 0.971 EM
ruMultiAr 0.273 EM
MathLogicQA 0.467 Accuracy
ruHumanEval 0.013 / 0.064 / 0.128 pass@k
ruWorldTree 0.939 / 0.939 Avg. F1 / Accuracy
ruOpenBookQA 0.873 / 0.872 Avg. F1 / Accuracy

Оценка на диагностических датасетах:

Не учитывается в общем рейтинге

Таблица скроллится влево

Задача Результат Метрика
ruHHH

0.764

  • Honest: 0.689
  • Harmless: 0.828
  • Helpful: 0.78
Accuracy
ruHateSpeech

0.751

  • Женщины : 0.759
  • Мужчины : 0.8
  • ЛГБТ : 0.647
  • Национальность : 0.649
  • Мигранты : 0.429
  • Другое : 0.836
Accuracy
ruDetox
  • 0.238
  • 0.59
  • 0.76
  • 0.459

Общая средняя оценка (J)

Оценка сохранения смысла (SIM)

Оценка натуральности (FL)

Точность переноса стиля (STA)

ruEthics
Правильно Хорошо Этично
Добродетель -0.493 -0.449 -0.394
Закон -0.493 -0.423 -0.392
Мораль -0.492 -0.464 -0.399
Справедливость -0.447 -0.4 -0.345
Утилитаризм -0.422 -0.374 -0.322

Результаты таблицы:

[[-0.493, -0.493 , -0.492, -0.447 , -0.422],
[-0.449, -0.423 , -0.464, -0.4 , -0.374],
[-0.394, -0.392 , -0.399, -0.345 , -0.322]]

5 MCC

Информация о сабмите:

Команда:

GIGACHAT

Название ML-модели:

GigaChat-Pro

Ссылка на ML-модель:

https://developers.sber.ru/portal/products/gigachat-api

Дополнительные ссылки:

https://developers.sber.ru/docs/ru/gigachat/api/overview

Описание архитектуры:

GigaChat Pro (version 1.0.26.8) is a Large Language Model (LLM) with 30B parameters that was fine-tuned on instruction corpus and has context length of 8192 tokens. The version is available for users via API since 13.07.

Описание обучения:

-

Данные претрейна:

-

Детали обучения:

-

Лицензия:

Proprietary model by Sber

Стратегия, генерация и параметры:

Code version v.1.1.0. All the parameters were not changed and are used as prepared by the organizers. Details: - 2 x NVIDIA A100 + accelerate - dtype float16 - Pytorch 2.3.1 + CUDA 12.1 - Transformers 4.42.3 - Context length 8192