GigaChat-20B-A3B

GIGACHAT Создан 13.12.2024 07:11

0.513

Общий результат

112

Место в рейтинге

Слабые задачи:

326

RWSD

193

PARus

258

RCB

201

ruEthics

207

MultiQ

215

ruWorldTree

180

ruOpenBookQA

CheGeKa

209

ruMMLU

144

ruHateSpeech

208

ruDetox

175

ruHHH

131

ruTiE

205

ruHumanEval

USE

175

MathLogicQA

212

ruMultiAr

301

SimpleAr

443

LCS

261

BPS

ruModAr

137

MaMuRAMu

177

ruCodeEval

+19

Скрыть

Оценки по задачам лидерборда

Таблица скроллится влево

Задача	Результат	Метрика
LCS	0.07	Accuracy
RCB	0.518 / 0.441	Accuracy F1 macro
USE	0.334	Grade norm
RWSD	0.512	Accuracy
PARus	0.842	Accuracy
ruTiE	0.758	Accuracy
MultiQ	0.393 / 0.187	F1 Exact match
CheGeKa	0.318 / 0.252	F1 Exact match
ruModAr	0.87	Exact match
MaMuRAMu	0.741	Accuracy
ruMultiAr	0.272	Exact match
ruCodeEval	0.041 / 0.054 / 0.061	Pass@k
MathLogicQA	0.455	Accuracy
ruWorldTree	0.901 / 0.901	Accuracy F1 macro
ruOpenBookQA	0.833 / 0.833	Accuracy F1 macro

Оценка на открытых задачах:

Перейти к оценкам по подкатегориям

Таблица скроллится влево

Задача

Результат

Метрика

BPS

0.921

Accuracy

ruMMLU

0.587

Accuracy

SimpleAr

0.923

Exact match

ruHumanEval

0.037 / 0.04 / 0.043

Pass@k

ruHHH

0.73

ruHateSpeech

0.777

ruDetox

0.191

ruEthics

	Правильно	Хорошо	Этично
Добродетель	0.299	0.314	0.359
Закон	0.337	0.329	0.37
Мораль	0.351	0.334	0.403
Справедливость	0.251	0.266	0.327
Утилитаризм	0.249	0.295	0.329

Информация о сабмите

Версия MERA

v.1.2.0

Версия Torch

2.4.0

Версия кодовой базы

db539c9

Версия CUDA

12.1

Precision весов модели

Сид

1234

Батч

Версия transformers

4.46.0.dev0

Количество GPU и их тип

5 x NVIDIA H100 80GB HBM3

Архитектура

gigachat_llms

Команда:

GIGACHAT

Название ML-модели:

GigaChat-20B-A3B

Ссылка на ML-модель:

https://huggingface.co/ai-sage/GigaChat-20B-A3B-instruct

Размер модели

20.0B

Тип модели:

Открытая

SFT

MoE

Описание архитектуры:

GigaChat-20B-A3B is a Large Language Model (LLM) that was fine-tuned on instruction corpus and has context length of 32k tokens. GigaChat-20B-A3B is Mixture of Experts model and has 3.3B active parameters. The model is available at https://huggingface.co/ai-sage/GigaChat-20B-A3B-instruct as instruct version and https://huggingface.co/ai-sage/GigaChat-20B-A3B-base as base version

Описание обучения:

Данные претрейна:

Лицензия:

Open-source model by Sber

Параметры инференса

Параметры генерации:
simplear - do_sample=false;until=["\n"]; \nchegeka - do_sample=false;until=["\n"]; \nrudetox - do_sample=false;until=["\n"]; \nrumultiar - do_sample=false;until=["\n"]; \nuse - do_sample=false;until=["\n","."]; \nmultiq - do_sample=false;until=["\n"]; \nrumodar - do_sample=false;until=["\n"]; \nruhumaneval - do_sample=true;until=["\nclass","\ndef","\n#","\nif","\nprint"];temperature=0.6; \nrucodeeval - do_sample=true;until=["\nclass","\ndef","\n#","\nif","\nprint"];temperature=0.6;

Описание темплейта:
{% if messages[0]['role'] == 'system' -%}\n {%- set loop_messages = messages[1:] -%}\n {%- set system_message = bos_token + messages[0]['content'] + additional_special_tokens[1] -%}\n{%- else -%}\n {%- set loop_messages = messages -%}\n {%- set system_message = bos_token + '' -%}\n{%- endif -%}\n{%- for message in loop_messages %}\n {% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}\n {{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}\n {% endif %}\n \n {%- if loop.index0 == 0 -%}\n {{ system_message -}}\n {%- endif -%}\n {%- if message['role'] == 'user' -%}\n {{ message['role'] + additional_special_tokens[0] + message['content'] + additional_special_tokens[1] -}}\n {{ 'available functions' + additional_special_tokens[0] + additional_special_tokens[2] + additional_special_tokens[3] + additional_special_tokens[1] -}}\n {%- endif -%}\n {%- if message['role'] == 'assistant' -%}\n {{ message['role'] + additional_special_tokens[0] + message['content'] + additional_special_tokens[1] -}}\n {%- endif -%}\n {%- if loop.last and add_generation_prompt -%}\n {{ 'assistant' + additional_special_tokens[0] -}}\n {%- endif -%}\n{%- endfor %}

Оценки по подкатегориям

Метрика: Grade Norm

Модель, команда	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	8_0	8_1	8_2	8_3	8_4
GigaChat-20B-A3B GIGACHAT	0.9	0.233	0.767	0.2	0.133	0.433	0.167	-	0.133	0.167	0.167	0.133	0.533	0.133	0.067	0.567	0	0.067	0.033	0.033	0.067	0.567	0.433	0.033	0.033	0.7	0.333	0.433	0.433	0.3	0.5

Модель, команда	Честность	Помощь	Безопасность
GigaChat-20B-A3B GIGACHAT	0.689	0.797	0.707

Модель, команда	Анатомия	Вирусология	Астрономия	Маркетинг	Нутрициология	Социология	Менеджмент	Философия	История древнего мира	Геронтология	Эконометрика	Формальная логика	Факторы глобального значения	Юриспунденция	Микс (разнообразный домен)	Мораль	Бизнес-этика	Биология (школьная)	Физика (школьная)	Человеческая сексуальность	Моральные сценарии	Мировые религии	Общая алгебра	Медицина (школьная)	Машинное обучение	Генетика	Профессиональное законодательство	PR	Безопасность	Химия (школьная)	Компьютерная безопасность	Международное право	Логические ошибки	Политика	Клинические знания	Концептуальная физика	Математика (школьная)	Биология (университетская)	Физика (университетская)	Химия (университетская)	География (университетская)	Профессиональная медицина	Электротехника	Элементарная математика	Психология (университетская)	Статистика (университетская)	История (университетская)	Математика (университетская)	Бухгалтерский учет	Профессиональная психология	Компьютерные науки (уровень колледжа)	Мировая история (университетская)	Макроэкономика	Микроэкономика	Компьютерные науки (университетские)	История европы	Государство и политика
GigaChat-20B-A3B GIGACHAT	0.533	0.476	0.697	0.825	0.706	0.811	0.728	0.659	0.664	0.61	0.377	0.476	0.36	0.713	0.764	0.618	0.63	0.667	0.389	0.702	0.316	0.772	0.37	0.584	0.384	0.65	0.403	0.62	0.714	0.41	0.67	0.769	0.663	0.717	0.675	0.513	0.39	0.752	0.371	0.488	0.793	0.621	0.586	0.454	0.792	0.481	0.779	0.367	0.404	0.582	0.47	0.768	0.659	0.664	0.69	0.739	0.798

Модель, команда	SIM	FL	STA
GigaChat-20B-A3B GIGACHAT	0.35	0.783	0.748

Модель, команда	Анатомия	Вирусология	Астрономия	Маркетинг	Питание	Социология	Менеджмент	Философия	Предыстория	Геронтология	Эконометрика	Формальная логика	Глобальные факты	Юриспруденция	Разное	Моральные споры	Деловая этика	Биология (колледж)	Физика (колле	Человеческая сексуальность	Моральные сценарии	Мировые религии	Абстрактная алгебра	Медицина (колледж)	Машинное обучение	Генетика	Профессиональное право	PR	Безопасность	Химия (колледж)	Компьютерная безопасность	Международное право	Логические ошибки	Политика	Клинические знания	Концептуальная физика	Математика (колледж)	Биология (универ)	Физика (универ)	Химия (универ)	География (универ)	Проф медицина	Электрика	Элементарная математика	Психология (универ)	Статистика (универ)	История (универ)	Математика (универ)	Бухгалтерия	Проф психология	Коммпьютерные науки (колледж)	Мировая история (универ)	Макроэкономика	Микроэкономика	Компьютерные науки (универ)	История Европы	Государство и политика
GigaChat-20B-A3B GIGACHAT	0.511	0.822	0.617	0.62	0.816	0.845	0.638	0.719	0.788	0.646	0.756	0.692	0.475	0.822	0.731	0.765	0.71	0.644	0.667	0.737	0.246	0.78	0.689	0.787	0.711	0.803	0.821	0.684	0.825	0.733	0.844	0.833	0.723	0.912	0.667	0.732	0.667	0.822	0.614	0.692	0.857	0.841	0.778	0.689	0.879	0.867	0.914	0.727	0.831	0.877	0.756	0.754	0.81	0.662	0.465	0.743	0.789

Правильно

Хорошо

Этично

Модель, команда	Добродетель	Закон	Мораль	Справедливость	Утилитаризм
GigaChat-20B-A3B GIGACHAT	0.299	0.337	0.351	0.251	0.249

Модель, команда	Добродетель	Закон	Мораль	Справедливость	Утилитаризм
GigaChat-20B-A3B GIGACHAT	0.314	0.329	0.334	0.266	0.295

Модель, команда	Добродетель	Закон	Мораль	Справедливость	Утилитаризм
GigaChat-20B-A3B GIGACHAT	0.359	0.37	0.403	0.327	0.329

Модель, команда	Женщины	Мужчины	ЛГБТ	Национальности	Мигранты	Другое
GigaChat-20B-A3B GIGACHAT	0.815	0.629	0.647	0.757	0.714	0.852

GigaChat-20B-A3B

Оценки по задачам лидерборда

Оценка на открытых задачах:

Информация о сабмите

Команда:

Название ML-модели:

Ссылка на ML-модель:

Размер модели

Тип модели:

Описание архитектуры:

Описание обучения:

Данные претрейна:

Лицензия:

Параметры инференса

Оценки по подкатегориям

Подтвердите удаление сабмита