GigaChat-3.1-Ultra

GigaChat Создан 26.03.2026 07:15
0.712
Общий результат
22
Место в рейтинге
В топе по задачам:
6
PARus
Задача входит в число основных
9
CheGeKa
Задача входит в число основных
9
USE
Задача входит в число основных
9
SimpleAr
Слабые задачи:
45
RWSD
24
RCB
65
ruEthics
70
MultiQ
36
ruOpenBookQA
25
ruMMLU
22
ruDetox
27
ruHHH
22
ruTiE
28
ruHumanEval
38
MathLogicQA
37
ruMultiAr
62
LCS
26
ruModAr
23
ruCodeEval
22
MaMuRAMu
20
ruHateSpeech
+13
Скрыть

Оценки по задачам лидерборда

Таблица скроллится влево

Задача Результат Метрика
LCS 0.17 Accuracy
RCB 0.598 / 0.552 Accuracy F1 macro
USE 0.686 Grade norm
RWSD 0.662 Accuracy
PARus 0.956 Accuracy
ruTiE 0.893 Accuracy
MultiQ 0.563 / 0.406 F1 Exact match
CheGeKa 0.603 / 0.507 F1 Exact match
ruModAr 0.97 Exact match
MaMuRAMu 0.871 Accuracy
ruMultiAr 0.485 Exact match
ruCodeEval 0.579 / 0.663 / 0.683 Pass@k
MathLogicQA 0.8 Accuracy
ruWorldTree 0.992 / 0.992 Accuracy F1 macro
ruOpenBookQA 0.938 / 0.938 Accuracy F1 macro

Оценка на открытых задачах:

Перейти к оценкам по подкатегориям

Таблица скроллится влево

Задача Результат Метрика
BPS 0.998 Accuracy
ruMMLU 0.814 Accuracy
SimpleAr 1.0 Exact match
ruHumanEval 0.551 / 0.653 / 0.677 Pass@k
ruHHH 0.871
ruHateSpeech 0.879
ruDetox 0.355
ruEthics
Правильно Хорошо Этично
Добродетель 0.416 0.401 0.481
Закон 0.411 0.38 0.475
Мораль 0.447 0.418 0.514
Справедливость 0.371 0.354 0.433
Утилитаризм 0.348 0.35 0.404

Информация о сабмите

Версия MERA
v1.2.0
Версия Torch
2.10.0
Версия кодовой базы
5e14b12b3f4e352c62873399a425c80d2c14a88c
Версия CUDA
12.8
Precision весов модели
fp8
Сид
42
Батч
1
Версия transformers
4.57.6
Количество GPU и их тип
32 x NVIDIA H100 80GB HBM3
Архитектура
openai-chat-completions

Команда:

GigaChat

Название ML-модели:

GigaChat-3.1-Ultra

Ссылка на ML-модель:

https://huggingface.co/ai-sage/GigaChat3.1-702B-A36B

Размер модели

702.0B

Тип модели:

API

Открытая

SFT

MoE

Описание архитектуры:

GigaChat 3.1 Ultra is the flagship instruct model of the GigaChat family. It is a large-scale Mixture-of-Experts (MoE) model with 702B total parameters and 36B active parameters, designed for multilingual assistant workloads, reasoning, code, tool use, and large-cluster deployment.

Описание обучения:

The model underwent Pretraining, Stage-1.5, SFT and DPO stages.

Данные претрейна:

The base GigaChat 3 training corpus spans 10 languages and includes books, academic material, code datasets, and mathematics datasets. All data goes through deduplication, language filtering, and automatic quality checks based on heuristics and classifiers.

Лицензия:

MIT

Параметры инференса

Параметры генерации:
simplear - do_sample=false;until=["\n"]; \nchegeka - do_sample=false;until=["\n"]; \nrudetox - do_sample=false;until=["\n"]; \nrumultiar - do_sample=false;until=["\n"]; \nuse - do_sample=false;until=["\n","."]; \nmultiq - do_sample=false;until=["\n"]; \nrumodar - do_sample=false;until=["\n"]; \nrucodeeval - do_sample=true;temperature=0.6;until=["\nclass","\ndef","\n#","\nif","\nprint"]; \nruhumaneval - do_sample=true;temperature=0.6;until=["\nclass","\ndef","\n#","\nif","\nprint"]; \nagro_bench - do_sample=false;until=["\n\n"]; \naqua_bench - do_sample=false;until=["\n\n"]; \nmed_bench - do_sample=false;until=["\n\n"]; \ncodecorrectness - until=["\n\n"];do_sample=false;temperature=0; \ncodelintereval - do_sample=true;temperature=0.6;max_gen_toks=1024;until=["\n\n"]; \nstrucom - do_sample=false;max_gen_toks=512;until=["\n\n"];

Размер контекста:
262144

Системный промпт:
Реши задачу по инстрфукции ниже. Не давай никаких объяснений и пояснений к своему ответу. Не пиши ничего лишнего. Пиши только то, что указано в инструкции. Если по инструкции нужно решить пример, то напиши только числовой ответ без хода решения и пояснений. Если по инструкции нужно вывести букву, цифру или слово, выведи только его. Если по инструкции нужно выбрать один из вариантов ответа и вывести букву или цифру, которая ему соответствует, то выведи только эту букву или цифру, не давай никаких пояснений, не добавляй знаки препинания, только 1 символ в ответе. Если по инструкции нужно дописать код функции на языке Python, пиши сразу код, соблюдая отступы так, будто ты продолжаешь функцию из инструкции, не давай пояснений, не пиши комментарии, используй только аргументы из сигнатуры функции в инструкции, не пробуй считывать данные через функцию input. Не извиняйся, не строй диалог. Выдавай только ответ и ничего больше.

Описание темплейта:
{#--------TOOL RENDERING FUNCTIONS---------#} {#--------------------------------------------------------------- Converts JSON Schema (dict) to a TypeScript type definition ----------------------------------------------------------------#} {%- macro json_schema_to_typescript(schema, indent="") -%} {%- set ADDITIONAL_JSON_KEYS = ['format', 'maxItems', 'maximum', 'minItems', 'minimum', 'pattern'] -%} {%- set ty = schema.get("type") -%} {# ---------------- OBJECT ---------------- #} {%- if ty == "object" -%} {{- "{\n" -}} {# Start building property list #} {%- set props = schema.get("properties", {}) -%} {%- set required = schema.get("required", []) -%} {%- set has_additional_props = schema.get("additionalProperties") is defined -%} {%- set additional_props_type = none -%} {%- if has_additional_props -%} {%- if schema.additionalProperties == true -%} {%- set additional_props_type = {'type': 'any'} -%} {%- elif schema.additionalProperties is mapping -%} {%- set additional_props_type = schema.additionalProperties -%} {%- endif -%} {%- endif -%} {%- for key, val in props.items() -%} {# ---------- Description Comments ---------- #} {%- if "description" in val -%} {%- for line in val['description'].split('\n') -%} {%- if line.strip() -%} {{- indent + '// ' + line + '\n' -}} {%- endif -%} {%- endfor -%} {%- endif -%} {# ---------- Additional JSON Keys ---------- #} {%- for add_key, add_val in val.items() -%} {%- if add_key in ADDITIONAL_JSON_KEYS -%} {%- if add_val is string -%} {{- indent + '// ' + add_key + ': "' + add_val + '"' + '\n' -}} {%- else -%} {{- indent + '// ' + add_key + ': ' ~ add_val ~ '\n' -}} {%- endif -%} {%- endif -%} {%- endfor -%} {# ---------- Property Definition ---------- #} {%- set type_str = json_schema_to_typescript( val, indent + " " ) -%} {{- indent + key + ('' if key in required else '?') + ': ' + type_str + ',' -}} {%- if "default" in val or "defalut_value" in val -%} {%- set default = val.get("default", val.get("defalut_value")) -%} {%- if default is string -%} {{- ' // default: "' + default + '"' -}} {%- else -%} {{- ' // default: ' ~ default -}} {%- endif -%} {%- endif -%} {{- "\n" -}} {%- endfor -%} {# Handle additionalProperties as index signature #} {%- if has_additional_props and additional_props_type is not none -%} {%- set additional_type_str = json_schema_to_typescript( additional_props_type, indent + " " ) -%} {{- indent + '[key: string]: ' + additional_type_str + '\n' -}} {%- endif -%} {{- indent[: (indent|length - " "|length) ] + '}' -}} {# ---------------- STRING ---------------- #} {%- elif ty == "string" -%} {%- if schema.get("enum") -%} {%- set ns = namespace(enum = []) -%} {%- for en in schema['enum'] -%} {%- set ns.enum = ns.enum + ['"' ~ en ~ '"'] -%} {%- endfor -%} {{- ns.enum | join(' | ') -}} {%- elif schema.get("format", "none") in ['date-time', 'date'] -%} {{- 'Date' -}} {%- else -%} {{- 'string' -}} {%- endif -%} {# ---------------- NUMBER / INTEGER ---------------- #} {%- elif ty in ["number", "integer"] -%} {%- if schema.get("enum") -%} {{- schema.enum | join(' | ') -}} {%- else -%} {{- 'number' -}} {%- endif -%} {# ---------------- BOOLEAN ---------------- #} {%- elif ty == "boolean" -%} {{- 'boolean' -}} {# ---------------- ARRAY ---------------- #} {%- elif ty == "array" -%} {%- if "items" in schema -%} {{- json_schema_to_typescript(schema['items'], indent) + '[]' -}} {%- else -%} {{- 'Array<any>' -}} {%- endif -%} {# ---------------- FALLBACK ---------------- #} {%- else -%} {{- 'any' -}} {%- endif -%} {%- endmacro -%} {#--------------------------------------------------------------- Renders a namespace and its tool definitions in TypeScript style ----------------------------------------------------------------#} {%- macro render_tool_namespace(namespace_name, tools) -%} {%- set ns = namespace(sections = ['namespace ' ~ namespace_name ~ ' {']) -%} {%- for tool in tools -%} {%- if tool.function -%} {%- set tool = tool.function -%} {%- endif -%} {%- set ns_tool = namespace(content_lines=[]) -%} {# ---------- TOOL DESCRIPTION ---------- #} {%- if tool.get('description') -%} {%- for line in tool['description'].split('\n') -%} {%- if line.strip() -%} {%- set ns_tool.content_lines = ns_tool.content_lines + ['// ' ~ line] -%} {%- endif -%} {%- endfor -%} {%- endif -%} {# ---------- TOOL SIGNATURE ---------- #} {%- set main_body = "" -%} {%- set params = tool.get("parameters") -%} {%- if params and params.get("properties") -%} {%- set param_type = json_schema_to_typescript(params, " ") -%} {%- set main_body = 'type ' ~ tool.name ~ ' = (_: ' ~ param_type ~ ') => ' -%} {%- else -%} {%- set main_body = 'type ' ~ tool.name ~ ' = () => ' -%} {%- endif -%} {# ---------- RETURN TYPE ---------- #} {%- set return_params = tool.get("return_parameters") -%} {%- if return_params and return_params.get("properties") -%} {%- set return_type = json_schema_to_typescript(return_params, " ") -%} {%- set main_body = main_body ~ return_type -%} {%- else -%} {%- set main_body = main_body ~ 'any' -%} {%- endif -%} {%- set main_body = main_body ~ ';\n' -%} {%- set ns_tool.content_lines = ns_tool.content_lines + [main_body] -%} {# ---------- ADD TOOL TO SECTIONS ---------- #} {%- set ns.sections = ns.sections + [ns_tool.content_lines | join('\n')] -%} {%- endfor -%} {%- set ns.sections = ns.sections + ['} // namespace ' ~ namespace_name] -%} {{- ns.sections | join('\n') -}} {%- endmacro -%} {# ----------- MESSAGE RENDERING HELPER FUNCTIONS ------------ #} {%- macro render_function_call(call) -%} {%- if call.function -%} {%- set call = call.function -%} {%- endif -%} {%- set arguments = call['arguments'] -%} {%- if arguments is not string -%} {%- set arguments = arguments| tojson(ensure_ascii=False) -%} {%- endif -%} {{- '{"name": "' ~ call['name'] ~ '", "arguments": ' ~ arguments ~ '}' -}} {%- endmacro -%} {%- macro render_role_message(message, role=None) -%} {%- if not role -%} {%- set role = message["role"] -%} {%- endif -%} {%- set message_content = message['content'] or '' -%} {%- if message_content is not string -%} {%- set message_content = message_content | tojson(ensure_ascii=False) -%} {%- endif -%} {{- role + add_tokens.role_sep + message_content -}} {%- if message.tool_calls is defined and message.tool_calls -%} {{- add_tokens.function_call + render_function_call(message.tool_calls[0]) -}} {%- endif -%} {{- add_tokens.message_sep -}} {%- endmacro -%} {# ----- SPECIAL TOKENS ----- #} {%- set add_tokens = namespace( role_sep="<|role_sep|>\n", message_sep="<|message_sep|>\n\n", function_call="<|function_call|>" ) -%} {# ----- DEFAULT DEVSYSTEM ----- #} {%- set DEVSYSTEM -%} <role_description> Описание доступных в диалоге ролей. `developer system` Сообщение, добавленное Сбером до основного диалога. Имеет самый высокий приоритет и определяет глобальные, неотменяемые условия (например, правила ведения диалога, политику безопасности, общий стиль ответов ассистента и пр.). `system` Системная инструкция, добавляемая разработчиками или пользователем, но с приоритетом ниже, чем `developer system`. Обычно описывает инструкции ассистента, конкретный стиль ответа и другие условия для данного конкретного диалога. `user` Сообщение или запрос от пользователя. Ассистент следует ему, если это не противоречит инструкциям более высокого приоритета (см. <instruction_priority>). `user memory` Последовательность наиболее актуальных долговременных фактов о пользователе на момент его запроса, представленная в виде JSON‑списка строк. Факты в ней перечислены в хронологическом порядке, то есть более новые факты дописываются в конец последовательности. При этом при изменении или удалении фактов записи о предыдущих фактах остаются в последовательности. Ассистент сохраняет факты с помощью функции и использует их в соответствии с указаниями из блока <memory_guidelines> ниже. `added files` Метаинформация о файлах, доступных для использования в диалоге, представленная в формате JSON. Содержит следующие ключи: id (уникальный идентификатор файла), name (имя файла), type (тип файла). `assistant` Ответ ассистента на запрос пользователя. Если системная инструкция или пользователь не задаёт дополнительных правил для `assistant`, то такая реплика должна соответствовать указаниям из блока <assistant_guidelines> ниже. Список доступных для вызова функций содержится в последней реплике роли `available functions`. Название необходимой для вызова функции и аргументы будут сгенерированы после специального токена вызова функции. В своих репликах ассистент следует инструкциям в соответствии с <instruction_priority>. Вызов функции осуществляется в строгом соответствии с инструкцией из блока <function_usage>. `function descriptions` Описания функций в формате TypeScript. Функция — это специальный инструмент (или набор инструкций), который ассистент может вызвать для выполнения конкретных действий, вычислений или получения данных, необходимых для решения задачи пользователя. Каждое описание функции содержит блоки с именем, описанием, аргументами. Иногда описание содержит отдельные блоки с возвращаемыми параметрами и примерами применения, иллюстрирующими правильный вызов и аргументы. `available functions` Список, который содержит названия функций, доступных для вызова. Если список не содержит элементов, то в следующем сообщении функции, доступные для вызова, отсутствуют. `function result` Результат последнего вызова функции. </role_description> <available_modalities> Ассистент умеет работать со следующими модальностями: текст, доступные функции. </available_modalities> <instruction_priority> В случае противоречия инструкций разных ролей в контексте диалога соблюдай приоритеты: `developer system` > `system` > `user` > `function descriptions` > `function result` > `user memory` </instruction_priority> <function_usage> Базовые инструкции для работы с функциями. Можно вызывать только те функции, которые доступны исходя из последнего сообщения `available functions`. Вызывай доступные функции в случае, если согласно их описанию такой вызов поможет дать более полный и/или точный ответ на запрос пользователя. Заполняй аргументы функций, используя информацию из контекста диалога. Если функция может помочь ответить на запрос, но для её обязательного аргумента отсутствует информация в контексте, уточни у пользователя недостающие данные перед вызовом функции. При недоступности необходимой функции или ошибке — кратко сообщи об этом пользователю и по возможности предложи альтернативу. </function_usage> <memory_guidelines> Правила использования фактов в долговременной памяти: Если в диалоге нет сообщения под ролью `user memory`, то это равносильно отсутствию долговременных фактов о пользователе в памяти. В таком случае информация о пользователе ограничена текущим диалогом, и новые факты не должны сохраняться. </memory_guidelines> <assistant_guidelines> GigaChat — нейросетевая модель искусственного интеллекта, созданная компанией Сбер в России. GigaChat старается отвечать на языке, на котором пользователь задал запрос. Если из запроса пользователя и контекста диалога язык определить невозможно, GigaChat использует русский. GigaChat предоставляет подробные ответы на более сложные и открытые вопросы. GigaChat в ответе не использует названия доступных функций. GigaChat отвечает безопасно, в соответствии с действующим законодательством Российской Федерации, стараясь помочь пользователю решить задачу или поддержать беседу. Ты — GigaChat. </assistant_guidelines> Ниже будет приведён диалог. В диалоге могут быть разнообразные роли, описанные в блоке <role_description>. Каждая реплика начинается с названия роли и специального токена, обозначающего конец полного наименования роли, а заканчивается специальным токеном конца реплики. Твоя задача — продолжить диалог от последней указанной роли в соответствии с контекстом диалога. {%- endset -%} {#- ---------------------- RENDERING STARTS HERE ---------------------- -#} {# ----- RENDER BOS TOKEN ----- #} {{- bos_token -}} {# ----- RENDER DEVSYSTEM ----- #} {{- render_role_message({"role": "developer system", "content": DEVSYSTEM}) -}} {# ----- RENDER SYSTEM IF PRESENT ----- #} {%- if messages and messages[0]['role'] == 'system' -%} {{- render_role_message(messages[0]) -}} {%- set messages = messages[1:] -%} {%- else -%} {{- render_role_message({"role": "system", "content": ""}) -}} {%- endif -%} {# ----- RENDER TOOLS ----- #} {%- if tools -%} {%- set tools_content = ( render_tool_namespace('functions', tools) + "\n\n" ) -%} {{- render_role_message({'role': 'function descriptions', 'content': tools_content}) -}} {%- endif -%} {# ----- MAIN MESSAGE LOOP ----- #} {%- for message in messages -%} {# ----- TOOL MESSAGE -------#} {%- if message['role'] == 'tool' -%} {{- render_role_message(message, 'function result') -}} {# ----- OTHER MESSAGES ----- #} {%- else -%} {{- render_role_message(message) -}} {%- endif -%} {# ----- ADDING GENERATION PROMPT ----- #} {%- if loop.last and add_generation_prompt and message['role'] != 'assistant' -%} {{- 'assistant' + add_tokens.role_sep -}} {%- endif -%} {%- endfor -%}

Оценки по подкатегориям

Метрика: Grade Norm
Модель, команда 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 8_0 8_1 8_2 8_3 8_4
GigaChat-3.1-Ultra
GigaChat
0.8 0.7 0.833 0.8 0.667 0.767 0.733 - 0.7 0.5 0.533 0.333 0.833 0.467 0.533 0.7 0.5 0.4 0.667 0.3 0.6 0.833 0.6 0.433 0.533 0.867 0.8 0.867 0.9 0.867 0.967
Модель, команда Честность Помощь Безопасность
GigaChat-3.1-Ultra
GigaChat
0.82 0.864 0.931
Модель, команда Анатомия Вирусология Астрономия Маркетинг Нутрициология Социология Менеджмент Философия История древнего мира Геронтология Эконометрика Формальная логика Факторы глобального значения Юриспунденция Микс (разнообразный домен) Мораль Бизнес-этика Биология (школьная) Физика (школьная) Человеческая сексуальность Моральные сценарии Мировые религии Общая алгебра Медицина (школьная) Машинное обучение Генетика Профессиональное законодательство PR Безопасность Химия (школьная) Компьютерная безопасность Международное право Логические ошибки Политика Клинические знания Концептуальная физика Математика (школьная) Биология (университетская) Физика (университетская) Химия (университетская) География (университетская) Профессиональная медицина Электротехника Элементарная математика Психология (университетская) Статистика (университетская) История (университетская) Математика (университетская) Бухгалтерский учет Профессиональная психология Компьютерные науки (уровень колледжа) Мировая история (университетская) Макроэкономика Микроэкономика Компьютерные науки (университетские) История европы Государство и политика
GigaChat-3.1-Ultra
GigaChat
0.77 0.554 0.928 0.893 0.886 0.91 0.845 0.83 0.898 0.767 0.623 0.667 0.66 0.843 0.914 0.829 0.78 0.938 0.756 0.87 0.74 0.883 0.65 0.827 0.723 0.91 0.632 0.75 0.792 0.62 0.84 0.876 0.834 0.929 0.868 0.88 0.64 0.939 0.762 0.778 0.899 0.912 0.814 0.889 0.933 0.792 0.926 0.689 0.649 0.841 0.73 0.907 0.903 0.941 0.94 0.873 0.948
Модель, команда SIM FL STA
GigaChat-3.1-Ultra
GigaChat
0.657 0.765 0.741
Модель, команда Анатомия Вирусология Астрономия Маркетинг Питание Социология Менеджмент Философия Предыстория Геронтология Эконометрика Формальная логика Глобальные факты Юриспруденция Разное Моральные споры Деловая этика Биология (колледж) Физика (колле Человеческая сексуальность Моральные сценарии Мировые религии Абстрактная алгебра Медицина (колледж) Машинное обучение Генетика Профессиональное право PR Безопасность Химия (колледж) Компьютерная безопасность Международное право Логические ошибки Политика Клинические знания Концептуальная физика Математика (колледж) Биология (универ) Физика (универ) Химия (универ) География (универ) Проф медицина Электрика Элементарная математика Психология (универ) Статистика (универ) История (универ) Математика (универ) Бухгалтерия Проф психология Коммпьютерные науки (колледж) Мировая история (универ) Макроэкономика Микроэкономика Компьютерные науки (универ) История Европы Государство и политика
GigaChat-3.1-Ultra
GigaChat
0.778 0.95 0.85 0.741 0.921 0.897 0.81 0.737 0.904 0.831 0.833 0.833 0.642 0.891 0.865 0.802 0.766 0.844 0.895 0.86 0.912 0.949 0.911 0.923 0.844 0.939 0.859 0.807 0.93 0.933 0.889 0.897 0.893 0.947 0.742 0.893 0.933 0.911 0.807 0.862 0.943 0.937 0.867 0.956 0.897 0.889 0.914 0.955 0.938 0.965 0.911 0.928 0.861 0.831 0.674 0.895 0.911
Правильно
Хорошо
Этично
Модель, команда Добродетель Закон Мораль Справедливость Утилитаризм
GigaChat-3.1-Ultra
GigaChat
0.416 0.411 0.447 0.371 0.348
Модель, команда Добродетель Закон Мораль Справедливость Утилитаризм
GigaChat-3.1-Ultra
GigaChat
0.401 0.38 0.418 0.354 0.35
Модель, команда Добродетель Закон Мораль Справедливость Утилитаризм
GigaChat-3.1-Ultra
GigaChat
0.481 0.475 0.514 0.433 0.404
Модель, команда Женщины Мужчины ЛГБТ Национальности Мигранты Другое
GigaChat-3.1-Ultra
GigaChat
0.907 0.714 0.941 0.892 0.857 0.902