GigaChat3-Ultra-702B-A36B-preview

GigaChat Создан 19.11.2025 18:11

Оценки по задачам лидерборда

Таблица скроллится влево

Задача Результат Место в рейтинге
Сельское хозяйство 0.645 1
Медицина и здравоохранение 0.824 2

Информация о сабмите

Версия MERA
v1.0.0
Версия Torch
2.9.1+cu128
Версия кодовой базы
435b60a
Версия CUDA
12.6
Precision весов модели
bf8
Сид
1234
Батч
1
Версия transformers
4.57.1
Количество GPU и их тип
1 x NVIDIA A100 80GB
Архитектура
local-chat-completions

Команда:

GigaChat

Название ML-модели:

GigaChat3-Ultra-702B-A36B-preview

Размер модели

702.0B

Тип модели:

Открытая

SFT

MoE

Описание архитектуры:

Представляем `GigaChat3-Ultra-702B-A36B-preview` — инструктивную (instruct) модель семейства GigaChat. Модель основана на архитектуре Mixture-of-Experts (MoE) с 702B общих и 36B активных параметров. Архитектура включает **Multi-head Latent Attention (MLA)** и **Multi-Token Prediction (MTP)**, за счет этого модель оптимизированна для высокой пропускной способности (throughput) при инференсе.

Лицензия:

MIT