DeepSeek-V4-Pro

MERA Создан 17.06.2026 09:19

Оценки по задачам лидерборда

Таблица скроллится влево

Задача	Результат	Место в рейтинге
Сельское хозяйство	0.731	2
Медицина и здравоохранение	0.889	1

ruTXTAgroBench

Метрика: F1, Exact Match

Дисциплина	Результат
Ботаника	0.855
Общая генетика	0.785
Основы селекции	0.838
Растениеводство	0.667
Общее земледелие	0.704
Мелиоративное земледелие	0.656
Семеноводство и семеноведение	0.74
Кормопроизводство и луговодство	0.626
Системы земледелия на различных агроландшафтах	0.689
Технологии возделывания сельскохозяйственных культур	0.733

ruTXTAquaBench

Метрика: F1, Exact Match

Дисциплина	Результат
Индустриальная аквакультура	0.733
Кормление рыбы и других гидробионтов	0.718
Марикультура. Разведение раков, креветок. Искусственное выращивание жемчуга	0.606
Ихтиопатология: ветеринария, профилактика и оптимизация технологий рыборазведения	0.569

ruTXTMedQFundamental

Метрика: F1, Exact Match

Дисциплина	Результат
Анатомия	0.944
Гигиена	0.856
Гистология	0.9
Биофизика	0.856
Биохимия	0.926
Микробиология	0.944
Биология (паразитология)	0.889
Фармакология	0.922
Факультетская хирургия	0.852
Общая хирургия	0.841
Общая химия	0.789
Нормальная физиология	0.944
Биоорганическая химия	0.893
Патологическая анатомия	0.878
Патофизиология	0.896
Клиническая лабораторная диагностика	0.881
Пропедевтика внутренних болезней	0.907

Информация о сабмите

Версия MERA

v1.0.0

Версия Torch

2.10.0

Версия кодовой базы

d539716

Версия CUDA

12.8

Precision весов модели

auto

Сид

1234

Батч

Версия transformers

4.57.6

Количество GPU и их тип

1 x NVIDIA A100-SXM4-80GB

Архитектура

openai-chat-completions

Команда:

MERA

Название ML-модели:

DeepSeek-V4-Pro

Ссылка на ML-модель:

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

Размер модели

1,600.0B

Тип модели:

Открытая

SFT

MoE

Дополнительные ссылки:

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Описание архитектуры:

61 Transformer layers, hidden dimension 7168. First 2 layers: HCA; subsequent layers: CSA and HCA interleaved. CSA: compression rate 4, 64 indexer heads (dim 128), top-k 1024. HCA: compression rate 128. Both: 128 query heads (dim 512), query compression dim 1536, 16 output groups (1024 each). Sliding window branch: size 128. All blocks use MoE (Hash routing in first 3 layers): 1 shared + 384 routed experts (dim 3072), 6 experts per token. MTP depth 1; mHC expansion factor 4, 20 Sinkhorn-Knopp iterations. 1.6T total parameters, 49B activated per token. Context: 1M tokens.

Описание обучения:

Pre-training: Muon (majority) + AdamW (embedding, head, RMSNorm). 33T tokens, max batch 94.4M. LR: warmup 2000 steps → peak 2.0×10⁻⁴ → cosine decay to 2.0×10⁻⁵. Sequence length 4K → 16K → 64K → 1M; longer dense-attention stage than Flash; sparse attention from 64K. Stability: Anticipatory Routing, SwiGLU clamping [−10, 10]. Post-training: SFT + GRPO RL for domain specialists (3 reasoning modes: Non-think / Think / Think Max) → On-Policy Distillation from 10+ teacher models. FP4 QAT for MoE weights and CSA indexer.

Данные претрейна:

Built on DeepSeek-V3 data: more diverse, higher-quality corpus with longer effective contexts. Web data filtered from auto-generated/templated content. Core: math, code; agentic data added in mid-training. Expanded multilingual data and long-document curation (scientific papers, technical reports). Corpus >32T tokens (Pro trained on 33T). Tokenizer: 128K vocab, FIM, document packing; sample-level attention masking (unlike V3).

Лицензия:

MIT License

Параметры инференса

Параметры генерации:
agro_bench - do_sample=false;until=["<｜end▁of▁sentence｜>"];max_gen_toks=10000; \naqua_bench - do_sample=false;until=["<｜end▁of▁sentence｜>"];max_gen_toks=10000; \nmed_bench - do_sample=false;until=["<｜end▁of▁sentence｜>"];max_gen_toks=10000;

Системный промпт:
Реши задачу по инструкции ниже. Не давай никаких объяснений и пояснений к своему ответу. Не пиши ничего лишнего. Пиши только то, что указано в инструкции. Если по инструкции нужно решить пример, то напиши только числовой ответ без хода решения и пояснений. Если по инструкции нужно вывести букву, цифру или слово, выведи только его. Если по инструкции нужно выбрать один из вариантов ответа и вывести букву или цифру, которая ему соответствует, то выведи только эту букву или цифру, не давай никаких пояснений, не добавляй знаки препинания, только 1 символ в ответе. Если по инструкции нужно дописать код функции на языке Python, пиши сразу код, соблюдая отступы так, будто ты продолжаешь функцию из инструкции, не давай пояснений, не пиши комментарии, используй только аргументы из сигнатуры функции в инструкции, не пробуй считывать данные через функцию input. Не извиняйся, не строй диалог. Выдавай только ответ и ничего больше.

DeepSeek-V4-Pro

Оценки по задачам лидерборда

ruTXTAgroBench

ruTXTAquaBench

ruTXTMedQFundamental

Информация о сабмите

Команда:

Название ML-модели:

Ссылка на ML-модель:

Размер модели

Тип модели:

Дополнительные ссылки:

Описание архитектуры:

Описание обучения:

Данные претрейна:

Лицензия:

Параметры инференса

Подтвердите удаление сабмита