Версия кодовой базы
d539716
Precision весов модели
auto
Версия transformers
4.57.6
Количество GPU и их тип
1 x NVIDIA A100-SXM4-80GB
Архитектура
openai-chat-completions
Название ML-модели:
DeepSeek-V4-Pro
Тип модели:
Открытая
SFT
MoE
Дополнительные ссылки:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Описание архитектуры:
61 Transformer layers, hidden dimension 7168. First 2 layers: HCA; subsequent layers: CSA and HCA interleaved. CSA: compression rate 4, 64 indexer heads (dim 128), top-k 1024. HCA: compression rate 128. Both: 128 query heads (dim 512), query compression dim 1536, 16 output groups (1024 each). Sliding window branch: size 128. All blocks use MoE (Hash routing in first 3 layers): 1 shared + 384 routed experts (dim 3072), 6 experts per token. MTP depth 1; mHC expansion factor 4, 20 Sinkhorn-Knopp iterations. 1.6T total parameters, 49B activated per token. Context: 1M tokens.
Описание обучения:
Pre-training: Muon (majority) + AdamW (embedding, head, RMSNorm). 33T tokens, max batch 94.4M. LR: warmup 2000 steps → peak 2.0×10⁻⁴ → cosine decay to 2.0×10⁻⁵. Sequence length 4K → 16K → 64K → 1M; longer dense-attention stage than Flash; sparse attention from 64K. Stability: Anticipatory Routing, SwiGLU clamping [−10, 10]. Post-training: SFT + GRPO RL for domain specialists (3 reasoning modes: Non-think / Think / Think Max) → On-Policy Distillation from 10+ teacher models. FP4 QAT for MoE weights and CSA indexer.
Данные претрейна:
Built on DeepSeek-V3 data: more diverse, higher-quality corpus with longer effective contexts. Web data filtered from auto-generated/templated content. Core: math, code; agentic data added in mid-training. Expanded multilingual data and long-document curation (scientific papers, technical reports). Corpus >32T tokens (Pro trained on 33T). Tokenizer: 128K vocab, FIM, document packing; sample-level attention masking (unlike V3).
Параметры инференса
Параметры генерации:
agro_bench - do_sample=false;until=["<|end▁of▁sentence|>"];max_gen_toks=10000;
\naqua_bench - do_sample=false;until=["<|end▁of▁sentence|>"];max_gen_toks=10000;
\nmed_bench - do_sample=false;until=["<|end▁of▁sentence|>"];max_gen_toks=10000;
Системный промпт:
Реши задачу по инструкции ниже. Не давай никаких объяснений и пояснений к своему ответу. Не пиши ничего лишнего. Пиши только то, что указано в инструкции. Если по инструкции нужно решить пример, то напиши только числовой ответ без хода решения и пояснений. Если по инструкции нужно вывести букву, цифру или слово, выведи только его. Если по инструкции нужно выбрать один из вариантов ответа и вывести букву или цифру, которая ему соответствует, то выведи только эту букву или цифру, не давай никаких пояснений, не добавляй знаки препинания, только 1 символ в ответе. Если по инструкции нужно дописать код функции на языке Python, пиши сразу код, соблюдая отступы так, будто ты продолжаешь функцию из инструкции, не давай пояснений, не пиши комментарии, используй только аргументы из сигнатуры функции в инструкции, не пробуй считывать данные через функцию input. Не извиняйся, не строй диалог. Выдавай только ответ и ничего больше.