add more v3 config

wenxie-amd · wenxie-amd · commit 56e7d53c49e7 · 2025-03-20T02:19:46.000Z
diff --git a/primus/configs/models/megatron/deepseek_v3_393B.yaml b/primus/configs/models/megatron/deepseek_v3_393B.yaml
@@ -0,0 +1,41 @@
+bases:
+  - deepseek_v3_base.yaml
+
+# 393B total params, 20B active params
+
+tokenizer_type: null
+extra_tokenizer_type: DeepSeekV3Tokenizer
+tokenizer_model: deepseek-ai/DeepSeek-V3
+
+# model
+num_layers: 64
+hidden_size: 5120
+ffn_hidden_size: 13824
+num_attention_heads: 40
+# mla
+q_lora_rank: null
+kv_lora_rank: 512
+qk_head_dim: 128
+qk_pos_emb_head_dim: 0
+v_head_dim: 128
+kv_channels: 128
+# moe
+moe_layer_freq: 2
+num_experts: 256
+moe_router_topk: 8
+# num_shared_experts: 1
+moe_ffn_hidden_size: 1536
+moe_shared_expert_intermediate_size: 1536 # num_shared_experts * moe_ffn_hidden_size
+
+# device limited routing
+expert_model_parallel_size: 8
+moe_router_num_groups: 8 # int
+moe_router_group_topk: 4 # int
+moe_aux_loss_coeff: 1.0e-4 # aux_loss_alpha
+
+# noted limited routing (ep=32, 4nodes)
+# expert_model_parallel_size: 32
+# moe_router_num_groups: 4 # int, node number
+# moe_router_group_topk: 2 # int
+
+moe_router_topk_scaling_factor: 2.5 # float