feat(torchtitan): add DeepSeek-V3 model configs for MI300X and MI355X

Xiaoming-AMD · Xiaoming-AMD · commit fe44824ec511 · 2025-10-20T02:10:34.000-05:00
- add DeepSeek-V3 16B and 671B pretrain configs under examples/torchtitan/configs/MI300X
- add same model configs for MI355X to support newer platform
- add corresponding model YAMLs under primus/configs/models/torchtitan
- align format and parameters with TorchTitan standard templates
- verified YAML integrity and Primus CLI compatibility
diff --git a/examples/torchtitan/configs/MI300X/deepseek_v3_16b-pretrain.yaml b/examples/torchtitan/configs/MI300X/deepseek_v3_16b-pretrain.yaml
@@ -0,0 +1,82 @@
+
+work_group: ${PRIMUS_TEAM:amd}
+user_name: ${PRIMUS_USER:root}
+exp_name: ${PRIMUS_EXP_NAME:deepseek_v3_16b-pretrain}
+workspace: ./output
+
+modules:
+  pre_trainer:
+    framework: torchtitan
+    config: pre_trainer.yaml
+
+    # model to run
+    model: deepseek_v3_16b.yaml
+    overrides:
+      profiling:
+        enable_profiling: false
+        save_traces_folder: "profile_trace"
+        profile_freq: 10
+        enable_memory_snapshot: false
+        save_memory_snapshot_folder: "memory_snapshot"
+
+      metrics:
+        log_freq: 10
+        disable_color_printing: false
+        enable_tensorboard: false
+        save_tb_folder: "tb"
+        enable_wandb: false
+
+      optimizer:
+        name: "AdamW"
+        lr: 2.2e-4
+        eps: 1.0e-8
+
+      lr_scheduler:
+        warmup_steps: 200        # lr scheduler warm up, normally 20% of the train steps
+        decay_ratio: 0.8         # lr scheduler decay ratio, 80% of the train steps
+        decay_type: "cosine"
+        min_lr_factor: 0.1
+
+      training:
+        local_batch_size: 4
+        seq_len: 4096
+        max_norm: 1.0            # grad norm clipping
+        steps: 1000
+        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+
+      parallelism:
+        data_parallel_replicate_degree: 1
+        data_parallel_shard_degree: -1
+        fsdp_reshard_after_forward: "default" # default / never / always
+        tensor_parallel_degree: 1
+        enable_async_tensor_parallel: false
+        pipeline_parallel_degree: 1
+        pipeline_parallel_schedule: "Interleaved1F1B"
+        expert_parallel_degree: 8
+        expert_tensor_parallel_degree: 1
+
+      checkpoint:
+        enable: false
+        folder: "checkpoint"
+        interval: 10
+        last_save_model_only: true
+        export_dtype: "float32"
+        async_mode: "disabled"   # ["disabled", "async", "async_with_pinned_mem"]
+
+      activation_checkpoint:
+        mode: "none"        # ["none", "selective", "full"]
+        selective_ac_option: "op" # 'int' = ac every positive int layer or 'op', ac based on ops policy
+
+      compile:
+        enable: true
+        components: ["loss"]     # ["model", "loss"]
+
+      # quantize:
+      #   linear:
+      #     float8:
+      #     enable_fsdp_float8_all_gather: false
+      #     precompute_float8_dynamic_scale_for_fsdp: false
+      #     filter_fqns: ["output", "router.gate"]
+      #   grouped_mm:
+      #     float8:
+      #     fqns: ["experts"]
diff --git a/examples/torchtitan/configs/MI300X/deepseek_v3_671b-pretrain.yaml b/examples/torchtitan/configs/MI300X/deepseek_v3_671b-pretrain.yaml
@@ -0,0 +1,82 @@
+
+work_group: ${PRIMUS_TEAM:amd}
+user_name: ${PRIMUS_USER:root}
+exp_name: ${PRIMUS_EXP_NAME:deepseek_v3_671b-pretrain}
+workspace: ./output
+
+modules:
+  pre_trainer:
+    framework: torchtitan
+    config: pre_trainer.yaml
+
+    # model to run
+    model: deepseek_v3_671b.yaml
+    overrides:
+      profiling:
+        enable_profiling: false
+        save_traces_folder: "profile_trace"
+        profile_freq: 10
+        enable_memory_snapshot: false
+        save_memory_snapshot_folder: "memory_snapshot"
+
+      metrics:
+        log_freq: 10
+        disable_color_printing: false
+        enable_tensorboard: false
+        save_tb_folder: "tb"
+        enable_wandb: false
+
+      optimizer:
+        name: "AdamW"
+        lr: 2.2e-4
+        eps: 1.0e-8
+
+      lr_scheduler:
+        warmup_steps: 200        # lr scheduler warm up, normally 20% of the train steps
+        decay_ratio: 0.8         # lr scheduler decay ratio, 80% of the train steps
+        decay_type: "cosine"
+        min_lr_factor: 0.1
+
+      training:
+        local_batch_size: 4
+        seq_len: 4096
+        max_norm: 1.0            # grad norm clipping
+        steps: 1000
+        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+
+      parallelism:
+        data_parallel_replicate_degree: 1
+        data_parallel_shard_degree: -1
+        fsdp_reshard_after_forward: "default" # default / never / always
+        tensor_parallel_degree: 1
+        enable_async_tensor_parallel: false
+        pipeline_parallel_degree: 1
+        pipeline_parallel_schedule: "Interleaved1F1B"
+        expert_parallel_degree: 1
+        expert_tensor_parallel_degree: 1
+
+      checkpoint:
+        enable: false
+        folder: "checkpoint"
+        interval: 10
+        last_save_model_only: true
+        export_dtype: "float32"
+        async_mode: "disabled"   # ["disabled", "async", "async_with_pinned_mem"]
+
+      activation_checkpoint:
+        mode: "full"        # ["none", "selective", "full"]
+        selective_ac_option: "op" # 'int' = ac every positive int layer or 'op', ac based on ops policy
+
+      compile:
+        enable: true
+        components: ["loss"]     # ["model", "loss"]
+
+      # quantize:
+      #   linear:
+      #     float8:
+      #     enable_fsdp_float8_all_gather: false
+      #     precompute_float8_dynamic_scale_for_fsdp: false
+      #     filter_fqns: ["output", "router.gate"]
+      #   grouped_mm:
+      #     float8:
+      #     fqns: ["experts"]
diff --git a/examples/torchtitan/configs/MI355X/deepseek_v3_16b-pretrain.yaml b/examples/torchtitan/configs/MI355X/deepseek_v3_16b-pretrain.yaml
@@ -0,0 +1,82 @@
+
+work_group: ${PRIMUS_TEAM:amd}
+user_name: ${PRIMUS_USER:root}
+exp_name: ${PRIMUS_EXP_NAME:deepseek_v3_16b-pretrain}
+workspace: ./output
+
+modules:
+  pre_trainer:
+    framework: torchtitan
+    config: pre_trainer.yaml
+
+    # model to run
+    model: deepseek_v3_16b.yaml
+    overrides:
+      profiling:
+        enable_profiling: false
+        save_traces_folder: "profile_trace"
+        profile_freq: 10
+        enable_memory_snapshot: false
+        save_memory_snapshot_folder: "memory_snapshot"
+
+      metrics:
+        log_freq: 10
+        disable_color_printing: false
+        enable_tensorboard: false
+        save_tb_folder: "tb"
+        enable_wandb: false
+
+      optimizer:
+        name: "AdamW"
+        lr: 2.2e-4
+        eps: 1.0e-8
+
+      lr_scheduler:
+        warmup_steps: 200        # lr scheduler warm up, normally 20% of the train steps
+        decay_ratio: 0.8         # lr scheduler decay ratio, 80% of the train steps
+        decay_type: "cosine"
+        min_lr_factor: 0.1
+
+      training:
+        local_batch_size: 4
+        seq_len: 4096
+        max_norm: 1.0            # grad norm clipping
+        steps: 1000
+        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+
+      parallelism:
+        data_parallel_replicate_degree: 1
+        data_parallel_shard_degree: -1
+        fsdp_reshard_after_forward: "default" # default / never / always
+        tensor_parallel_degree: 1
+        enable_async_tensor_parallel: false
+        pipeline_parallel_degree: 1
+        pipeline_parallel_schedule: "Interleaved1F1B"
+        expert_parallel_degree: 8
+        expert_tensor_parallel_degree: 1
+
+      checkpoint:
+        enable: false
+        folder: "checkpoint"
+        interval: 10
+        last_save_model_only: true
+        export_dtype: "float32"
+        async_mode: "disabled"   # ["disabled", "async", "async_with_pinned_mem"]
+
+      activation_checkpoint:
+        mode: "none"        # ["none", "selective", "full"]
+        selective_ac_option: "op" # 'int' = ac every positive int layer or 'op', ac based on ops policy
+
+      compile:
+        enable: true
+        components: ["loss"]     # ["model", "loss"]
+
+      # quantize:
+      #   linear:
+      #     float8:
+      #     enable_fsdp_float8_all_gather: false
+      #     precompute_float8_dynamic_scale_for_fsdp: false
+      #     filter_fqns: ["output", "router.gate"]
+      #   grouped_mm:
+      #     float8:
+      #     fqns: ["experts"]
diff --git a/examples/torchtitan/configs/MI355X/deepseek_v3_671b-pretrain.yaml b/examples/torchtitan/configs/MI355X/deepseek_v3_671b-pretrain.yaml
@@ -0,0 +1,82 @@
+
+work_group: ${PRIMUS_TEAM:amd}
+user_name: ${PRIMUS_USER:root}
+exp_name: ${PRIMUS_EXP_NAME:deepseek_v3_671b-pretrain}
+workspace: ./output
+
+modules:
+  pre_trainer:
+    framework: torchtitan
+    config: pre_trainer.yaml
+
+    # model to run
+    model: deepseek_v3_671b.yaml
+    overrides:
+      profiling:
+        enable_profiling: false
+        save_traces_folder: "profile_trace"
+        profile_freq: 10
+        enable_memory_snapshot: false
+        save_memory_snapshot_folder: "memory_snapshot"
+
+      metrics:
+        log_freq: 10
+        disable_color_printing: false
+        enable_tensorboard: false
+        save_tb_folder: "tb"
+        enable_wandb: false
+
+      optimizer:
+        name: "AdamW"
+        lr: 2.2e-4
+        eps: 1.0e-8
+
+      lr_scheduler:
+        warmup_steps: 200        # lr scheduler warm up, normally 20% of the train steps
+        decay_ratio: 0.8         # lr scheduler decay ratio, 80% of the train steps
+        decay_type: "cosine"
+        min_lr_factor: 0.1
+
+      training:
+        local_batch_size: 4
+        seq_len: 4096
+        max_norm: 1.0            # grad norm clipping
+        steps: 1000
+        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+
+      parallelism:
+        data_parallel_replicate_degree: 1
+        data_parallel_shard_degree: -1
+        fsdp_reshard_after_forward: "default" # default / never / always
+        tensor_parallel_degree: 1
+        enable_async_tensor_parallel: false
+        pipeline_parallel_degree: 1
+        pipeline_parallel_schedule: "Interleaved1F1B"
+        expert_parallel_degree: 1
+        expert_tensor_parallel_degree: 1
+
+      checkpoint:
+        enable: false
+        folder: "checkpoint"
+        interval: 10
+        last_save_model_only: true
+        export_dtype: "float32"
+        async_mode: "disabled"   # ["disabled", "async", "async_with_pinned_mem"]
+
+      activation_checkpoint:
+        mode: "full"        # ["none", "selective", "full"]
+        selective_ac_option: "op" # 'int' = ac every positive int layer or 'op', ac based on ops policy
+
+      compile:
+        enable: true
+        components: ["loss"]     # ["model", "loss"]
+
+      # quantize:
+      #   linear:
+      #     float8:
+      #     enable_fsdp_float8_all_gather: false
+      #     precompute_float8_dynamic_scale_for_fsdp: false
+      #     filter_fqns: ["output", "router.gate"]
+      #   grouped_mm:
+      #     float8:
+      #     fqns: ["experts"]
diff --git a/primus/configs/models/torchtitan/deepseek_v3_16b.yaml b/primus/configs/models/torchtitan/deepseek_v3_16b.yaml
@@ -0,0 +1,11 @@
+job:
+  dump_folder: "./outputs"
+  description: "DeepSeek-V3 16B model training"
+  print_config: false
+
+
+model:
+  name: "deepseek_v3"
+  flavor: "16B"
+  hf_assets_path: "deepseek-ai/deepseek-moe-16b-base"
+  # converters: ["float8"]
diff --git a/primus/configs/models/torchtitan/deepseek_v3_671b.yaml b/primus/configs/models/torchtitan/deepseek_v3_671b.yaml
@@ -0,0 +1,10 @@
+job:
+  dump_folder: "./outputs"
+  description: "DeepSeek-V3 671B model training"
+  print_config: false
+
+model:
+  name: "deepseek_v3"
+  flavor: "671B"
+  hf_assets_path: "deepseek-ai/DeepSeek-V3.1-Base"
+  # converters: ["float8"]