update LR warmup configs (lr_warmup_iters < train_iters) in config files

clairesonglee · clairesonglee · commit 35443398049f · 2025-12-11T06:47:46.000Z
diff --git a/examples/megatron/configs/MI300X/mamba_370M-pretrain.yaml b/examples/megatron/configs/MI300X/mamba_370M-pretrain.yaml
@@ -0,0 +1,94 @@
+work_group: ${PRIMUS_TEAM:amd}
+user_name: ${PRIMUS_USER:root}
+exp_name: ${PRIMUS_EXP_NAME:mamba_370M-pretrain}
+workspace: ${PRIMUS_WORKSPACE:./output}
+
+modules:
+  pre_trainer:
+    framework: megatron
+    config: pre_trainer.yaml
+
+    # model to run
+    model: mamba_370M.yaml
+    overrides:
+      # log
+      wandb_project: "Primus_Mamba_Pretrain"
+      # disable_wandb: false
+      # disable_tensorboard: false
+      stderr_sink_level: DEBUG
+
+      eval_iters: 0
+
+      log_avg_skip_iterations: 2
+      log_avg_reset_interval: 50
+
+      train_iters: 50
+      micro_batch_size: 4
+      global_batch_size: 256
+
+      seq_length: 2048
+      max_position_embeddings: 2048
+
+      lr: 3.0e-4
+      min_lr: 0.0
+      lr_warmup_iters: 5
+      lr_decay_iters: null
+      lr_decay_style: cosine
+      weight_decay: 0.1
+      adam_beta1: 0.9
+      adam_beta2: 0.95
+      eod_mask_loss: true
+      init_method_std: 0.02
+      norm_epsilon: 1.0e-5
+
+      # Mamba-specific: must provide spec
+      spec: ['megatron.core.models.mamba.mamba_layer_specs', 'mamba_stack_spec']
+      
+      # Tokenizer
+      tokenizer_type: HuggingFaceTokenizer
+      tokenizer_model: meta-llama/Llama-3.2-1B
+      
+      # Mamba SSM parameters
+      is_hybrid_model: false
+      hybrid_attention_ratio: 0.0
+      hybrid_mlp_ratio: 0.0
+      mamba_state_dim: 16
+      mamba_head_dim: 64
+      mamba_num_groups: 8
+
+      # parallel
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      overlap_grad_reduce: true
+      overlap_param_gather: true
+      gradient_accumulation_fusion: false
+
+      # data
+      mock_data: true
+      train_data_path: null
+      valid_data_path: null
+      test_data_path: null
+
+      # ckpt
+      finetune: false
+      auto_continue_train: false
+      load: null
+      no_load_optim: null
+      no_load_rng: null
+      save: null
+      save_interval: 20000
+      no_save_optim: null
+      no_save_rng: null
+      disable_last_saving: true
+      ckpt_format: torch
+
+      # Turbo - may need to disable for Mamba if not supported
+      enable_primus_turbo: false
+      use_turbo_attention: false
+      use_turbo_grouped_mlp: false
+
+      # Cross entropy flags
+      # cross_entropy_fusion_impl: "native"
+      # cross_entropy_loss_fusion: false
+
diff --git a/examples/megatron/configs/MI300X/mamba_hybrid_2.8B-pretrain.yaml b/examples/megatron/configs/MI300X/mamba_hybrid_2.8B-pretrain.yaml
@@ -0,0 +1,84 @@
+work_group: ${PRIMUS_TEAM:amd}
+user_name: ${PRIMUS_USER:root}
+exp_name: ${PRIMUS_EXP_NAME:mamba_hybrid_2.8B-pretrain}
+workspace: ${PRIMUS_WORKSPACE:./output}
+
+modules:
+  pre_trainer:
+    framework: megatron
+    config: pre_trainer.yaml
+
+    # model to run
+    model: mamba_hybrid_2.8B.yaml
+    overrides:
+      # log
+      wandb_project: "Primus_Mamba_Hybrid_Pretrain"
+      stderr_sink_level: DEBUG
+
+      eval_iters: 0
+
+      log_avg_skip_iterations: 2
+      log_avg_reset_interval: 50
+
+      train_iters: 100
+      micro_batch_size: 2
+      global_batch_size: 128
+
+      seq_length: 4096
+      max_position_embeddings: 4096
+
+      lr: 2.0e-4
+      min_lr: 2.0e-5
+      lr_warmup_iters: 10
+      lr_decay_iters: 100
+      lr_decay_style: cosine
+      weight_decay: 0.1
+      adam_beta1: 0.9
+      adam_beta2: 0.95
+      eod_mask_loss: true
+      init_method_std: 0.02
+      norm_epsilon: 1.0e-5
+
+      # Mamba-specific: must provide spec
+      spec: ['megatron.core.models.mamba.mamba_layer_specs', 'mamba_stack_spec']
+      
+      # Tokenizer
+      tokenizer_type: HuggingFaceTokenizer
+      tokenizer_model: meta-llama/Llama-3.2-1B
+      
+      # Hybrid Mamba+Attention parameters
+      is_hybrid_model: true
+      hybrid_attention_ratio: 0.125
+      hybrid_mlp_ratio: 0.0
+      mamba_state_dim: 16
+      mamba_head_dim: 64
+      mamba_num_groups: 8
+
+      # parallel
+      tensor_model_parallel_size: 2
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      overlap_grad_reduce: true
+      overlap_param_gather: true
+      gradient_accumulation_fusion: true
+
+      # data
+      mock_data: true
+      train_data_path: null
+      valid_data_path: null
+      test_data_path: null
+
+      # ckpt
+      finetune: false
+      auto_continue_train: false
+      load: null
+      save: null
+      save_interval: 10000
+      disable_last_saving: true
+      ckpt_format: torch
+
+      # Turbo - disable for Mamba layers, but attention layers may benefit
+      enable_primus_turbo: false
+      use_turbo_attention: false
+      use_turbo_grouped_mlp: false
+
diff --git a/primus/modules/trainer/megatron/pre_trainer.py b/primus/modules/trainer/megatron/pre_trainer.py
@@ -235,6 +235,25 @@ def forward_step(self, data_iterator, model: GPTModel, return_schedule_plan=Fals
                 DataLoaderStore.push(data_iterator, h2d_stream=False)
                 tokens, labels, loss_mask, attention_mask, position_ids = DataLoaderStore.pop()
 
+        # Determine if model supports loss_mask parameter
+        # MambaModel doesn't accept loss_mask in forward(), while GPTModel does
+        model_type = getattr(args, 'model_type', 'gpt')
+        supports_loss_mask = (model_type != 'mamba')
+        
+        # Alternative check: inspect the actual model class
+        # This is a fallback in case model_type isn't set correctly
+        if not supports_loss_mask:
+            # Already determined it's Mamba, no need for further checks
+            pass
+        else:
+            # Double-check by inspecting the actual model object
+            from megatron.core.models.mamba import MambaModel
+            from megatron.core.utils import get_attr_wrapped_model
+            
+            actual_model = get_attr_wrapped_model(model, 'forward', return_model_obj=True)
+            if isinstance(actual_model, MambaModel):
+                supports_loss_mask = False
+
         with stimer:
             if return_schedule_plan:
                 assert (
@@ -256,17 +275,30 @@ def forward_step(self, data_iterator, model: GPTModel, return_schedule_plan=Fals
                         TransformerModelChunkSchedulePlan,
                     )
 
+                    schedule_kwargs = {"labels": labels}
+                    if supports_loss_mask:
+                        schedule_kwargs["loss_mask"] = loss_mask
+
                     schedule_plan = TransformerModelChunkSchedulePlan(
-                        model, tokens, position_ids, attention_mask, labels=labels, loss_mask=loss_mask
+                        model, tokens, position_ids, attention_mask, **schedule_kwargs
                     )
                 else:
+                    schedule_kwargs = {"labels": labels}
+                    if supports_loss_mask:
+                        schedule_kwargs["loss_mask"] = loss_mask
+
                     schedule_plan = model.build_schedule_plan(
-                        tokens, position_ids, attention_mask, labels=labels, loss_mask=loss_mask
+                        tokens, position_ids, attention_mask, **schedule_kwargs
                     )
                 return schedule_plan, partial(self.loss_func, loss_mask)
             else:
+                # Build forward kwargs based on model type
+                forward_kwargs = {"labels": labels}
+                if supports_loss_mask:
+                    forward_kwargs["loss_mask"] = loss_mask
+
                 output_tensor = model(
-                    tokens, position_ids, attention_mask, labels=labels, loss_mask=loss_mask
+                    tokens, position_ids, attention_mask, **forward_kwargs
                 )
 
         return output_tensor, partial(self.loss_func, loss_mask)