PaddlePaddle · tianlef · Apr 25, 2026 · Apr 21, 2026 · Apr 21, 2026 · Apr 21, 2026
diff --git a/paddleformers/trainer/trainer.py b/paddleformers/trainer/trainer.py
@@ -3452,7 +3452,7 @@ def _wrap_model(self, model, training=True):
             else:
 
                 def _prepare_pipeline_inputs_func(inputs):
-                    first_stage_keys = ["input_ids", "attention_mask", "position_ids"]
+                    first_stage_keys = ["input_ids", "attention_mask", "position_ids", "labels"]
                     last_stage_keys = ["labels"]
 
                     def get_expected_keys(inputs, keys):
@@ -3471,7 +3471,7 @@ def get_expected_keys(inputs, keys):
                     inputs_batch = {key: [data.pop(key) for data in inputs] for key in keys}
                     if is_paddlefleet_available() and self.using_fleet_model:
                         first_stage_inputs_batch = inputs_batch
-                        last_stage_inputs = first_stage_inputs_batch.pop("labels")
+                        last_stage_inputs = first_stage_inputs_batch.get("labels")
                         outputs = (
                             first_stage_inputs_batch,
                             last_stage_inputs,

diff --git a/paddleformers/transformers/gpt_provider.py b/paddleformers/transformers/gpt_provider.py
@@ -216,9 +216,11 @@ def provide(self, pre_process=None, post_process=None, vp_stage=None, loss_fn=No
         """
 
         with model_init_device_context():
-            fleet_model = gpt_builder(
-                self, num_stages=pp_size, seg_method="layer:TransformerLayer|EmptyLayer", loss_fn=loss_fn
-            )
+            seg_method = "layer:TransformerLayer|EmptyLayer"
+            if self.separate_mtp_headloss:
+                seg_method = "layer:TransformerLayer|EmptyLayer|MultiTokenPredictionLayer"
+
+            fleet_model = gpt_builder(self, num_stages=pp_size, seg_method=seg_method, loss_fn=loss_fn)
             # Convert original FleetGPTModel to our GPTModel to correctly inherit PretrainedModel methods
             model = GPTModel.__new__(GPTModel)
             # Manually copy all attributes