Add full model cuda graph support for MTP inference (NVIDIA#4950)

santhnm2 · web-flow · commit 1cfa834a8dfa · 2026-06-16T19:22:10.000Z
Signed-off-by: Keshav Santhanam &lt;ksanthanam@nvidia.com&gt;
diff --git a/megatron/core/inference/contexts/dynamic_context.py b/megatron/core/inference/contexts/dynamic_context.py
@@ -35,6 +35,7 @@
 )
 from megatron.core.package_info import __version__ as mcore_version
 from megatron.core.transformer import MLATransformerConfig, TransformerConfig
+from megatron.core.transformer.enums import InferenceCudaGraphScope
 from megatron.core.transformer.moe.token_dispatcher_inference import (
     InferenceAllGatherDispatcherBase,
     NCCLAllGatherDispatcher,
@@ -555,6 +556,8 @@ def __init__(self, model_config: TransformerConfig, inference_config: InferenceC
 
         # Initialize context state.
         self.params_dtype = model_config.params_dtype
+        self.hidden_size = model_config.hidden_size
+        self.inference_cuda_graph_scope = model_config.inference_cuda_graph_scope
         self.max_sequence_length = inference_config.max_sequence_length
 
         # Block ids. With speculative decoding, blocks are pre-allocated when the
@@ -698,6 +701,10 @@ def __init__(self, model_config: TransformerConfig, inference_config: InferenceC
         self.use_flashinfer_fused_rope = inference_config.use_flashinfer_fused_rope
         self.inference_grouped_gemm_backend = model_config.inference_grouped_gemm_backend
 
+        # Placeholder for the MTP decoder hidden-states buffer; allocated inside
+        # initialize_all_tensors() when num_speculative_tokens > 0.
+        self.mtp_decoder_hidden_states = None
+
         # Allocate GPU state.
         self.is_tensor_state_allocated = False
         self.initialize_all_tensors()
@@ -1270,6 +1277,23 @@ def initialize_all_tensors(self) -> None:
         ):
             self._allocate_mamba_cache(self.config.prefix_caching_mamba_gb)
 
+        # MTP speculative decoding: persistent buffer for decoder hidden states.
+        # Only needed for block-scope CUDA graphs, where the Python assignment in
+        # forward() runs only during graph capture. Using copy_() into a fixed
+        # buffer ensures every batch-size graph replay writes to the same GPU
+        # address. Sized to max_tokens; only [:actual_tokens] is valid each step.
+        if (
+            self.num_speculative_tokens > 0
+            and self.inference_cuda_graph_scope == InferenceCudaGraphScope.block
+        ):
+            self.mtp_decoder_hidden_states = torch.empty(
+                self.max_tokens,
+                1,
+                self.hidden_size,
+                device=torch.cuda.current_device(),
+                dtype=self.params_dtype,
+            )
+
         # Reset tensor-related metadata.
         self.reset_metadata()
 
diff --git a/megatron/core/inference/text_generation_controllers/text_generation_controller.py b/megatron/core/inference/text_generation_controllers/text_generation_controller.py
@@ -36,6 +36,7 @@
     gather_from_sequence_parallel_region,
     scatter_to_sequence_parallel_region,
 )
+from megatron.core.transformer.enums import InferenceCudaGraphScope
 from megatron.core.transformer.moe.moe_layer import BaseMoELayer
 from megatron.core.transformer.moe.router_replay import RouterReplay, RouterReplayAction
 from megatron.core.transformer.utils import set_model_to_sequence_parallel
@@ -769,13 +770,11 @@ def _compute_serial_mtp_and_sample(self):
         unwrapped_model = self._unwrapped_model
 
         # On non-last pipeline stages, the model won't have decoder hidden states.
-        has_mtp = self._is_last_pp_stage and hasattr(
-            unwrapped_model, '_decoder_hidden_states_cache'
-        )
+        has_mtp = self._is_last_pp_stage and context.mtp_decoder_hidden_states is not None
 
         if has_mtp:
             # Get decoder hidden states at last accepted positions.
-            hidden_states = unwrapped_model._decoder_hidden_states_cache
+            hidden_states = context.mtp_decoder_hidden_states
 
             # When SP is active the decoder output is in scattered format
             # [S/TP, B, H], but _last_accepted_seq_indices are indices into
@@ -889,9 +888,12 @@ def _compute_serial_mtp_and_sample(self):
             next_token_ids = spec_tokens
             nvtx_range_pop(f"mtp-spec-decoding/depth-{depth}")
 
-        # Clean up cached hidden states.
-        if has_mtp:
-            del unwrapped_model._decoder_hidden_states_cache
+        # In eager mode forward() assigns the hidden states tensor directly to
+        # the context attribute; release it so the tensor can be garbage
+        # collected. In block-scope CUDA graph mode the attribute is a
+        # pre-allocated fixed buffer that must persist across replays.
+        if has_mtp and context.inference_cuda_graph_scope != InferenceCudaGraphScope.block:
+            context.mtp_decoder_hidden_states = None
 
     def _verify_speculative_tokens(
         self,
@@ -1517,15 +1519,13 @@ def _dummy_serial_mtp_forward(self):
         if self.model_config.expert_model_parallel_size <= 1:
             return
 
-        unwrapped_model = self._unwrapped_model
-
-        has_mtp = self._is_last_pp_stage and hasattr(
-            unwrapped_model, '_decoder_hidden_states_cache'
-        )
+        context = self.inference_wrapped_model.inference_context
+        has_mtp = self._is_last_pp_stage and context.mtp_decoder_hidden_states is not None
         if not has_mtp and not self.model_is_pipeline_parallel:
             # No MTP on this rank and no PP broadcast to participate in.
             return
 
+        unwrapped_model = self._unwrapped_model
         device = torch.cuda.current_device()
         dtype = self.model_config.params_dtype
         hidden_size = self.model_config.hidden_size
diff --git a/megatron/core/models/gpt/gpt_model.py b/megatron/core/models/gpt/gpt_model.py
@@ -27,7 +27,7 @@
 from megatron.core.process_groups_config import ProcessGroupCollection
 from megatron.core.quantization.utils import get_quant_config_or_none
 from megatron.core.tensor_parallel import gather_from_sequence_parallel_region
-from megatron.core.transformer.enums import ModelType
+from megatron.core.transformer.enums import InferenceCudaGraphScope, ModelType
 from megatron.core.transformer.moe.paged_stash import paged_stash_init_chunk_handler
 from megatron.core.transformer.multi_token_prediction import (
     MultiTokenPredictionBlock,
@@ -668,7 +668,14 @@ def _postprocess(
             if in_inference_mode or is_spec_decode:
                 # Cache decoder hidden states for serial MTP computation
                 # after speculative token verification.
-                self._decoder_hidden_states_cache = hidden_states
+                if inference_context is not None:
+                    if self.config.inference_cuda_graph_scope == InferenceCudaGraphScope.block:
+                        assert inference_context.mtp_decoder_hidden_states is not None
+                        inference_context.mtp_decoder_hidden_states[: hidden_states.shape[0]].copy_(
+                            hidden_states
+                        )
+                    else:
+                        inference_context.mtp_decoder_hidden_states = hidden_states
             else:
                 # In training/eval, use the utility function for processing MTP loss/scaling.
                 hidden_states = process_mtp_loss(
diff --git a/megatron/core/models/hybrid/hybrid_model.py b/megatron/core/models/hybrid/hybrid_model.py
@@ -544,7 +544,19 @@ def forward(
         if self.config.mtp_num_layers is not None and self.mtp_process:
             assert self.config.mtp_num_layers > 0
             if in_inference_mode or is_spec_decode:
-                self._decoder_hidden_states_cache = hidden_states
+                if inference_context is not None:
+                    if self.config.inference_cuda_graph_scope == InferenceCudaGraphScope.block:
+                        # Block-scope CUDA graph mode: copy_() into the
+                        # pre-allocated buffer so every graph replay writes to
+                        # the same fixed GPU address regardless of batch size.
+                        assert inference_context.mtp_decoder_hidden_states is not None
+                        inference_context.mtp_decoder_hidden_states[: hidden_states.shape[0]].copy_(
+                            hidden_states
+                        )
+                    else:
+                        # Non-block scope: direct assignment; the controller will set
+                        # this back to None after reading to allow GC.
+                        inference_context.mtp_decoder_hidden_states = hidden_states
             else:
                 # For RL (labels is None), process_mtp_loss derives labels from
                 # input_ids to match the SFT label format.
diff --git a/tests/unit_tests/inference/engines/test_dynamic_engine.py b/tests/unit_tests/inference/engines/test_dynamic_engine.py
@@ -2581,7 +2581,7 @@ def mock_mtp_forward(*args, **kwargs):
             base_logits[:, :, 0] = 100.0  # High probability for token 0
 
             # Cache hidden states for serial MTP computation
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 tokens.size(1), 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             if test_config.materialize_only_last_token_logits:
@@ -2720,7 +2720,7 @@ def mock_deterministic_forward(*args, **kwargs):
             base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)
 
             # Cache hidden states for serial MTP computation
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             if test_config.materialize_only_last_token_logits:
@@ -2815,7 +2815,7 @@ def mock_deterministic_forward(*args, **kwargs):
             base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)
 
             # Cache hidden states for serial MTP computation
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             if test_config.materialize_only_last_token_logits:
@@ -2911,7 +2911,7 @@ def mock_deterministic_forward(*args, **kwargs):
             base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)
 
             # Cache hidden states for serial MTP computation
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             if test_config.materialize_only_last_token_logits:
@@ -3187,7 +3187,7 @@ def mock_mtp_forward(*args, **kwargs):
                 next_toks = (tokens + 1).clamp(max=test_config.vocab_size - 1)
                 base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)
 
-                model._decoder_hidden_states_cache = torch.zeros(
+                env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                     s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
                 )
                 if test_config.materialize_only_last_token_logits:
@@ -3308,7 +3308,7 @@ def mock_safe_forward(*args, **kwargs):
             base_logits[:, :, 0] = 100.0  # Force model to deterministically pick token 0
 
             # Cache hidden states for serial MTP computation
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             if test_config.materialize_only_last_token_logits:
@@ -3526,7 +3526,7 @@ def mock_mtp_forward(*args, **kwargs):
                 dtype=torch.bfloat16,
             )
             base_logits[:, :, 0] = 100.0
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 tokens.size(1), 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             return base_logits
@@ -3669,7 +3669,7 @@ def mock_deterministic_forward(*args, **kwargs):
             )
             # Make token 0 very likely so speculative tokens get accepted.
             base_logits[:, :, 0] = 100.0
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             return base_logits
@@ -3791,7 +3791,7 @@ def mock_deterministic_forward(*args, **kwargs):
                 b, s, test_config.vocab_size, device=tokens.device, dtype=torch.bfloat16
             )
             base_logits[:, :, 0] = 100.0
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             return base_logits
@@ -3923,7 +3923,7 @@ def mock_deterministic_forward(*args, **kwargs):
                 b, s, test_config.vocab_size, device=tokens.device, dtype=torch.bfloat16
             )
             base_logits[:, :, 0] = 100.0
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             return base_logits
@@ -4178,7 +4178,7 @@ def mock_deterministic_forward(*args, **kwargs):
             )
             next_toks = (tokens + 1).clamp(max=test_config.vocab_size - 1)
             base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             return base_logits
@@ -4276,7 +4276,7 @@ def mock_deterministic_forward(*args, **kwargs):
             )
             next_toks = (tokens + 1).clamp(max=test_config.vocab_size - 1)
             base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)
-            unwrapped_model._decoder_hidden_states_cache = torch.zeros(
+            env.engine.context.mtp_decoder_hidden_states = torch.zeros(
                 s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16
             )
             return base_logits
diff --git a/tests/unit_tests/inference/test_mtp_cuda_graph_inference.py b/tests/unit_tests/inference/test_mtp_cuda_graph_inference.py
diff --git a/tests/unit_tests/inference/text_generation_controllers/test_text_generation_controller.py b/tests/unit_tests/inference/text_generation_controllers/test_text_generation_controller.py

Original file line number	Diff line number	Diff line change
`@@ -2581,7 +2581,7 @@ def mock_mtp_forward(args, *kwargs):`
`2581`	`2581`	`base_logits[:, :, 0] = 100.0 # High probability for token 0`
`2582`	`2582`
`2583`	`2583`	`# Cache hidden states for serial MTP computation`
`2584`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`2584`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`2585`	`2585`	`tokens.size(1), 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`2586`	`2586`	`)`
`2587`	`2587`	`if test_config.materialize_only_last_token_logits:`
`@@ -2720,7 +2720,7 @@ def mock_deterministic_forward(args, *kwargs):`
`2720`	`2720`	`base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)`
`2721`	`2721`
`2722`	`2722`	`# Cache hidden states for serial MTP computation`
`2723`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`2723`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`2724`	`2724`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`2725`	`2725`	`)`
`2726`	`2726`	`if test_config.materialize_only_last_token_logits:`
`@@ -2815,7 +2815,7 @@ def mock_deterministic_forward(args, *kwargs):`
`2815`	`2815`	`base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)`
`2816`	`2816`
`2817`	`2817`	`# Cache hidden states for serial MTP computation`
`2818`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`2818`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`2819`	`2819`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`2820`	`2820`	`)`
`2821`	`2821`	`if test_config.materialize_only_last_token_logits:`
`@@ -2911,7 +2911,7 @@ def mock_deterministic_forward(args, *kwargs):`
`2911`	`2911`	`base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)`
`2912`	`2912`
`2913`	`2913`	`# Cache hidden states for serial MTP computation`
`2914`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`2914`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`2915`	`2915`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`2916`	`2916`	`)`
`2917`	`2917`	`if test_config.materialize_only_last_token_logits:`
`@@ -3187,7 +3187,7 @@ def mock_mtp_forward(args, *kwargs):`
`3187`	`3187`	`next_toks = (tokens + 1).clamp(max=test_config.vocab_size - 1)`
`3188`	`3188`	`base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)`
`3189`	`3189`
`3190`		`- model._decoder_hidden_states_cache = torch.zeros(`
	`3190`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`3191`	`3191`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`3192`	`3192`	`)`
`3193`	`3193`	`if test_config.materialize_only_last_token_logits:`
`@@ -3308,7 +3308,7 @@ def mock_safe_forward(args, *kwargs):`
`3308`	`3308`	`base_logits[:, :, 0] = 100.0 # Force model to deterministically pick token 0`
`3309`	`3309`
`3310`	`3310`	`# Cache hidden states for serial MTP computation`
`3311`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`3311`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`3312`	`3312`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`3313`	`3313`	`)`
`3314`	`3314`	`if test_config.materialize_only_last_token_logits:`
`@@ -3526,7 +3526,7 @@ def mock_mtp_forward(args, *kwargs):`
`3526`	`3526`	`dtype=torch.bfloat16,`
`3527`	`3527`	`)`
`3528`	`3528`	`base_logits[:, :, 0] = 100.0`
`3529`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`3529`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`3530`	`3530`	`tokens.size(1), 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`3531`	`3531`	`)`
`3532`	`3532`	`return base_logits`
`@@ -3669,7 +3669,7 @@ def mock_deterministic_forward(args, *kwargs):`
`3669`	`3669`	`)`
`3670`	`3670`	`# Make token 0 very likely so speculative tokens get accepted.`
`3671`	`3671`	`base_logits[:, :, 0] = 100.0`
`3672`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`3672`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`3673`	`3673`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`3674`	`3674`	`)`
`3675`	`3675`	`return base_logits`
`@@ -3791,7 +3791,7 @@ def mock_deterministic_forward(args, *kwargs):`
`3791`	`3791`	`b, s, test_config.vocab_size, device=tokens.device, dtype=torch.bfloat16`
`3792`	`3792`	`)`
`3793`	`3793`	`base_logits[:, :, 0] = 100.0`
`3794`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`3794`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`3795`	`3795`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`3796`	`3796`	`)`
`3797`	`3797`	`return base_logits`
`@@ -3923,7 +3923,7 @@ def mock_deterministic_forward(args, *kwargs):`
`3923`	`3923`	`b, s, test_config.vocab_size, device=tokens.device, dtype=torch.bfloat16`
`3924`	`3924`	`)`
`3925`	`3925`	`base_logits[:, :, 0] = 100.0`
`3926`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`3926`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`3927`	`3927`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`3928`	`3928`	`)`
`3929`	`3929`	`return base_logits`
`@@ -4178,7 +4178,7 @@ def mock_deterministic_forward(args, *kwargs):`
`4178`	`4178`	`)`
`4179`	`4179`	`next_toks = (tokens + 1).clamp(max=test_config.vocab_size - 1)`
`4180`	`4180`	`base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)`
`4181`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`4181`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`4182`	`4182`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`4183`	`4183`	`)`
`4184`	`4184`	`return base_logits`
`@@ -4276,7 +4276,7 @@ def mock_deterministic_forward(args, *kwargs):`
`4276`	`4276`	`)`
`4277`	`4277`	`next_toks = (tokens + 1).clamp(max=test_config.vocab_size - 1)`
`4278`	`4278`	`base_logits.scatter_(2, next_toks.unsqueeze(-1), 100.0)`
`4279`		`- unwrapped_model._decoder_hidden_states_cache = torch.zeros(`
	`4279`	`+ env.engine.context.mtp_decoder_hidden_states = torch.zeros(`
`4280`	`4280`	`s, 1, hidden_size, device=tokens.device, dtype=torch.bfloat16`
`4281`	`4281`	`)`
`4282`	`4282`	`return base_logits`