flashinfer-ai
diff --git a/‎flashinfer/cute_dsl/attention/mla_decode.py‎
Lines changed: 1 addition & 0 deletions b/‎flashinfer/cute_dsl/attention/mla_decode.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎flashinfer/cute_dsl/attention/mla_decode_fp8.py‎
Lines changed: 1 addition & 0 deletions b/‎flashinfer/cute_dsl/attention/mla_decode_fp8.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎flashinfer/cute_dsl/attention/prefill.py‎
Lines changed: 7 additions & 1 deletion b/‎flashinfer/cute_dsl/attention/prefill.py‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎flashinfer/cute_dsl/attention/roles/correction.py‎
Lines changed: 1 addition & 4 deletions b/‎flashinfer/cute_dsl/attention/roles/correction.py‎
Lines changed: 1 addition & 4 deletions
diff --git a/‎flashinfer/cute_dsl/attention/roles/mla_mma.py‎
Lines changed: 81 additions & 24 deletions b/‎flashinfer/cute_dsl/attention/roles/mla_mma.py‎
Lines changed: 81 additions & 24 deletions
@@ -188,6 +188,7 @@ def _reinterpret_3d_kv(t):
         self.pt_loader_role = MLAPageTableLoaderRole(self.config)
         self.loader_role = MLALoaderRole(self.config)
         self.mma_role = MLAMmaRole(self.config, self.mainloop)
+        self.mma_role.set_dtypes(self.q_dtype, self.v_dtype)
         self.compute_role = MLAComputeRole(self.config, fusion=self.fusion)
         self.compute_role.set_dtypes(self.q_dtype)
         self.compute_role.set_barriers(self.softmax_exchange_sync_bar)
 
@@ -191,6 +191,7 @@ def _reinterpret_3d_kv(t):
         self.loader_k_role = MLAFP8LoaderKRole(self.config)
         self.loader_v_role = MLAFP8LoaderVRole(self.config)
         self.mma_role = MLAMmaFP8Role(self.config, self.mainloop)
+        self.mma_role.set_dtypes(self.q_dtype, self.v_dtype)
         self.compute_role = MLAComputeRole(self.config, fusion=self.fusion)
         self.compute_role.set_dtypes(self.q_dtype)
         self.compute_role.set_barriers(self.softmax_exchange_sync_bar)
 
@@ -206,6 +206,13 @@ def __call__(
             threads_per_warp=self.schedule.threads_per_warp,
             has_logits_transform=self.has_logits_transform,
         )
+        self.mma_role.set_dtypes(
+            self.q_dtype,
+            self.v_dtype,
+            self.q_major_mode,
+            self.k_major_mode,
+            self.v_major_mode,
+        )
         self.softmax_role.set_dtypes(self.q_dtype, self.o_dtype)
 
         lp = build_fmha_launch_params(
@@ -495,7 +502,6 @@ def kernel(
         if warp_idx == self.schedule.mma_warp_id:
             cute.arch.warpgroup_reg_dealloc(self.schedule.num_regs_other)
             self.mma_role.run(
-                qk_tiled_mma,
                 pv_tiled_mma,
                 tStS0,
                 tStS1,
 
@@ -263,10 +263,7 @@ def epilog(
             cute.copy(tiled_smem_store, tSMrO, tTMEM_LOADsO_i)
 
         # fence view async shared
-        cute.arch.fence_proxy(
-            cute.arch.ProxyKind.async_shared,
-            space=cute.arch.SharedSpace.shared_cta,
-        )
+        cute.arch.fence_proxy("async.shared", space="cta")
 
     @cute.jit
     def run(
 
@@ -19,11 +19,22 @@
 each helper as ``k_block != 0 or accumulate``, making it deterministic from
 the parameter and inner loop index. Callers compute the parameter from their
 own loop position — never from ``tiled_mma.get()`` after a sub-method return.
+
+Inner k-block loops use ``cutlass.range_constexpr`` (compile-time unrolled)
+for maximum tcgen05 MMA dispatch throughput.  Each GEMM helper constructs
+its own local ``TiledMma`` via ``make_trivial_tiled_mma`` so that the
+``.set(ACCUMULATE, ...)`` mutations stay inside the helper's frame and
+never leak SSA values across the persistent tile-scheduler ``while`` loop
+in ``run()``.  Same isolation pattern the compute role and the FP8 MMA
+role (mla_mma_fp8.py) already use.
 """
 
+from typing import Type
+
 import cutlass
 import cutlass.cute as cute
 import cutlass.cute.nvgpu.tcgen05 as tcgen05
+import cutlass.utils.blackwell_helpers as sm100_utils
 from cutlass.pipeline import PipelineProducer, PipelineConsumer
 from types import SimpleNamespace
 
@@ -56,6 +67,56 @@ def __init__(self, config: MLAConfig, mainloop: MLAMainloopSpec):
         self.iterations_pv_n = config.iterations_pv_n
         self.enable_pdl = config.enable_pdl
         self.is_var_split_kv = config.is_var_split_kv
+        self.use_2cta_instrs = config.use_2cta_instrs
+        self.acc_dtype = config.acc_dtype
+        # self.q_dtype and self.v_dtype are populated by set_dtypes() — the
+        # operand element types are only known at __call__ time on the kernel.
+
+    def set_dtypes(
+        self,
+        q_dtype: Type[cutlass.Numeric],
+        v_dtype: Type[cutlass.Numeric],
+    ) -> None:
+        """Set tensor element types discovered at call time.
+
+        Required so the GEMM helpers can reconstruct local TiledMma
+        instances via ``make_trivial_tiled_mma``.
+        """
+        self.q_dtype: Type[cutlass.Numeric] = q_dtype
+        self.v_dtype: Type[cutlass.Numeric] = v_dtype
+
+    @cute.jit
+    def _make_local_qk_mma(self) -> cute.TiledMma:
+        """Fresh QK TiledMma — mutations on this instance never escape the
+        helper that constructs it, so the inner k-block loop can use
+        ``range_constexpr`` without leaking SSA values into the enclosing
+        persistent ``while`` loop in ``run()``."""
+        cta_group = (
+            tcgen05.CtaGroup.TWO if self.use_2cta_instrs else tcgen05.CtaGroup.ONE
+        )
+        return sm100_utils.make_trivial_tiled_mma(
+            self.q_dtype,
+            tcgen05.OperandMajorMode.K,
+            tcgen05.OperandMajorMode.K,
+            self.acc_dtype,
+            cta_group,
+            self.mma_qk_tiler[:2],
+        )
+
+    @cute.jit
+    def _make_local_pv_mma(self) -> cute.TiledMma:
+        """Fresh PV TiledMma — same isolation rationale as ``_make_local_qk_mma``."""
+        cta_group = (
+            tcgen05.CtaGroup.TWO if self.use_2cta_instrs else tcgen05.CtaGroup.ONE
+        )
+        return sm100_utils.make_trivial_tiled_mma(
+            self.v_dtype,
+            tcgen05.OperandMajorMode.K,
+            tcgen05.OperandMajorMode.MN,
+            self.acc_dtype,
+            cta_group,
+            self.mma_pv_tiler[:2],
+        )
 
     # ------------------------------------------------------------------
     #  Tile count
@@ -97,30 +158,32 @@ def _get_k_tile_count(
     #  state back via TiledMma mutations (they would be invisible to the
     #  caller due to SSA pass-by-value at the @cute.jit boundary).
     #
-    #  Inner k-block loops use ``cutlass.range()`` (dynamic scf.for),
-    #  NOT ``cutlass.range_constexpr()`` (compile-time unroll).
-    #  range_constexpr unrolls tiled_mma.set() calls into the enclosing
-    #  scope, producing SSA values that leak across dynamic while-loop
-    #  yields. range() keeps the .set() inside an scf.for scope where
-    #  SSA carry-through is handled correctly.
+    #  Inner k-block loops use ``cutlass.range_constexpr`` (compile-time
+    #  unrolled) for maximum tcgen05 MMA dispatch throughput.  To prevent
+    #  the unrolled ``tiled_mma.set(ACCUMULATE, ...)`` mutations from
+    #  leaking SSA values into the enclosing persistent ``while`` loop
+    #  in ``run()`` (which would cause SSA-dominance failures), each
+    #  helper constructs a fresh local TiledMma via
+    #  ``make_trivial_tiled_mma`` and mutates that local instance only.
+    #  The caller's TiledMma is never touched by the helper.
     # ------------------------------------------------------------------
 
     @cute.jit
     def _gemm_qk_latent_one_stage(
         self,
         qk_params: SimpleNamespace,
-        tiled_mma_qk: cute.TiledMma,
         s_stage_index: cutlass.Int32,
         kv_stage_index: cutlass.Int32,
         q_stage: int,
         accumulate: bool,
     ):
         """Compute one QK-latent stage: inner k-block GEMM loop."""
+        local_mma = self._make_local_qk_mma()
         tStS = qk_params.tStS_staged[None, None, None, s_stage_index]
-        for k_block in cutlass.range(cute.size(qk_params.tSrQ.shape[2])):
-            tiled_mma_qk.set(tcgen05.Field.ACCUMULATE, k_block != 0 or accumulate)
+        for k_block in cutlass.range_constexpr(cute.size(qk_params.tSrQ.shape[2])):
+            local_mma.set(tcgen05.Field.ACCUMULATE, k_block != 0 or accumulate)
             cute.gemm(
-                tiled_mma_qk,
+                local_mma,
                 tStS,
                 qk_params.tSrQ[None, None, k_block, q_stage],
                 qk_params.tSrKC[None, None, k_block, kv_stage_index],
@@ -131,18 +194,18 @@ def _gemm_qk_latent_one_stage(
     def _gemm_qk_rope_one_stage(
         self,
         qk_params: SimpleNamespace,
-        tiled_mma_qk: cute.TiledMma,
         s_stage_index: cutlass.Int32,
         kv_stage_index: cutlass.Int32,
         q_stage: int,
         accumulate: bool,
     ):
         """Compute one QK-rope stage: inner k-block GEMM loop."""
+        local_mma = self._make_local_qk_mma()
         tStS = qk_params.tStS_staged[None, None, None, s_stage_index]
-        for k_block in cutlass.range(self.rope_dim // tiled_mma_qk.shape_mnk[2]):
-            tiled_mma_qk.set(tcgen05.Field.ACCUMULATE, k_block != 0 or accumulate)
+        for k_block in cutlass.range_constexpr(self.rope_dim // local_mma.shape_mnk[2]):
+            local_mma.set(tcgen05.Field.ACCUMULATE, k_block != 0 or accumulate)
             cute.gemm(
-                tiled_mma_qk,
+                local_mma,
                 tStS,
                 qk_params.tSrQ_rope[None, None, k_block, q_stage],
                 qk_params.tSrKC[None, None, k_block, kv_stage_index],
@@ -153,19 +216,19 @@ def _gemm_qk_rope_one_stage(
     def _gemm_pv_one_stage(
         self,
         pv_params: SimpleNamespace,
-        tiled_mma_pv: cute.TiledMma,
         p_stage_index: cutlass.Int32,
         kv_stage_index: cutlass.Int32,
         p_stage: int,
         acc_stage: int,
         accumulate: bool,
     ):
         """Compute one PV stage: inner k-block GEMM loop."""
+        local_mma = self._make_local_pv_mma()
         tOtO = pv_params.tOtO_staged[None, None, None, acc_stage]
-        for k_block in cutlass.range(pv_params.tOrP.shape[2]):
-            tiled_mma_pv.set(tcgen05.Field.ACCUMULATE, k_block != 0 or accumulate)
+        for k_block in cutlass.range_constexpr(pv_params.tOrP.shape[2]):
+            local_mma.set(tcgen05.Field.ACCUMULATE, k_block != 0 or accumulate)
             cute.gemm(
-                tiled_mma_pv,
+                local_mma,
                 tOtO,
                 pv_params.tOrP[
                     None,
@@ -284,7 +347,6 @@ def run(
                         kv_handle = load_kv_consumer.wait_and_advance()
                         self._gemm_qk_latent_one_stage(
                             mma_qk_params,
-                            tiled_mma_qk,
                             s_handle.index,
                             kv_handle.index,
                             q_stage,
@@ -295,7 +357,6 @@ def run(
                         kv_handle = load_kv_consumer.wait_and_advance()
                         self._gemm_qk_rope_one_stage(
                             mma_qk_params,
-                            tiled_mma_qk,
                             s_handle.index,
                             kv_handle.index,
                             q_stage,
@@ -313,7 +374,6 @@ def run(
                             kv_handle = load_kv_consumer.wait_and_advance()
                             self._gemm_qk_latent_one_stage(
                                 mma_qk_params,
-                                tiled_mma_qk,
                                 s_handle.index,
                                 kv_handle.index,
                                 q_stage,
@@ -324,7 +384,6 @@ def run(
                             kv_handle = load_kv_consumer.wait_and_advance()
                             self._gemm_qk_rope_one_stage(
                                 mma_qk_params,
-                                tiled_mma_qk,
                                 s_handle.index,
                                 kv_handle.index,
                                 q_stage,
@@ -343,7 +402,6 @@ def run(
                                 kv_handle = load_kv_consumer.wait_and_advance()
                                 self._gemm_pv_one_stage(
                                     mma_pv_params,
-                                    tiled_mma_pv,
                                     p_handle.index,
                                     kv_handle.index,
                                     p_stage,
@@ -368,7 +426,6 @@ def run(
                             kv_handle = load_kv_consumer.wait_and_advance()
                             self._gemm_pv_one_stage(
                                 mma_pv_params,
-                                tiled_mma_pv,
                                 p_handle.index,
                                 kv_handle.index,
                                 p_stage,