Commit

bkryu · bkryu · commit e16e85bf27a1 · 2026-04-20T23:51:32.000Z
diff --git a/flashinfer/fused_moe/cute_dsl/blackwell_sm12x/moe_dynamic_kernel.py b/flashinfer/fused_moe/cute_dsl/blackwell_sm12x/moe_dynamic_kernel.py
@@ -89,8 +89,8 @@
     st_global_u64,
     scatter_add_bf16x2,
 )
-from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120 import (
-    Sm120BlockScaledDenseGemmKernel as DenseGemmKernel,
+from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120_b12x import (
+    Sm120B12xBlockScaledDenseGemmKernel as DenseGemmKernel,
 )
 
 
diff --git a/flashinfer/fused_moe/cute_dsl/blackwell_sm12x/moe_micro_kernel.py b/flashinfer/fused_moe/cute_dsl/blackwell_sm12x/moe_micro_kernel.py
@@ -122,8 +122,8 @@
     st_global_u64,
     scatter_add_bf16x2,
 )
-from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120 import (
-    Sm120BlockScaledDenseGemmKernel as DenseGemmKernel,
+from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120_b12x import (
+    Sm120B12xBlockScaledDenseGemmKernel as DenseGemmKernel,
 )
 
 
diff --git a/flashinfer/fused_moe/cute_dsl/blackwell_sm12x/moe_static_kernel.py b/flashinfer/fused_moe/cute_dsl/blackwell_sm12x/moe_static_kernel.py
@@ -120,8 +120,8 @@
     st_global_u64,
     scatter_add_bf16x2,
 )
-from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120 import (
-    Sm120BlockScaledDenseGemmKernel as DenseGemmKernel,
+from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120_b12x import (
+    Sm120B12xBlockScaledDenseGemmKernel as DenseGemmKernel,
 )
 
 
diff --git a/flashinfer/gemm/__init__.py b/flashinfer/gemm/__init__.py
@@ -61,11 +61,11 @@
     from flashinfer.cute_dsl.utils import is_cute_dsl_available
 
     if is_cute_dsl_available():
-        from .kernels.dense_blockscaled_gemm_sm120 import (
-            Sm120BlockScaledDenseGemmKernel as Sm120BlockScaledDenseGemmKernel,
+        from .kernels.dense_blockscaled_gemm_sm120_b12x import (
+            Sm120B12xBlockScaledDenseGemmKernel as Sm120B12xBlockScaledDenseGemmKernel,
         )
 
-        _cute_dsl_kernels.append("Sm120BlockScaledDenseGemmKernel")
+        _cute_dsl_kernels.append("Sm120B12xBlockScaledDenseGemmKernel")
 except ImportError:
     pass
 
diff --git a/flashinfer/gemm/gemm_base.py b/flashinfer/gemm/gemm_base.py
@@ -4858,8 +4858,8 @@ def _b12x_gemm_fp4_runner(
     """
     import cutlass
 
-    from .kernels.dense_blockscaled_gemm_sm120 import (
-        Sm120BlockScaledDenseGemmKernel,
+    from .kernels.dense_blockscaled_gemm_sm120_b12x import (
+        Sm120B12xBlockScaledDenseGemmKernel,
     )
 
     cutlass_dtype_attr = _TORCH_TO_CUTLASS_DTYPE_ATTR.get(out_dtype)
@@ -4905,7 +4905,7 @@ def get_valid_tactics(
             ]
             swap_ab = False
             for mma_tiler_mn in sm120_mma_tiler_candidates:
-                if not Sm120BlockScaledDenseGemmKernel.can_implement(
+                if not Sm120B12xBlockScaledDenseGemmKernel.can_implement(
                     ab_dtype,
                     sf_dtype,
                     sf_vec_size,
@@ -4945,11 +4945,10 @@ def forward(
             batch_size = 1
 
             if tactic is None or tactic == -1:
-                _sm_count = torch.cuda.get_device_properties(
-                    a.device
-                ).multi_processor_count
                 tactic = (
-                    _select_default_sm120_mma_tiler(m, n, _sm_count),
+                    _select_default_sm120_mma_tiler(
+                        m, n, get_device_sm_count(a.device)
+                    ),
                     (1, 1),
                     False,
                     False,
@@ -4987,7 +4986,7 @@ def forward(
                 out_dtype,
             )
 
-            make_kernel = lambda: Sm120BlockScaledDenseGemmKernel(
+            make_kernel = lambda: Sm120B12xBlockScaledDenseGemmKernel(
                 sf_vec_size,
                 mma_tiler_mn,
                 cluster_shape_mn,
diff --git a/flashinfer/gemm/kernels/dense_blockscaled_gemm_sm120_b12x.py b/flashinfer/gemm/kernels/dense_blockscaled_gemm_sm120_b12x.py
@@ -1550,7 +1550,7 @@ def wrapper(
 
 
 # Alias for FlashInfer integration
-Sm120BlockScaledDenseGemmKernel = DenseGemmKernel
+Sm120B12xBlockScaledDenseGemmKernel = DenseGemmKernel
 
 
 class _DenseGemmLaunch:

Original file line number	Diff line number	Diff line change
`@@ -89,8 +89,8 @@`
`89`	`89`	`st_global_u64,`
`90`	`90`	`scatter_add_bf16x2,`
`91`	`91`	`)`
`92`		`-from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120 import (`
`93`		`- Sm120BlockScaledDenseGemmKernel as DenseGemmKernel,`
	`92`	`+from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120_b12x import (`
	`93`	`+ Sm120B12xBlockScaledDenseGemmKernel as DenseGemmKernel,`
`94`	`94`	`)`
`95`	`95`
`96`	`96`
Original file line number	Diff line number	Diff line change
`@@ -122,8 +122,8 @@`
`122`	`122`	`st_global_u64,`
`123`	`123`	`scatter_add_bf16x2,`
`124`	`124`	`)`
`125`		`-from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120 import (`
`126`		`- Sm120BlockScaledDenseGemmKernel as DenseGemmKernel,`
	`125`	`+from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120_b12x import (`
	`126`	`+ Sm120B12xBlockScaledDenseGemmKernel as DenseGemmKernel,`
`127`	`127`	`)`
`128`	`128`
`129`	`129`
Original file line number	Diff line number	Diff line change
`@@ -120,8 +120,8 @@`
`120`	`120`	`st_global_u64,`
`121`	`121`	`scatter_add_bf16x2,`
`122`	`122`	`)`
`123`		`-from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120 import (`
`124`		`- Sm120BlockScaledDenseGemmKernel as DenseGemmKernel,`
	`123`	`+from flashinfer.gemm.kernels.dense_blockscaled_gemm_sm120_b12x import (`
	`124`	`+ Sm120B12xBlockScaledDenseGemmKernel as DenseGemmKernel,`
`125`	`125`	`)`
`126`	`126`
`127`	`127`