Use same measuring approach

bkryu · bkryu · commit 90d18a66e91a · 2026-02-03T18:39:52.000Z
diff --git a/benchmarks/bench_trtllm_gen_mla.py b/benchmarks/bench_trtllm_gen_mla.py
@@ -82,7 +82,7 @@ def bench_trtllm_mla(batch_size, q_len_per_request, seq_len, page_size, dtype):
         bmm1_scale=1.0 / ((128 + 64) ** 0.5),
         bmm2_scale=1.0,
     )
-    # benchmark using CUPTI
+    # benchmark
     measurements = bench_gpu_time(
         lambda: flashinfer.decode.trtllm_batch_decode_with_kv_cache_mla(
             query=query,

Original file line number	Diff line number	Diff line change
`@@ -82,7 +82,7 @@ def bench_trtllm_mla(batch_size, q_len_per_request, seq_len, page_size, dtype):`
`82`	`82`	`bmm1_scale=1.0 / ((128 + 64) ** 0.5),`
`83`	`83`	`bmm2_scale=1.0,`
`84`	`84`	`)`
`85`		`- # benchmark using CUPTI`
	`85`	`+ # benchmark`
`86`	`86`	`measurements = bench_gpu_time(`
`87`	`87`	`lambda: flashinfer.decode.trtllm_batch_decode_with_kv_cache_mla(`
`88`	`88`	`query=query,`