Minor fix

yizhang-nv · yizhang-nv · commit ca6358706217 · 2025-12-23T21:04:46.000-08:00
Signed-off-by: yizhang-nv &lt;187001205+yizhang-nv@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/attention_backend/trtllm.py b/tensorrt_llm/_torch/attention_backend/trtllm.py
@@ -726,7 +726,6 @@ def _post_init_with_buffers(self, buffers) -> None:
                 capture_graph=capture_graph,
             )
             self.host_kv_cache_block_offsets = self.kv_cache_manager.host_kv_cache_block_offsets
-            assert self.host_kv_cache_block_offsets.shape == self.kv_cache_block_offsets.shape, f"host_kv_cache_block_offsets and kv_cache_block_offsets should have the same shape, but got {self.host_kv_cache_block_offsets.shape} and {self.kv_cache_block_offsets.shape}"
             self.block_ids_per_seq = None
             self.kv_block_ids_per_seq = None
             if self.enable_flash_mla:
diff --git a/tensorrt_llm/_torch/pyexecutor/resource_manager.py b/tensorrt_llm/_torch/pyexecutor/resource_manager.py
@@ -1506,11 +1506,12 @@ def append_to_kv_heads_per_layer(num_kv_heads_per_layer: List[int],
 
         self.enable_block_reuse = kv_cache_config.enable_block_reuse
 
-        self.index_mapper = IndexMapper(max_batch_size, max_beam_width)
+        # Plus 1 for cuda graph dummy request
+        self.index_mapper = IndexMapper(max_batch_size + 1, max_beam_width)
 
         self.host_kv_cache_block_offsets = torch.empty(
             self.num_pools,
-            max_batch_size * max_beam_width,
+            (max_batch_size + 1) * max_beam_width,
             2,  # key and value
             self.max_blocks_per_seq,
             dtype=torch.int32,

Original file line number	Diff line number	Diff line change
`@@ -726,7 +726,6 @@ def _post_init_with_buffers(self, buffers) -> None:`
`726`	`726`	`capture_graph=capture_graph,`
`727`	`727`	`)`
`728`	`728`	`self.host_kv_cache_block_offsets = self.kv_cache_manager.host_kv_cache_block_offsets`
`729`		`- assert self.host_kv_cache_block_offsets.shape == self.kv_cache_block_offsets.shape, f"host_kv_cache_block_offsets and kv_cache_block_offsets should have the same shape, but got {self.host_kv_cache_block_offsets.shape} and {self.kv_cache_block_offsets.shape}"`
`730`	`729`	`self.block_ids_per_seq = None`
`731`	`730`	`self.kv_block_ids_per_seq = None`
`732`	`731`	`if self.enable_flash_mla:`