add vLLMCacheHitRate printf

starpit · starpit · commit 3723b4b92228 · 2025-12-18T13:04:39.000-05:00
Signed-off-by: Nick Mitchell &lt;nickm@us.ibm.com&gt;
diff --git a/vllm/v1/core/kv_cache_manager.py b/vllm/v1/core/kv_cache_manager.py
@@ -203,6 +203,7 @@ def get_computed_blocks(self, request: Request) -> tuple[KVCacheBlocks, int]:
                 request.block_hashes, max_cache_hit_length
             )
         )
+        print(f"vLLMCacheHitRate {100*(num_new_computed_tokens/(len(request.block_hashes)*self.block_size)):.2f}% computed={num_new_computed_tokens} requested={len(request.block_hashes)*self.block_size}", flush=True)
 
         if self.log_stats:
             assert self.prefix_cache_stats is not None

Original file line number	Diff line number	Diff line change
`@@ -203,6 +203,7 @@ def get_computed_blocks(self, request: Request) -> tuple[KVCacheBlocks, int]:`
`203`	`203`	`request.block_hashes, max_cache_hit_length`
`204`	`204`	`)`
`205`	`205`	`)`
	`206`	`+ print(f"vLLMCacheHitRate {100(num_new_computed_tokens/(len(request.block_hashes)self.block_size)):.2f}% computed={num_new_computed_tokens} requested={len(request.block_hashes)*self.block_size}", flush=True)`
`206`	`207`
`207`	`208`	`if self.log_stats:`
`208`	`209`	`assert self.prefix_cache_stats is not None`