fix(kv_pool): free blocks immediately on request finish in layerwise mode

ader47 · ader47 · commit cc8112d576b5 · 2026-06-23T01:37:04.000+08:00
AscendStoreConnector is SupportsHMA, so vLLM invokes
request_finished_all_groups (not request_finished). The HMA path missed
the layerwise early-return present in request_finished, so a layerwise
producer with saved tokens returned delay_free_blocks=True. vLLM then
deferred the free, but layerwise never records a sending event (only
touch_sending_mamba_blocks does), so update_connector_output never freed
those blocks -- GPU KV cache usage climbed monotonically to 100%.

Add the same `if self.use_layerwise: return False` guard so blocks are
freed immediately on request finish. This is safe because layerwise saves
each layer synchronously before the request finishes (save_kv_layer waits
on the last layer's save event).

Signed-off-by: F.Liu &lt;1661888967@qq.com&gt;
diff --git a/vllm_ascend/distributed/kv_transfer/kv_pool/ascend_store/pool_scheduler.py b/vllm_ascend/distributed/kv_transfer/kv_pool/ascend_store/pool_scheduler.py
@@ -1030,6 +1030,14 @@ def request_finished_all_groups(
         if self.kv_role == "kv_consumer" and not self.consumer_is_to_put:
             self._delayed_free_req_ids.discard(request.request_id)
             return False, None
+        if self.use_layerwise:
+            # Layerwise saves each layer synchronously before the request
+            # finishes (save_kv_layer waits on the last layer's save event),
+            # so blocks can be freed immediately. Delaying them here would
+            # leak: layerwise never records a sending event, so
+            # update_connector_output would never free these blocks.
+            self._delayed_free_req_ids.discard(request.request_id)
+            return False, None
         tracker = self._request_trackers.get(request.request_id)
         if tracker is not None and tracker.num_saved_tokens <= 0:
             self._delayed_free_req_ids.discard(request.request_id)