fix(kv_pool): free blocks immediately on request finish in layerwise mode

ader47 · ader47 · commit 9990740a0722 · 2026-06-23T17:02:48.000+08:00
AscendStoreConnector is SupportsHMA, so vLLM invokes
request_finished_all_groups (not request_finished). The HMA path missed
the layerwise early-return present in request_finished, so a layerwise
producer with saved tokens returned delay_free_blocks=True. vLLM then
deferred the free, but layerwise never records a sending event (only
touch_sending_mamba_blocks does), so update_connector_output never freed
those blocks -- GPU KV cache usage climbed monotonically to 100%.

Add the same `if self.use_layerwise: return False` guard so blocks are
freed immediately on request finish. This is safe because layerwise saves
each layer synchronously before the request finishes (save_kv_layer waits
on the last layer's save event).

Signed-off-by: F.Liu &lt;1661888967@qq.com&gt;
diff --git a/vllm_ascend/distributed/kv_transfer/kv_pool/ascend_store/pool_scheduler.py b/vllm_ascend/distributed/kv_transfer/kv_pool/ascend_store/pool_scheduler.py
@@ -1030,6 +1030,10 @@ def request_finished_all_groups(
         if self.kv_role == "kv_consumer" and not self.consumer_is_to_put:
             self._delayed_free_req_ids.discard(request.request_id)
             return False, None
+        if self.use_layerwise:
+            # Free now: layerwise records no sending event, so delay-free would leak.
+            self._delayed_free_req_ids.discard(request.request_id)
+            return False, None
         tracker = self._request_trackers.get(request.request_id)
         if tracker is not None and tracker.num_saved_tokens <= 0:
             self._delayed_free_req_ids.discard(request.request_id)