compat(dp,kv): drop removed DPMetadata.max_tokens_across_dp_cpu; add apply_admission_cap param

rebel-jinhwan · claude · rebel-eunji · commit bab39ce81aea · 2026-06-11T10:22:23.000+09:00
- vLLM 0.22 removed DPMetadata.max_tokens_across_dp_cpu; the max is
  derivable from num_tokens_across_dp_cpu and has no consumers here.
- RBLNSlidingWindowManager: accept apply_admission_cap kwarg.

Co-Authored-By: Claude Fable 5 &lt;noreply@anthropic.com&gt;
diff --git a/vllm_rbln/forward_context.py b/vllm_rbln/forward_context.py
@@ -166,7 +166,6 @@ def make(
             num_tokens_across_dp_cpu = num_tokens_across_dp
             max_pad = num_padded_tokens
 
-            max_tokens_across_dp_cpu = torch.max(num_tokens_across_dp_cpu)
             max_pads_across_dp = torch.empty(max_pad, device="cpu")
         else:
             assert num_tokens_across_dp is None, (
@@ -178,11 +177,9 @@ def make(
             num_tokens_across_dp_cpu = torch.tensor(
                 [num_tokens], device="cpu", dtype=torch.int32
             )
-            max_tokens_across_dp_cpu = num_tokens
             max_pads_across_dp = None
 
         return RBLNDPMetadata(
-            max_tokens_across_dp_cpu,
             num_tokens_across_dp_cpu,
             max_pads_across_dp=max_pads_across_dp,
         )
@@ -221,7 +218,6 @@ def _set_forward_context(
             num_padded_tokens,
         )
 
-    # NOTE: vLLM v0.22 removed the virtual_engine parameter
     forward_context = create_forward_context(
         attn_metadata,
         vllm_config,
diff --git a/vllm_rbln/v1/kv_cache.py b/vllm_rbln/v1/kv_cache.py
@@ -53,6 +53,7 @@ def get_num_blocks_to_allocate(
         new_computed_blocks: Sequence[KVCacheBlock],
         total_computed_tokens: int,
         num_tokens_main_model: int,
+        apply_admission_cap: bool = False,
     ) -> int:
         return 0 if self.req_to_blocks[request_id] else 1