Remove vLLM max-num-seqs=5 bottleneck and align WVA thresholds to defaults

kahilam · kahilam · commit 000a7d1ccdc5 · 2026-04-05T19:33:54.000-07:00
The benchmark was deploying vLLM with --max-num-seqs=5 (only 5 concurrent
requests per pod), causing 2-3% KV cache utilization and ~1 RPS instead of
the expected 60-100% KV cache and ~9 RPS. Removing this allows vLLM to use
its default (256), matching the colleague's benchmark configuration.

Also aligns WVA saturation thresholds (kvSpareTrigger, queueSpareTrigger)
to chart defaults (0.1, 3) to match the colleague's setup.

Made-with: Cursor
diff --git a/.github/workflows/ci-benchmark.yaml b/.github/workflows/ci-benchmark.yaml
@@ -287,8 +287,8 @@ jobs:
           E2E_TESTS_ENABLED: "true"
           IMG: ${{ steps.build-image.outputs.image }}
           SKIP_BUILD: "true"
-          KV_SPARE_TRIGGER: "0.5"
-          QUEUE_SPARE_TRIGGER: "4.5"
+          KV_SPARE_TRIGGER: "0.1"
+          QUEUE_SPARE_TRIGGER: "3"
           INSTALL_GRAFANA: "true"
         run: make deploy-e2e-infra
 
@@ -302,8 +302,8 @@ jobs:
           BENCHMARK_GRAFANA_SNAPSHOT_FILE: /tmp/benchmark-grafana-snapshot.txt
           BENCHMARK_GRAFANA_SNAPSHOT_JSON: /tmp/benchmark-grafana-snapshot.json
           BENCHMARK_GRAFANA_PANEL_DIR: /tmp/benchmark-panels
-          KV_SPARE_TRIGGER: "0.5"
-          QUEUE_SPARE_TRIGGER: "4.5"
+          KV_SPARE_TRIGGER: "0.1"
+          QUEUE_SPARE_TRIGGER: "3"
         run: make test-benchmark
 
       - name: Upload benchmark results
@@ -550,12 +550,11 @@ jobs:
           CONTROLLER_INSTANCE: ${{ env.WVA_NAMESPACE }}
           DEPLOY_VA: "false"
           DEPLOY_HPA: "false"
-          VLLM_MAX_NUM_SEQS: "5"
           DECODE_REPLICAS: "1"
           MONITORING_NAMESPACE: openshift-user-workload-monitoring
           WVA_METRICS_SECURE: "false"
-          KV_SPARE_TRIGGER: "0.5"
-          QUEUE_SPARE_TRIGGER: "4.5"
+          KV_SPARE_TRIGGER: "0.1"
+          QUEUE_SPARE_TRIGGER: "3"
           VLLM_SVC_PORT: "8000"
           INSTALL_GRAFANA: "true"
         run: |
@@ -589,8 +588,8 @@ jobs:
           BENCHMARK_GRAFANA_SNAPSHOT_FILE: /tmp/benchmark-grafana-snapshot.txt
           BENCHMARK_GRAFANA_SNAPSHOT_JSON: /tmp/benchmark-grafana-snapshot.json
           BENCHMARK_GRAFANA_PANEL_DIR: /tmp/benchmark-panels
-          KV_SPARE_TRIGGER: "0.5"
-          QUEUE_SPARE_TRIGGER: "4.5"
+          KV_SPARE_TRIGGER: "0.1"
+          QUEUE_SPARE_TRIGGER: "3"
         run: |
           # Get token for Thanos querier
           export PROMETHEUS_TOKEN=$(kubectl create token prometheus-k8s -n openshift-monitoring --duration=24h 2>/dev/null || echo "")