llm-d
diff --git a/‎Makefile‎
Lines changed: 2 additions & 0 deletions b/‎Makefile‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎deploy/README.md‎
Lines changed: 17 additions & 6 deletions b/‎deploy/README.md‎
Lines changed: 17 additions & 6 deletions
diff --git a/‎deploy/inference-objective-e2e.yaml‎
Lines changed: 2 additions & 2 deletions b/‎deploy/inference-objective-e2e.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎deploy/install.sh‎
Lines changed: 9 additions & 7 deletions b/‎deploy/install.sh‎
Lines changed: 9 additions & 7 deletions
diff --git a/‎deploy/kind-emulator/README.md‎
Lines changed: 5 additions & 1 deletion b/‎deploy/kind-emulator/README.md‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎deploy/kind-emulator/install.sh‎
Lines changed: 19 additions & 88 deletions b/‎deploy/kind-emulator/install.sh‎
Lines changed: 19 additions & 88 deletions
diff --git a/‎deploy/kubernetes/README.md‎
Lines changed: 10 additions & 3 deletions b/‎deploy/kubernetes/README.md‎
Lines changed: 10 additions & 3 deletions
@@ -27,6 +27,8 @@ E2E_MONITORING_NAMESPACE    ?= workload-variant-autoscaler-monitoring
 E2E_EMULATED_LLMD_NAMESPACE ?= llm-d-sim
 
 # Flags for deploy/install.sh installation script
+# Full e2e / CI-style cluster infra (WVA + llm-d, no chart VA/HPA): prefer `make deploy-e2e-infra`
+# (wraps ./deploy/install.sh with INFRA_ONLY=true; set ENVIRONMENT=kubernetes|openshift|kind-emulator).
 CREATE_CLUSTER ?= false
 DEPLOY_LLM_D ?= true
 DELETE_CLUSTER ?= false
 
@@ -139,8 +139,8 @@ export DEPLOY_PROMETHEUS=true               # Deploy Prometheus stack
 export DEPLOY_WVA=true                      # Deploy WVA controller
 export DEPLOY_LLM_D=true                    # Deploy llm-d infrastructure
 export DEPLOY_PROMETHEUS_ADAPTER=true       # Deploy Prometheus Adapter
-export DEPLOY_VA=true                       # Deploy VariantAutoscaling CR
-export DEPLOY_HPA=true                      # Deploy HPA
+export DEPLOY_VA=true                       # Chart-managed VariantAutoscaling (default off; e2e often creates its own)
+export DEPLOY_HPA=true                      # Chart-managed HPA (default off; enable with DEPLOY_VA for demos)
 
 # HPA Configuration
 export HPA_STABILIZATION_SECONDS=240        # HPA stabilization window (default: 240s)
@@ -188,6 +188,9 @@ bash install.sh
 
 ```bash
 export HF_TOKEN="hf_xxxxx"
+# Optional: chart-managed VA + HPA for a single-variant demo (install.sh defaults skip these)
+export DEPLOY_VA=true
+export DEPLOY_HPA=true
 make deploy-wva-on-k8s
 ```
 
@@ -198,6 +201,8 @@ export HF_TOKEN="hf_xxxxx"
 export MODEL_ID="meta-llama/Llama-2-7b-hf"
 export SLO_TPOT=5
 export SLO_TTFT=500
+export DEPLOY_VA=true
+export DEPLOY_HPA=true
 make deploy-wva-on-k8s
 ```
 
@@ -208,6 +213,7 @@ export DEPLOY_WVA=true
 export DEPLOY_LLM_D=false
 export DEPLOY_PROMETHEUS=true  # Prometheus is needed for metrics - disable if it is already installed in your cluster
 export DEPLOY_PROMETHEUS_ADAPTER=false
+export DEPLOY_VA=true          # Create a VariantAutoscaling CR for the existing model service
 export DEPLOY_HPA=false
 make deploy-wva-on-k8s
 ```
@@ -216,6 +222,8 @@ make deploy-wva-on-k8s
 
 ```bash
 export HF_TOKEN="hf_xxxxx"
+export DEPLOY_VA=true
+export DEPLOY_HPA=true
 export HPA_STABILIZATION_SECONDS=30  # Fast scaling for dev/test (default: 240)
 make deploy-wva-on-k8s
 ```
@@ -224,9 +232,10 @@ make deploy-wva-on-k8s
 
 ```bash
 export HF_TOKEN="hf_xxxxx"
-export HPA_STABILIZATION_SECONDS=0   # Immediate scaling for e2e tests
-export VLLM_MAX_NUM_SEQS=8          # Low batch size for easy saturation
 export E2E_TESTS_ENABLED=true
+export INFRA_ONLY=true               # Tests create VA/HPA; see also make deploy-e2e-infra
+export HPA_STABILIZATION_SECONDS=0   # Only applies if chart HPA is enabled
+export VLLM_MAX_NUM_SEQS=8           # Low batch size for easy saturation
 make deploy-wva-on-k8s
 ```
 
@@ -236,6 +245,8 @@ make deploy-wva-on-k8s
 export HF_TOKEN="hf_xxxxx"
 export VLLM_MAX_NUM_SEQS=64         # Match desired max batch size
 export MODEL_ID="unsloth/Meta-Llama-3.1-8B"
+export DEPLOY_VA=true
+export DEPLOY_HPA=true
 make deploy-wva-on-k8s
 ```
 
@@ -650,8 +661,8 @@ Each guide includes platform-specific examples, troubleshooting, and quick start
 | `DEPLOY_WVA` | Deploy WVA controller | `true` |
 | `DEPLOY_LLM_D` | Deploy llm-d infrastructure | `true` |
 | `DEPLOY_PROMETHEUS_ADAPTER` | Deploy Prometheus Adapter | `true` |
-| `DEPLOY_VA` | Deploy VariantAutoscaling CR | `true` |
-| `DEPLOY_HPA` | Deploy HPA | `true` |
+| `DEPLOY_VA` | Deploy VariantAutoscaling CR via WVA Helm chart | `false` |
+| `DEPLOY_HPA` | Deploy HPA via WVA Helm chart | `false` |
 | `INFRA_ONLY` | Deploy only infrastructure (skip VA/HPA) | `false` |
 | `SKIP_CHECKS` | Skip prerequisite checks | `false` |
 
 
@@ -1,5 +1,5 @@
-# InferenceObjective for GIE queuing (scale-from-zero e2e and flow control).
-# Applied when E2E_TESTS_ENABLED or ENABLE_SCALE_TO_ZERO is true.
+# InferenceObjective for GIE queuing (scale-from-zero flow control).
+# install.sh applies this when ENABLE_SCALE_TO_ZERO=true and not E2E (e2e applies e2e-default from Go).
 # poolRef.name is templated by install.sh to match the deployed InferencePool.
 apiVersion: inference.networking.x-k8s.io/v1alpha2
 kind: InferenceObjective
 
@@ -92,8 +92,10 @@ DEPLOY_PROMETHEUS=${DEPLOY_PROMETHEUS:-true}
 DEPLOY_WVA=${DEPLOY_WVA:-true}
 DEPLOY_LLM_D=${DEPLOY_LLM_D:-true}
 DEPLOY_PROMETHEUS_ADAPTER=${DEPLOY_PROMETHEUS_ADAPTER:-true}
-DEPLOY_VA=${DEPLOY_VA:-true}
-DEPLOY_HPA=${DEPLOY_HPA:-true}
+# Infra-first: chart-managed VariantAutoscaling / HPA are opt-in (e2e and operators
+# typically create their own CRs). Set DEPLOY_VA=true and DEPLOY_HPA=true for a demo stack.
+DEPLOY_VA=${DEPLOY_VA:-false}
+DEPLOY_HPA=${DEPLOY_HPA:-false}
 HPA_STABILIZATION_SECONDS=${HPA_STABILIZATION_SECONDS:-240}
 # HPA minReplicas: 0 enables scale-to-zero (requires HPAScaleToZero feature gate)
 # Default to 1 for safety; set to 0 for scale-to-zero testing
@@ -251,8 +253,8 @@ Environment Variables:
   DEPLOY_WVA                   Deploy WVA controller (default: true)
   DEPLOY_LLM_D                 Deploy llm-d infrastructure (default: true)
   DEPLOY_PROMETHEUS_ADAPTER    Deploy Prometheus Adapter (default: true)
-  DEPLOY_VA                    Deploy VariantAutoscaling (default: true)
-  DEPLOY_HPA                   Deploy HPA (default: true)
+  DEPLOY_VA                    Deploy VariantAutoscaling via chart (default: false)
+  DEPLOY_HPA                   Deploy HPA via chart (default: false)
   HPA_STABILIZATION_SECONDS    HPA stabilization window in seconds (default: 240)
   HPA_MIN_REPLICAS             HPA minReplicas (default: 1, set to 0 for scale-to-zero)
   INFRA_ONLY                   Deploy only infrastructure (default: false, same as --infra-only flag)
@@ -1067,9 +1069,9 @@ deploy_llm_d_infrastructure() {
         fi
     fi
 
-    # Deploy InferenceObjective for GIE queuing when flow control is enabled (scale-from-zero / e2e).
-    # Enables gateway-level queuing so inference_extension_flow_control_queue_size is populated.
-    if [ "$ENABLE_SCALE_TO_ZERO" == "true" ] || [ "$E2E_TESTS_ENABLED" == "true" ]; then
+    # Deploy InferenceObjective for GIE queuing when flow control is enabled (scale-from-zero).
+    # E2E applies e2e-default from Go (test/e2e/fixtures) so tests do not depend on install.sh for this CR.
+    if [ "$E2E_TESTS_ENABLED" != "true" ] && [ "$ENABLE_SCALE_TO_ZERO" == "true" ]; then
         if kubectl get crd inferenceobjectives.inference.networking.x-k8s.io &>/dev/null; then
             local infobj_file="${WVA_PROJECT}/deploy/inference-objective-e2e.yaml"
             if [ -f "$infobj_file" ]; then
 
@@ -72,7 +72,8 @@ export DEPLOY_PROMETHEUS=true         # Deploy Prometheus stack
 export DEPLOY_WVA=true                # Deploy WVA controller
 export DEPLOY_LLM_D=true              # Deploy llm-d infrastructure (emulated)
 export DEPLOY_PROMETHEUS_ADAPTER=true # Deploy Prometheus Adapter
-export DEPLOY_HPA=true                # Deploy HPA
+export DEPLOY_VA=true                 # Opt in: chart VariantAutoscaling (default in script: false)
+export DEPLOY_HPA=true                # Opt in: chart HPA (default in script: false)
 ```
 
 ### Step-by-Step Setup
@@ -97,6 +98,7 @@ export DEPLOY_LLM_D=false
 export DEPLOY_PROMETHEUS=true # Prometheus is needed for WVA to scrape metrics
 export VLLM_SVC_ENABLED=true
 export DEPLOY_PROMETHEUS_ADAPTER=false
+export DEPLOY_VA=false
 export DEPLOY_HPA=false
 make deploy-wva-emulated-on-kind
 ```
@@ -110,6 +112,8 @@ make deploy-wva-emulated-on-kind
 **4. Testing configuration with fast saturation:**
 
 ```bash
+export DEPLOY_VA=true
+export DEPLOY_HPA=true
 export VLLM_MAX_NUM_SEQS=8              # Low batch size for easy saturation
 export HPA_STABILIZATION_SECONDS=30     # Fast scaling for testing
 make deploy-wva-emulated-on-kind
 
@@ -207,75 +207,29 @@ load_image() {
     log_success "Image '$WVA_IMAGE_REPO:$WVA_IMAGE_TAG' loaded into KIND cluster '$CLUSTER_NAME'"
 }
 
+materialize_namespace() {
+    kubectl create namespace "$1"
+}
+
 #### REQUIRED FUNCTION used by deploy/install.sh ####
 create_namespaces() {
-    log_info "Creating namespaces..."
-    
-    for ns in $WVA_NS $MONITORING_NAMESPACE $LLMD_NS; do
-        if kubectl get namespace $ns &> /dev/null; then
-            log_warning "Namespace $ns already exists"
-        else
-            kubectl create namespace $ns
-            log_success "Namespace $ns created"
-        fi
-    done
+    local _deploy_lib_dir
+    _deploy_lib_dir="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)/../lib"
+    # shellcheck source=create_namespaces.sh
+    source "${_deploy_lib_dir}/create_namespaces.sh"
+    create_namespaces_shared_loop
 }
 
+_wva_deploy_lib="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)/../lib"
+# shellcheck source=deploy_prometheus_kube_stack.sh
+source "${_wva_deploy_lib}/deploy_prometheus_kube_stack.sh"
+# shellcheck source=delete_namespaces_kube_like.sh
+source "${_wva_deploy_lib}/delete_namespaces_kube_like.sh"
+
 #### REQUIRED FUNCTION used by deploy/install.sh ####
-# Deploy Prometheus stack with TLS for Kubernetes
+# Deploy Prometheus stack with TLS (shared with deploy/kubernetes/install.sh)
 deploy_prometheus_stack() {
-    log_info "Deploying kube-prometheus-stack with TLS..."
-    
-    # Add helm repo
-    helm repo add prometheus-community https://prometheus-community.github.io/helm-charts || true
-    if [ "${SKIP_HELM_REPO_UPDATE:-}" = "true" ]; then
-        log_info "Skipping helm repo update (SKIP_HELM_REPO_UPDATE=true)"
-    else
-        helm repo update
-    fi
-    
-    # Create self-signed TLS certificate for Prometheus
-    log_info "Creating self-signed TLS certificate for Prometheus"
-    openssl req -x509 -newkey rsa:2048 -nodes \
-        -keyout /tmp/prometheus-tls.key \
-        -out /tmp/prometheus-tls.crt \
-        -days 365 \
-        -subj "/CN=prometheus" \
-        -addext "subjectAltName=DNS:kube-prometheus-stack-prometheus.${MONITORING_NAMESPACE}.svc.cluster.local,DNS:kube-prometheus-stack-prometheus.${MONITORING_NAMESPACE}.svc,DNS:prometheus,DNS:localhost" \
-        &> /dev/null
-    
-    # Create Kubernetes secret with TLS certificate
-    log_info "Creating Kubernetes secret for Prometheus TLS"
-    kubectl create secret tls $PROMETHEUS_SECRET_NAME \
-        --cert=/tmp/prometheus-tls.crt \
-        --key=/tmp/prometheus-tls.key \
-        -n $MONITORING_NAMESPACE \
-        --dry-run=client -o yaml | kubectl apply -f - &> /dev/null
-    
-    # Clean up temp files
-    rm -f /tmp/prometheus-tls.{key,crt}
-    
-    # Install kube-prometheus-stack with TLS enabled
-    # Disable Grafana and Alertmanager — WVA only needs Prometheus for metrics collection.
-    # Use a 10m timeout — 5m is insufficient on busy clusters (e.g. CKS with preemption).
-    log_info "Installing kube-prometheus-stack with TLS configuration"
-    helm upgrade --install kube-prometheus-stack prometheus-community/kube-prometheus-stack \
-        -n $MONITORING_NAMESPACE \
-        --set prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=false \
-        --set prometheus.prometheusSpec.podMonitorSelectorNilUsesHelmValues=false \
-        --set prometheus.service.type=ClusterIP \
-        --set prometheus.service.port=$PROMETHEUS_PORT \
-        --set prometheus.prometheusSpec.web.tlsConfig.cert.secret.name=$PROMETHEUS_SECRET_NAME \
-        --set prometheus.prometheusSpec.web.tlsConfig.cert.secret.key=tls.crt \
-        --set prometheus.prometheusSpec.web.tlsConfig.keySecret.name=$PROMETHEUS_SECRET_NAME \
-        --set prometheus.prometheusSpec.web.tlsConfig.keySecret.key=tls.key \
-        --set grafana.enabled=false \
-        --set alertmanager.enabled=false \
-        --timeout=10m \
-        --wait
-    
-    log_success "kube-prometheus-stack deployed with TLS"
-    log_info "Prometheus URL: $PROMETHEUS_URL"
+    deploy_prometheus_kube_stack
 }
 
 # REQUIRED FUNCTION - only for emulated environments ####
@@ -317,36 +271,13 @@ apply_llm_d_infrastructure_fixes() {
     fi
 }
 
-# Kubernetes-specific Undeployment functions
 undeploy_prometheus_stack() {
-    log_info "Uninstalling kube-prometheus-stack..."
-    
-    helm uninstall kube-prometheus-stack -n $MONITORING_NAMESPACE 2>/dev/null || \
-        log_warning "Prometheus stack not found or already uninstalled"
-
-    kubectl delete secret $PROMETHEUS_SECRET_NAME -n $MONITORING_NAMESPACE --ignore-not-found
-
-    log_success "Prometheus stack uninstalled"
+    undeploy_prometheus_kube_stack
 }
 
 #### REQUIRED FUNCTION used by deploy/install.sh ####
 delete_namespaces() {
-    log_info "Deleting namespaces..."
-    
-    for ns in $LLMD_NS $WVA_NS $MONITORING_NAMESPACE; do
-        if kubectl get namespace $ns &> /dev/null; then
-            if [[ "$ns" == "$LLMD_NS" && "$DEPLOY_LLM_D" == "false" ]] || [[ "$ns" == "$WVA_NS" && "$DEPLOY_WVA" == "false" ]] || [[ "$ns" == "$MONITORING_NAMESPACE" && "$DEPLOY_PROMETHEUS" == "false" ]] ; then
-                log_info "Skipping deletion of namespace $ns as it was not deployed"
-            else 
-                log_info "Deleting namespace $ns..."
-                kubectl delete namespace $ns 2>/dev/null || \
-                    log_warning "Failed to delete namespace $ns"
-            fi
-        fi
-    done
-    
-    log_success "Namespaces deleted"
-
+    delete_namespaces_kube_like
     if [ "$DELETE_CLUSTER" = true ]; then
         delete_kind_cluster
     fi
 
@@ -118,7 +118,8 @@ export DEPLOY_PROMETHEUS=true         # Deploy kube-prometheus-stack
 export DEPLOY_WVA=true                # Deploy WVA controller
 export DEPLOY_LLM_D=true              # Deploy llm-d infrastructure
 export DEPLOY_PROMETHEUS_ADAPTER=true # Deploy Prometheus Adapter
-export DEPLOY_HPA=true                # Deploy HPA
+export DEPLOY_VA=true                 # Opt in: chart VariantAutoscaling (install.sh default: false)
+export DEPLOY_HPA=true                # Opt in: chart HPA (install.sh default: false)
 ```
 
 ## Usage Examples
@@ -127,6 +128,8 @@ export DEPLOY_HPA=true                # Deploy HPA
 
 ```bash
 export HF_TOKEN="hf_xxxxx"
+export DEPLOY_VA=true
+export DEPLOY_HPA=true
 make deploy-wva-on-k8s
 ```
 
@@ -136,16 +139,19 @@ make deploy-wva-on-k8s
 export HF_TOKEN="hf_xxxxx"
 export BASE_NAME="my-inference"
 export MODEL_ID="meta-llama/Llama-2-7b-hf"
+export DEPLOY_VA=true
+export DEPLOY_HPA=true
 make deploy-wva-on-k8s
 ```
 
 ### Example 3: E2E Testing Configuration
 
 ```bash
 export HF_TOKEN="hf_xxxxx"
-export HPA_STABILIZATION_SECONDS=30  # Fast scaling for testing
-export VLLM_MAX_NUM_SEQS=8          # Low batch size for easy saturation
 export E2E_TESTS_ENABLED=true
+export INFRA_ONLY=true
+export HPA_STABILIZATION_SECONDS=30  # Only if chart HPA enabled
+export VLLM_MAX_NUM_SEQS=8          # Low batch size for easy saturation
 make deploy-wva-on-k8s
 ```
 
@@ -157,6 +163,7 @@ export DEPLOY_LLM_D=false
 export DEPLOY_PROMETHEUS=true # Prometheus is needed for WVA to scrape metrics
 export VLLM_SVC_ENABLED=true
 export DEPLOY_PROMETHEUS_ADAPTER=false
+export DEPLOY_VA=true
 export DEPLOY_HPA=false
 make deploy-wva-on-k8s
 ```