rm

mamy-CS · mamy-CS · commit 2394e3e4f141 · 2026-04-02T12:44:53.000-04:00
Signed-off-by: Mohammed Abdi &lt;mohammed.munir.abdi@ibm.com&gt;
diff --git a/Makefile b/Makefile
@@ -113,7 +113,7 @@ destroy-kind-cluster:
 .PHONY: deploy-wva-emulated-on-kind
 deploy-wva-emulated-on-kind: ## Deploy WVA + llm-d on Kind (Prometheus Adapter as scaler backend)
 	@echo ">>> Deploying workload-variant-autoscaler (cluster args: $(KIND_ARGS), image: $(IMG))"
-	KIND=$(KIND) KUBECTL=$(KUBECTL) IMG=$(IMG) DEPLOY_LLM_D=$(DEPLOY_LLM_D) ENVIRONMENT=kind-emulator CREATE_CLUSTER=$(CREATE_CLUSTER) CLUSTER_GPU_TYPE=$(CLUSTER_GPU_TYPE) CLUSTER_NODES=$(CLUSTER_NODES) CLUSTER_GPUS=$(CLUSTER_GPUS) MULTI_MODEL_TESTING=$(MULTI_MODEL_TESTING) NAMESPACE_SCOPED=false SCALER_BACKEND=$(SCALER_BACKEND) \
+	KIND=$(KIND) KUBECTL=$(KUBECTL) IMG=$(IMG) DEPLOY_LLM_D=$(DEPLOY_LLM_D) ENVIRONMENT=kind-emulator CREATE_CLUSTER=$(CREATE_CLUSTER) CLUSTER_GPU_TYPE=$(CLUSTER_GPU_TYPE) CLUSTER_NODES=$(CLUSTER_NODES) CLUSTER_GPUS=$(CLUSTER_GPUS) NAMESPACE_SCOPED=false SCALER_BACKEND=$(SCALER_BACKEND) \
 		deploy/install.sh
 
 ## Undeploy WVA from the emulated environment on Kind.
diff --git a/deploy/install.sh b/deploy/install.sh
@@ -74,11 +74,6 @@ ACCELERATOR_TYPE=${ACCELERATOR_TYPE:-"H100"}
 SLO_TPOT=${SLO_TPOT:-10}  # Target time-per-output-token SLO (in ms)
 SLO_TTFT=${SLO_TTFT:-1000}  # Target time-to-first-token SLO (in ms)
 
-# Multi-model testing configuration (for limiter e2e tests)
-# When enabled, deploys a second InferencePool with a different model
-MULTI_MODEL_TESTING=${MULTI_MODEL_TESTING:-false}
-MODEL_ID_2=${MODEL_ID_2:-"unsloth/Llama-3.2-1B"}
-
 # Prometheus Configuration
 PROM_CA_CERT_PATH=${PROM_CA_CERT_PATH:-"/tmp/prometheus-ca.crt"}
 PROMETHEUS_SECRET_NAME=${PROMETHEUS_SECRET_NAME:-"prometheus-web-tls"}
diff --git a/deploy/lib/infra_llmd.sh b/deploy/lib/infra_llmd.sh
@@ -7,227 +7,6 @@
 # containsElement(), wait_deployment_available_nonfatal(), detect_inference_pool_api_group().
 #
 
-# Deploy second model infrastructure for multi-model/limiter testing
-# Creates a second InferencePool, modelservice deployment, and updates HTTPRoute
-deploy_second_model_infrastructure() {
-    log_info "Deploying second model infrastructure for multi-model testing..."
-    log_info "Second model: $MODEL_ID_2"
-
-    local POOL_NAME_2="gaie-sim-2"
-    local MS_NAME_2="ms-sim-2"
-    local MODEL_LABEL_2="model-2"
-    # Sanitize model name for use in Kubernetes labels (replace / with -)
-    local MODEL_ID_2_SANITIZED=$(echo "$MODEL_ID_2" | tr '/' '-')
-
-    # Create second InferencePool with different selector
-    log_info "Creating second InferencePool: $POOL_NAME_2"
-    cat <<EOF | kubectl apply -n "$LLMD_NS" -f -
-apiVersion: inference.networking.x-k8s.io/v1alpha2
-kind: InferencePool
-metadata:
-  name: $POOL_NAME_2
-spec:
-  targetPortNumber: 8000
-  selector:
-    llm-d.ai/model-pool: "$MODEL_LABEL_2"
-  extensionRef:
-    name: ${POOL_NAME_2}-epp
-EOF
-
-    # Create EPP deployment for second pool
-    log_info "Creating EPP deployment for second pool"
-    cat <<EOF | kubectl apply -n "$LLMD_NS" -f -
-apiVersion: apps/v1
-kind: Deployment
-metadata:
-  name: ${POOL_NAME_2}-epp
-spec:
-  replicas: 1
-  selector:
-    matchLabels:
-      app: ${POOL_NAME_2}-epp
-  template:
-    metadata:
-      labels:
-        app: ${POOL_NAME_2}-epp
-    spec:
-      serviceAccountName: gaie-sim-sa
-      containers:
-      - name: epp
-        image: ghcr.io/llm-d/llm-d-inference-scheduler:v0.3.2
-        imagePullPolicy: Always
-        args:
-        - --poolName=$POOL_NAME_2
-        - --poolNamespace=$LLMD_NS
-        - --extProcPort=9002
-        - --grpcHealthPort=9003
-        ports:
-        - containerPort: 9002
-          name: grpc
-        - containerPort: 9003
-          name: grpc-health
-        - containerPort: 9090
-          name: metrics
-        readinessProbe:
-          grpc:
-            port: 9003
-          initialDelaySeconds: 5
-          periodSeconds: 10
-        livenessProbe:
-          grpc:
-            port: 9003
-          initialDelaySeconds: 15
-          periodSeconds: 20
----
-apiVersion: v1
-kind: Service
-metadata:
-  name: ${POOL_NAME_2}-epp
-spec:
-  selector:
-    app: ${POOL_NAME_2}-epp
-  ports:
-  - name: grpc
-    port: 9002
-    targetPort: 9002
-  - name: grpc-health
-    port: 9003
-    targetPort: 9003
-  - name: metrics
-    port: 9090
-    targetPort: 9090
-EOF
-
-    # Wait for second EPP to be ready
-    log_info "Waiting for second EPP deployment to be ready..."
-    wait_deployment_available_nonfatal \
-        "$LLMD_NS" \
-        "${POOL_NAME_2}-epp" \
-        "120s" \
-        "Second EPP deployment not ready yet - check 'kubectl get pods -n $LLMD_NS -l app=${POOL_NAME_2}-epp'"
-
-    # Create second modelservice deployment (using llm-d-inference-sim)
-    log_info "Creating second modelservice deployment: $MS_NAME_2"
-    cat <<EOF | kubectl apply -n "$LLMD_NS" -f -
-apiVersion: apps/v1
-kind: Deployment
-metadata:
-  name: ${MS_NAME_2}-decode
-spec:
-  replicas: 2
-  selector:
-    matchLabels:
-      app: ${MS_NAME_2}-decode
-      llm-d.ai/model-pool: "$MODEL_LABEL_2"
-  template:
-    metadata:
-      labels:
-        app: ${MS_NAME_2}-decode
-        llm-d.ai/model-pool: "$MODEL_LABEL_2"
-        llm-d.ai/model: "${MODEL_ID_2_SANITIZED}"
-    spec:
-      containers:
-      - name: vllm
-        image: ghcr.io/llm-d/llm-d-inference-sim:v0.5.1
-        imagePullPolicy: Always
-        args:
-        - --model=$MODEL_ID_2
-        - --time-to-first-token=$TTFT_AVERAGE_LATENCY_MS
-        - --inter-token-latency=$ITL_AVERAGE_LATENCY_MS
-        - --enable-kvcache
-        - --kv-cache-size=1024
-        - --block-size=16
-        ports:
-        - containerPort: 8000
-          name: http
-        - containerPort: 8200
-          name: metrics
-        env:
-        - name: POD_NAME
-          valueFrom:
-            fieldRef:
-              fieldPath: metadata.name
-        - name: POD_NAMESPACE
-          valueFrom:
-            fieldRef:
-              fieldPath: metadata.namespace
-        readinessProbe:
-          httpGet:
-            path: /health
-            port: 8000
-          periodSeconds: 5
----
-apiVersion: v1
-kind: Service
-metadata:
-  name: ${MS_NAME_2}-decode
-  labels:
-    llm-d.ai/model-pool: "$MODEL_LABEL_2"
-spec:
-  selector:
-    app: ${MS_NAME_2}-decode
-  ports:
-  - name: http
-    port: 8000
-    targetPort: 8000
-  - name: metrics
-    port: 8200
-    targetPort: 8200
-EOF
-
-    # Create InferenceModel for second model (maps model name to pool)
-    # Note: InferenceModel CRD may not be available in all environments
-    if kubectl get crd inferencemodels.inference.networking.x-k8s.io &>/dev/null; then
-        log_info "Creating InferenceModel for second model"
-        cat <<EOF | kubectl apply -n "$LLMD_NS" -f -
-apiVersion: inference.networking.x-k8s.io/v1alpha2
-kind: InferenceModel
-metadata:
-  name: ${MS_NAME_2}-model
-spec:
-  modelName: $MODEL_ID_2
-  criticality: Critical
-  poolRef:
-    name: $POOL_NAME_2
-  targetModels:
-  - name: $MODEL_ID_2
-    weight: 100
-EOF
-    else
-        log_warning "InferenceModel CRD not available - skipping InferenceModel creation for second model"
-        log_warning "Model routing may need to be configured manually or via HTTPRoute"
-    fi
-
-    # Create PodMonitor for second model metrics
-    log_info "Creating PodMonitor for second model"
-    cat <<EOF | kubectl apply -n "$LLMD_NS" -f -
-apiVersion: monitoring.coreos.com/v1
-kind: PodMonitor
-metadata:
-  name: ${MS_NAME_2}-podmonitor
-  labels:
-    release: kube-prometheus-stack
-spec:
-  selector:
-    matchLabels:
-      app: ${MS_NAME_2}-decode
-  podMetricsEndpoints:
-  - port: metrics
-    path: /metrics
-    interval: 15s
-EOF
-
-    # Wait for second model deployment to be ready
-    log_info "Waiting for second model deployment to be ready..."
-    wait_deployment_available_nonfatal \
-        "$LLMD_NS" \
-        "${MS_NAME_2}-decode" \
-        "120s" \
-        "Second model deployment not ready yet - check 'kubectl get pods -n $LLMD_NS'"
-
-    log_success "Second model infrastructure deployed successfully"
-}
-
 deploy_llm_d_infrastructure() {
     log_info "Deploying llm-d infrastructure..."
 
@@ -556,11 +335,6 @@ deploy_llm_d_infrastructure() {
         fi
     fi
 
-    # Deploy second model infrastructure for multi-model testing (limiter e2e tests)
-    if [ "$MULTI_MODEL_TESTING" == "true" ]; then
-        deploy_second_model_infrastructure
-    fi
-
     cd "$WVA_PROJECT"
     log_success "llm-d infrastructure deployment complete"
 }