kalantar
diff --git a/‎.github/workflows/benchmark1.yaml‎
Lines changed: 12 additions & 1 deletion b/‎.github/workflows/benchmark1.yaml‎
Lines changed: 12 additions & 1 deletion
diff --git a/‎scenarios/gke_A100_standalone_llama-3b.sh‎
Lines changed: 2 additions & 1 deletion b/‎scenarios/gke_A100_standalone_llama-3b.sh‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎scenarios/gke_H100_deployer_llama-3b.sh‎
Lines changed: 3 additions & 2 deletions b/‎scenarios/gke_H100_deployer_llama-3b.sh‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎setup/env.sh‎
Lines changed: 73 additions & 40 deletions b/‎setup/env.sh‎
Lines changed: 73 additions & 40 deletions
diff --git a/‎setup/presets/gaie/default.yaml‎
Lines changed: 49 additions & 0 deletions b/‎setup/presets/gaie/default.yaml‎
Lines changed: 49 additions & 0 deletions
diff --git a/‎setup/presets/gaie/pd.yaml‎
Lines changed: 29 additions & 0 deletions b/‎setup/presets/gaie/pd.yaml‎
Lines changed: 29 additions & 0 deletions
@@ -66,13 +66,23 @@ jobs:
           curl -L https://github.com/mikefarah/yq/releases/download/${VERSION}/${BINARY} -o ${BINARY}
           chmod +x ${BINARY}
           sudo cp -f $(which yq) || sudo cp -f ${BINARY} /usr/local/bin/yq
+        shell: bash
 
       - name: Install make, skopeo, curl, jq
         run: |
           sudo apt-get update
           sudo apt-get install -y make skopeo curl jq rsync
         shell: bash
 
+      - name: Install helmfile
+        run: |
+          export VERSION=v0.144.0
+          export BINARY=helmfile_linux_amd64
+          curl -L https://github.com/roboll/helmfile/releases/download/$VERSION/helmfile_darwin_arm64 -o ${BINARY}
+          chmod +x ${BINARY}
+          sudo cp -f ${BINARY} /usr/local/bin/helmfile
+        shell: bash
+
       - name: Install oc
         run: |
           OC_FILE_NAME=openshift-client-$(uname -s | sed -e "s/Linux/linux/g" -e "s/Darwin/apple-darwin/g")$(echo "-$(uname -m)" | sed -e 's/-x86_64//g' -e 's/-amd64//g' -e 's/aarch64/arm64-rhel9/g').tar.gz
@@ -83,6 +93,7 @@ jobs:
           sudo chmod +x /usr/local/bin/oc
           sudo chmod +x /usr/local/bin/kubectl
           rm openshift-client-*.tar.gz
+        shell: bash
 
       - name: Install Kustomize
         uses: multani/action-setup-kustomize@v1
@@ -102,7 +113,7 @@ jobs:
 
       - name: Install Helm
         run: |
-          curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 && chmod 700 get_helm.sh && ./get_helm.sh
+          curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 && chmod 700 get_helm.sh && ./get_helm.sh && helm plugin install https://github.com/databus23/helm-diff
         shell: bash
 
       - name: Cleanup target cloud (standalone)
 
@@ -16,5 +16,6 @@ export LLMDBENCH_HARNESS_NAME=inference-perf
 export LLMDBENCH_HARNESS_EXPERIMENT_PROFILE=chatbot_synthetic.yaml
 export LLMDBENCH_HARNESS_PVC_SIZE=1Ti
 export LLMDBENCH_IMAGE_REGISTRY=ghcr.io
-export LLMDBENCH_IMAGE_REPO=llm-d/llm-d-benchmark
+export LLMDBENCH_IMAGE_REPO=llm-d
+export LLMDBENCH_IMAGE_NAME=llm-d-benchmark
 export LLMDBENCH_IMAGE_TAG=v0.1.5
@@ -15,5 +15,6 @@ export LLMDBENCH_HARNESS_NAME=inference-perf
 export LLMDBENCH_HARNESS_EXPERIMENT_PROFILE=chatbot_synthetic.yaml
 export LLMDBENCH_HARNESS_PVC_SIZE=1Ti
 export LLMDBENCH_IMAGE_REGISTRY=ghcr.io
-export LLMDBENCH_IMAGE_REPO=llm-d/llm-d-benchmark
-export LLMDBENCH_IMAGE_TAG=v0.1.5
+export LLMDBENCH_IMAGE_REPO=llm-d
+export LLMDBENCH_IMAGE_NAME=llm-d-benchmark
+export LLMDBENCH_IMAGE_TAG=v0.1.5
@@ -8,31 +8,43 @@ export LLMDBENCH_HF_TOKEN="${LLMDBENCH_HF_TOKEN:-}"
 
 # Images
 export LLMDBENCH_IMAGE_REGISTRY=${LLMDBENCH_IMAGE_REGISTRY:-ghcr.io}
-export LLMDBENCH_IMAGE_REPO=${LLMDBENCH_IMAGE_REPO:-llm-d/llm-d-benchmark}
+export LLMDBENCH_IMAGE_REPO=${LLMDBENCH_IMAGE_REPO:-llm-d}
+export LLMDBENCH_IMAGE_NAME=${LLMDBENCH_IMAGE_NAME:-llm-d-benchmark}
 export LLMDBENCH_IMAGE_TAG=${LLMDBENCH_IMAGE_TAG:-auto}
 export LLMDBENCH_LLMD_IMAGE_REGISTRY=${LLMDBENCH_LLMD_IMAGE_REGISTRY:-ghcr.io}
-export LLMDBENCH_LLMD_IMAGE_REPO=${LLMDBENCH_LLMD_IMAGE_REPO:-llm-d/llm-d}
+export LLMDBENCH_LLMD_IMAGE_REPO=${LLMDBENCH_LLMD_IMAGE_REPO:-llm-d}
+export LLMDBENCH_LLMD_IMAGE_NAME=${LLMDBENCH_LLMD_IMAGE_REPO:-llm-d}
 export LLMDBENCH_LLMD_IMAGE_TAG=${LLMDBENCH_LLMD_IMAGE_TAG:-0.0.8}
 export LLMDBENCH_LLMD_MODELSERVICE_IMAGE_REGISTRY=${LLMDBENCH_LLMD_MODELSERVICE_IMAGE_REGISTRY:-ghcr.io}
-export LLMDBENCH_LLMD_MODELSERVICE_IMAGE_REPO=${LLMDBENCH_LLMD_MODELSERVICE_IMAGE_REPO:-llm-d/llm-d-model-service}
+export LLMDBENCH_LLMD_MODELSERVICE_IMAGE_REPO=${LLMDBENCH_LLMD_MODELSERVICE_IMAGE_REPO:-llm-d}
+export LLMDBENCH_LLMD_MODELSERVICE_IMAGE_NAME=${LLMDBENCH_LLMD_MODELSERVICE_IMAGE_NAME:-llm-d-model-service}
 export LLMDBENCH_LLMD_MODELSERVICE_IMAGE_TAG=${LLMDBENCH_LLMD_MODELSERVICE_IMAGE_TAG:-0.0.10}
 export LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_REGISTRY=${LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_REGISTRY:-ghcr.io}
-export LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_REPO=${LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_REPO:-llm-d/llm-d-inference-scheduler}
+export LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_REPO=${LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_REPO:-llm-d}
+export LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_NAME=${LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_NAME:-llm-d-inference-scheduler}
 export LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_TAG=${LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_TAG:-0.0.4}
 export LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_REGISTRY=${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_REGISTRY:-ghcr.io}
-export LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_REPO=${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_REPO:-llm-d/llm-d-routing-sidecar}
+export LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_REPO=${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_REPO:-llm-d}
+export LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_NAME=${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_NAME:-llm-d-routing-sidecar}
 export LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_TAG=${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_TAG:-0.0.6}
 export LLMDBENCH_LLMD_INFERENCESIM_IMAGE_REGISTRY=${LLMDBENCH_LLMD_INFERENCESIM_IMAGE_REGISTRY:-ghcr.io}
-export LLMDBENCH_LLMD_INFERENCESIM_IMAGE_REPO=${LLMDBENCH_LLMD_INFERENCESIM_IMAGE_REPO:-llm-d/llm-d-inference-sim}
+export LLMDBENCH_LLMD_INFERENCESIM_IMAGE_REPO=${LLMDBENCH_LLMD_INFERENCESIM_IMAGE_REPO:-llm-d}
+export LLMDBENCH_LLMD_INFERENCESIM_IMAGE_NAME=${LLMDBENCH_LLMD_INFERENCESIM_IMAGE_NAME:-llm-d-inference-sim}
 export LLMDBENCH_LLMD_INFERENCESIM_IMAGE_TAG=${LLMDBENCH_LLMD_INFERENCESIM_IMAGE_TAG:-v0.1.2}
-export LLMDBENCH_VLLM_STANDALONE_IMAGE_REGISTRY=${LLMDBENCH_VLLM_STANDALONE_IMAGE_REGISTRY:-vllm}
-export LLMDBENCH_VLLM_STANDALONE_IMAGE_REPO=${LLMDBENCH_VLLM_STANDALONE_IMAGE_REPO:-vllm-openai}
+export LLMDBENCH_VLLM_STANDALONE_IMAGE_REGISTRY=${LLMDBENCH_VLLM_STANDALONE_IMAGE_REGISTRY:-docker.io}
+export LLMDBENCH_VLLM_STANDALONE_IMAGE_REPO=${LLMDBENCH_VLLM_STANDALONE_IMAGE_REPO:-vllm}
+export LLMDBENCH_VLLM_STANDALONE_IMAGE_NAME=${LLMDBENCH_VLLM_STANDALONE_IMAGE_NAME:-vllm-openai}
 export LLMDBENCH_VLLM_STANDALONE_IMAGE_TAG=${LLMDBENCH_VLLM_STANDALONE_IMAGE_TAG:-latest}
 
 # External repositories
 export LLMDBENCH_DEPLOYER_GIT_REPO="${LLMDBENCH_DEPLOYER_GIT_REPO:-https://github.com/llm-d/llm-d-deployer.git}"
 export LLMDBENCH_DEPLOYER_DIR="${LLMDBENCH_DEPLOYER_DIR:-/tmp}"
 export LLMDBENCH_DEPLOYER_GIT_BRANCH="${LLMDBENCH_DEPLOYER_GIT_BRANCH:-main}"
+
+export LLMDBENCH_INFRA_GIT_REPO="${LLMDBENCH_INFRA_GIT_REPO:-https://github.com/llm-d-incubation/llm-d-infra.git}"
+export LLMDBENCH_INFRA_DIR="${LLMDBENCH_INFRA_DIR:-/tmp}"
+export LLMDBENCH_INFRA_GIT_BRANCH="${LLMDBENCH_INFRA_GIT_BRANCH:-main}"
+
 export LLMDBENCH_HARNESS_GIT_REPO="${LLMDBENCH_HARNESS_GIT_REPO:-auto}"
 export LLMDBENCH_HARNESS_DIR="${LLMDBENCH_HARNESS_DIR:-/tmp}"
 export LLMDBENCH_HARNESS_GIT_BRANCH="${LLMDBENCH_HARNESS_GIT_BRANCH:-main}"
@@ -42,6 +54,8 @@ export LLMDBENCH_VLLM_COMMON_NAMESPACE="${LLMDBENCH_VLLM_COMMON_NAMESPACE:-llmdb
 export LLMDBENCH_VLLM_COMMON_SERVICE_ACCOUNT="${LLMDBENCH_VLLM_COMMON_SERVICE_ACCOUNT:-default}"
 
 export LLMDBENCH_VLLM_COMMON_ACCELERATOR_RESOURCE=${LLMDBENCH_VLLM_COMMON_ACCELERATOR_RESOURCE:-nvidia.com/gpu}
+export LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE=${LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE:-}
+export LLMDBENCH_VLLM_COMMON_NETWORK_NR=${LLMDBENCH_VLLM_COMMON_NETWORK_NR:-}
 export LLMDBENCH_VLLM_COMMON_AFFINITY=${LLMDBENCH_VLLM_COMMON_AFFINITY:-${LLMDBENCH_VLLM_COMMON_ACCELERATOR_RESOURCE}.product:NVIDIA-H100-80GB-HBM3}
 export LLMDBENCH_VLLM_COMMON_REPLICAS=${LLMDBENCH_VLLM_COMMON_REPLICAS:-1}
 export LLMDBENCH_VLLM_COMMON_PERSISTENCE_ENABLED=${LLMDBENCH_VLLM_COMMON_PERSISTENCE_ENABLED:-true}
@@ -79,16 +93,34 @@ export LLMDBENCH_VLLM_STANDALONE_EPHEMERAL_STORAGE=${LLMDBENCH_VLLM_STANDALONE_E
 export LLMDBENCH_VLLM_DEPLOYER_VALUES_FILE=${LLMDBENCH_VLLM_DEPLOYER_VALUES_FILE:-"fromenv"}
 export LLMDBENCH_VLLM_DEPLOYER_PREFILL_REPLICAS=${LLMDBENCH_VLLM_DEPLOYER_PREFILL_REPLICAS:-1}
 export LLMDBENCH_VLLM_DEPLOYER_PREFILL_EXTRA_ARGS=${LLMDBENCH_VLLM_DEPLOYER_PREFILL_EXTRA_ARGS:-"[--disable-log-requests]"}
+export LLMDBENCH_VLLM_DEPLOYER_PREFILL_ACCELERATOR_NR=${LLMDBENCH_VLLM_DEPLOYER_PREFILL_ACCELERATOR_NR:-$LLMDBENCH_VLLM_COMMON_ACCELERATOR_NR}
+export LLMDBENCH_VLLM_DEPLOYER_PREFILL_ACCELERATOR_MEM_UTIL=${LLMDBENCH_VLLM_DEPLOYER_PREFILL_ACCELERATOR_MEM_UTIL:-$LLMDBENCH_VLLM_COMMON_ACCELERATOR_MEM_UTIL}
+export LLMDBENCH_VLLM_DEPLOYER_PREFILL_NETWORK_RESOURCE=${LLMDBENCH_VLLM_DEPLOYER_PREFILL_NETWORK_RESOURCE:-$LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE}
+export LLMDBENCH_VLLM_DEPLOYER_PREFILL_NETWORK_NR=${LLMDBENCH_VLLM_DEPLOYER_PREFILL_NETWORK_NR:-$LLMDBENCH_VLLM_COMMON_NETWORK_NR}
+export LLMDBENCH_VLLM_DEPLOYER_PREFILL_CPU_NR=${LLMDBENCH_VLLM_DEPLOYER_PREFILL_CPU_NR:-$LLMDBENCH_VLLM_COMMON_CPU_NR}
+export LLMDBENCH_VLLM_DEPLOYER_PREFILL_CPU_MEM=${LLMDBENCH_VLLM_DEPLOYER_PREFILL_CPU_MEM:-$LLMDBENCH_VLLM_COMMON_CPU_MEM}
 export LLMDBENCH_VLLM_DEPLOYER_DECODE_REPLICAS=${LLMDBENCH_VLLM_DEPLOYER_DECODE_REPLICAS:-1}
 export LLMDBENCH_VLLM_DEPLOYER_DECODE_EXTRA_ARGS=${LLMDBENCH_VLLM_DEPLOYER_DECODE_EXTRA_ARGS:-"[--disable-log-requests]"}
-export LLMDBENCH_VLLM_DEPLOYER_BASECONFIGMAPREFNAME=${LLMDBENCH_VLLM_DEPLOYER_BASECONFIGMAPREFNAME:-"basic-gpu-with-nixl-and-redis-lookup-preset"}
-export LLMDBENCH_VLLM_DEPLOYER_MODELSERVICE_REPLICAS=${LLMDBENCH_VLLM_DEPLOYER_MODELSERVICE_REPLICAS:-1}
-export LLMDBENCH_VLLM_DEPLOYER_ROUTE=${LLMDBENCH_VLLM_DEPLOYER_ROUTE:-1}
+export LLMDBENCH_VLLM_DEPLOYER_DECODE_ACCELERATOR_NR=${LLMDBENCH_VLLM_DEPLOYER_DECODE_ACCELERATOR_NR:-$LLMDBENCH_VLLM_COMMON_ACCELERATOR_NR}
+export LLMDBENCH_VLLM_DEPLOYER_DECODE_ACCELERATOR_MEM_UTIL=${LLMDBENCH_VLLM_DEPLOYER_DECODE_ACCELERATOR_MEM_UTIL:-$LLMDBENCH_VLLM_COMMON_ACCELERATOR_MEM_UTIL}
+export LLMDBENCH_VLLM_DEPLOYER_DECODE_NETWORK_RESOURCE=${LLMDBENCH_VLLM_DEPLOYER_DECODE_NETWORK_RESOURCE:-$LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE}
+export LLMDBENCH_VLLM_DEPLOYER_DECODE_NETWORK_NR=${LLMDBENCH_VLLM_DEPLOYER_DECODE_NETWORK_NR:-$LLMDBENCH_VLLM_COMMON_NETWORK_NR}
+export LLMDBENCH_VLLM_DEPLOYER_DECODE_CPU_NR=${LLMDBENCH_VLLM_DEPLOYER_DECODE_CPU_NR:-$LLMDBENCH_VLLM_COMMON_CPU_NR}
+export LLMDBENCH_VLLM_DEPLOYER_DECODE_CPU_MEM=${LLMDBENCH_VLLM_DEPLOYER_DECODE_CPU_MEM:-$LLMDBENCH_VLLM_COMMON_CPU_MEM}
 export LLMDBENCH_VLLM_DEPLOYER_GATEWAY_CLASS_NAME=${LLMDBENCH_VLLM_DEPLOYER_GATEWAY_CLASS_NAME:-kgateway}
 export LLMDBENCH_VLLM_DEPLOYER_RELEASE=${LLMDBENCH_VLLM_DEPLOYER_RELEASE:-"llm-d"}
+export LLMDBENCH_VLLM_DEPLOYER_ROUTE=${LLMDBENCH_VLLM_DEPLOYER_ROUTE:-1}
+
+# FIXME (start) delete after removal of llm-d-deployer
+export LLMDBENCH_VLLM_DEPLOYER_BASECONFIGMAPREFNAME=${LLMDBENCH_VLLM_DEPLOYER_BASECONFIGMAPREFNAME:-"basic-gpu-with-nixl-and-redis-lookup-preset"}
+export LLMDBENCH_VLLM_DEPLOYER_MODELSERVICE_REPLICAS=${LLMDBENCH_VLLM_DEPLOYER_MODELSERVICE_REPLICAS:-1}
 export LLMDBENCH_VLLM_DEPLOYER_RECONFIGURE_GATEWAY_AFTER_DEPLOY=${LLMDBENCH_VLLM_DEPLOYER_RECONFIGURE_GATEWAY_AFTER_DEPLOY:-0}
+# FIXME (end) delete after removal of llm-d-deployer
 
 # Endpoint Picker Parameters, Deployer-specific
+export LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS=${LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS:-"default"}
+
+# FIXME (start) delete after removal of llm-d-deployer
 export LLMDBENCH_VLLM_DEPLOYER_EPP_ENABLE_KVCACHE_AWARE_SCORER=${LLMDBENCH_VLLM_DEPLOYER_EPP_ENABLE_KVCACHE_AWARE_SCORER:-false}
 export LLMDBENCH_VLLM_DEPLOYER_EPP_KVCACHE_AWARE_SCORER_WEIGHT=${LLMDBENCH_VLLM_DEPLOYER_EPP_KVCACHE_AWARE_SCORER_WEIGHT:-1}
 export LLMDBENCH_VLLM_DEPLOYER_EPP_ENABLE_PREFIX_AWARE_SCORER=${LLMDBENCH_VLLM_DEPLOYER_EPP_ENABLE_PREFIX_AWARE_SCORER:-true}
@@ -115,6 +147,7 @@ export LLMDBENCH_VLLM_DEPLOYER_EPP_DECODE_ENABLE_PREFIX_AWARE_SCORER=${LLMDBENCH
 export LLMDBENCH_VLLM_DEPLOYER_EPP_DECODE_PREFIX_AWARE_SCORER_WEIGHT=${LLMDBENCH_VLLM_DEPLOYER_EPP_DECODE_PREFIX_AWARE_SCORER_WEIGHT:-1}
 export LLMDBENCH_VLLM_DEPLOYER_EPP_DECODE_ENABLE_SESSION_AWARE_SCORER=${LLMDBENCH_VLLM_DEPLOYER_EPP_DECODE_ENABLE_SESSION_AWARE_SCORER:-false}
 export LLMDBENCH_VLLM_DEPLOYER_EPP_DECODE_SESSION_AWARE_SCORER_WEIGHT=${LLMDBENCH_VLLM_DEPLOYER_EPP_DECODE_SESSION_AWARE_SCORER_WEIGHT:-1}
+# FIXME (end) delete after removal of llm-d-deployer
 
 # Modelservice (helm chart) specific parameters
 export LLMDBENCH_VLLM_MODELSERVICE_VALUES_FILE=${LLMDBENCH_VLLM_MODELSERVICE_VALUES_FILE:-"default-values.yaml"}
@@ -182,12 +215,15 @@ function model_attribute {
   esac
 
   local modelcomponents=$(echo $model | cut -d '/' -f 2 |  tr '[:upper:]' '[:lower:]' | $LLMDBENCH_CONTROL_SCMD -e 's^qwen^qwen-^g' -e 's^-^\n^g')
+  local provider=$(echo $model | cut -d '/' -f 1)
   local type=$(echo "${modelcomponents}" | grep -Ei "nstruct|hf|chat|speech|vision")
-  local parameters=$(echo "${modelcomponents}" | grep -Ei "[0-9].*b" | $LLMDBENCH_CONTROL_SCMD -e 's^a^^' -e 's^\.^p^')
-  local majorversion=$(echo "${modelcomponents}" | grep -Ei "^[0-9]" | grep -Evi "b|E" | cut -d '.' -f 1)
+  local parameters=$(echo "${modelcomponents}" | grep -Ei "[0-9].*b|[0-9].*m" | $LLMDBENCH_CONTROL_SCMD -e 's^a^^' -e 's^\.^p^')
+  local majorversion=$(echo "${modelcomponents}" | grep -Ei "^[0-9]" | grep -Evi "b|E" |  $LLMDBENCH_CONTROL_SCMD -e "s/$parameters//g" | cut -d '.' -f 1)
   local kind=$(echo "${modelcomponents}" | head -n 1 | cut -d '/' -f 1)
-  local label=${kind}-${majorversion}-${parameters}
   local as_label=$(echo $model | tr '[:upper:]' '[:lower:]' | $LLMDBENCH_CONTROL_SCMD -e "s^/^-^g")
+  local label=$(echo ${kind}-${majorversion}-${parameters} | $LLMDBENCH_CONTROL_SCMD -e 's^-$^^g' -e 's^--^^g')
+  local as_label=$(echo $model | tr '[:upper:]' '[:lower:]' | $LLMDBENCH_CONTROL_SCMD -e "s^/^-^g" -e "s^\.^-^g")
+  local folder=$(echo $model | tr '[:upper:]' '[:lower:]' | $LLMDBENCH_CONTROL_SCMD -e 's^/^_^g' -e 's^-^_^g')
 
   if [[ $attribute != "model" ]];
   then
@@ -255,45 +291,29 @@ else
   fi
 fi
 
-if [[ $LLMDBENCH_CONTROL_DEPENDENCIES_CHECKED -eq 0 && ! -f ~/.llmdbench_dependencies_checked ]]
-then
-  deplist="$LLMDBENCH_CONTROL_SCMD $LLMDBENCH_CONTROL_PCMD $LLMDBENCH_CONTROL_KCMD $LLMDBENCH_CONTROL_HCMD kubectl kustomize rsync"
-  echo "Checking dependencies \"$deplist\""
-  for req in $deplist kubectl kustomize; do
-    echo -n "Checking dependency \"${req}\"..."
-    is_req=$(which ${req} || true)
-    if [[ -z ${is_req} ]]; then
-      echo "❌ Dependency \"${req}\" is missing"
-      exit 1
-    fi
-    echo "done"
-  done
-  touch ~/.llmdbench_dependencies_checked
-  export LLMDBENCH_CONTROL_DEPENDENCIES_CHECKED=1
-fi
-
 function get_image {
   local image_registry=$1
   local image_repo=$2
-  local image_tag=$3
-  local tag_only=${4:-0}
+  local image_name=$3
+  local image_tag=$4
+  local tag_only=${5:-0}
 
   is_latest_tag=$image_tag
   if [[ $image_tag == "auto" ]]; then
     if [[ $LLMDBENCH_CONTROL_CCMD == "podman" ]]; then
-      is_latest_tag=$($LLMDBENCH_CONTROL_CCMD search --list-tags ${image_registry}/${image_repo} | tail -1 | awk '{ print $2 }' || true)
+      is_latest_tag=$($LLMDBENCH_CONTROL_CCMD search --list-tags ${image_registry}/${image_repo}/${image_name} | tail -1 | awk '{ print $2 }' || true)
     else
-      is_latest_tag=$(skopeo list-tags docker://${image_registry}/${image_repo} | jq -r .Tags[] | tail -1)
+      is_latest_tag=$(skopeo list-tags docker://${image_registry}/${image_repo}/${image_name} | jq -r .Tags[] | tail -1)
     fi
     if [[ -z ${is_latest_tag} ]]; then
-      echo "❌ Unable to find latest tag for image \"${image_registry}/${image_repo}\""
+      echo "❌ Unable to find latest tag for image \"${image_registry}/${image_repo}/${image_name}\""
       exit 1
     fi
   fi
   if [[ $tag_only -eq 1 ]]; then
     echo ${is_latest_tag}
   else
-    echo $image_registry/$image_repo:${is_latest_tag}
+    echo $image_registry/$image_repo/${image_name}:${is_latest_tag}
   fi
 }
 
@@ -321,6 +341,18 @@ if [[ ! -z $LLMDBENCH_DEPLOY_SCENARIO ]]; then
   fi
 fi
 
+if [[ "$LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS" == /* ]]; then
+  export LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS_FULL_PATH=$(echo $LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS'.yaml' | $LLMDBENCH_CONTROL_SCMD 's^.yaml.yaml^.yaml^g')
+else
+  export LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS_FULL_PATH=$(echo ${LLMDBENCH_MAIN_DIR}/setup/presets/gaie/$LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS'.yaml' | $LLMDBENCH_CONTROL_SCMD 's^.yaml.yaml^.yaml^g')
+fi
+if [[ ! -f $LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS_FULL_PATH ]]; then
+  echo "❌ GAIE presets file \"$LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS_FULL_PATH\" could not be found."
+  exit 1
+else
+  export LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS=$(echo $LLMDBENCH_VLLM_DEPLOYER_GAIE_PRESETS_FULL_PATH | rev | cut -d '/' -f 1 | rev)
+fi
+
 overridevarlist=$(env | grep _CLIOVERRIDE_ | cut -d '=' -f 1 || true)
 if [[ -n "$overridevarlist" ]]; then
   for overridevar in $overridevarlist; do
@@ -356,6 +388,7 @@ export LLMDBENCH_CONTROL_WORK_DIR_SET=${LLMDBENCH_CONTROL_WORK_DIR_SET:-0}
 
 function prepare_work_dir {
   mkdir -p ${LLMDBENCH_CONTROL_WORK_DIR}/setup/yamls
+  mkdir -p ${LLMDBENCH_CONTROL_WORK_DIR}/setup/helm
   mkdir -p ${LLMDBENCH_CONTROL_WORK_DIR}/setup/commands
   mkdir -p ${LLMDBENCH_CONTROL_WORK_DIR}/environment
   mkdir -p ${LLMDBENCH_CONTROL_WORK_DIR}/workload/harnesses
@@ -746,9 +779,9 @@ create_or_update_hf_secret() {
 }
 export -f create_or_update_hf_secret
 
-# 
+#
 # vLLM Model Download Utilities
-# 
+#
 
 validate_and_create_pvc() {
   local kcmd="$1"
@@ -882,7 +915,7 @@ wait_for_download_job() {
     announce "🙀 Pod did not become Ready"
     llmdbench_execute_cmd  "${kcmd} logs job/download-model -n ${namespace}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE} 0 1 0
     exit 1
-  fi 
+  fi
 
   announce "⏳ Waiting up to ${timeout}s for job to complete..."
   llmdbench_execute_cmd "${kcmd} wait --for=condition=complete --timeout="${timeout}"s job/download-model -n ${namespace}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
 
@@ -0,0 +1,49 @@
+apiVersion: inference.networking.x-k8s.io/v1alpha1
+kind: EndpointPickerConfig
+plugins:
+- type: low-queue-filter
+  parameters:
+    threshold: 128
+- type: lora-affinity-filter
+  parameters:
+    threshold: 0.999
+- type: least-queue-filter
+- type: least-kv-cache-filter
+- type: decision-tree-filter
+  name: low-latency-filter
+  parameters:
+    current:
+      pluginRef: low-queue-filter
+    nextOnSuccess:
+      decisionTree:
+        current:
+          pluginRef: lora-affinity-filter
+        nextOnSuccessOrFailure:
+          decisionTree:
+            current:
+              pluginRef: least-queue-filter
+            nextOnSuccessOrFailure:
+              decisionTree:
+                current:
+                  pluginRef: least-kv-cache-filter
+    nextOnFailure:
+      decisionTree:
+        current:
+          pluginRef: least-queue-filter
+        nextOnSuccessOrFailure:
+          decisionTree:
+            current:
+              pluginRef: lora-affinity-filter
+            nextOnSuccessOrFailure:
+              decisionTree:
+                current:
+                  pluginRef: least-kv-cache-filter
+- type: random-picker
+  parameters:
+    maxNumOfEndpoints: 1
+- type: single-profile-handler
+schedulingProfiles:
+- name: default
+  plugins:
+  - pluginRef: low-latency-filter
+  - pluginRef: random-picker
@@ -0,0 +1,29 @@
+apiVersion: inference.networking.x-k8s.io/v1alpha1
+kind: EndpointPickerConfig
+plugins:
+- type: prefill-header-handler
+- type: prefix-cache-scorer
+  parameters:
+    hashBlockSize: 5
+    maxPrefixBlocksToMatch: 256
+    lruCapacityPerServer: 31250
+- type: prefill-filter
+- type: decode-filter
+- type: max-score-picker
+- type: pd-profile-handler
+  parameters:
+    threshold: 10
+    hashBlockSize: 5
+schedulingProfiles:
+- name: prefill
+  plugins:
+  - pluginRef: prefill-filter
+  - pluginRef: max-score-picker
+  - pluginRef: prefix-cache-scorer
+    weight: 50
+- name: decode
+  plugins:
+  - pluginRef: decode-filter
+  - pluginRef: max-score-picker
+  - pluginRef: prefix-cache-scorer
+    weight: 50