generalize gaie presets (llm-d#301)

kalantar · web-flow · commit 7a980bc86914 · 2025-08-27T10:44:48.000-04:00
* generalize gaie presets

* fix ci failure

---------

Signed-off-by: Michael Kalantar &lt;kalantar@us.ibm.com&gt;
diff --git a/scenarios/inference-scheduling.sh b/scenarios/inference-scheduling.sh
@@ -0,0 +1,64 @@
+# Fill in desired values
+# export LLMDBENCH_HF_TOKEN=
+# export LLMDBENCH_VLLM_COMMON_NAMESPACE=
+# export LLMDBENCH_CONTROL_WORK_DIR=
+
+# INFERENCE SCHEDULING WELL LIT PATH
+# Based on https://github.com/llm-d-incubation/llm-d-infra/tree/main/quickstart/examples/inference-scheduling
+# Removed pod monitoring; can be added using LLMDBENCH_VLLM_MODELSERVICE_EXTRA_POD_CONFIG
+# Removed extra volumes metrics-volume and torch-compile-volume; they are not needed for this model and tested hardware.
+# Use LLMDBENCH_VLLM_MODELSERVICE_EXTRA_VOLUME_MOUNTS and LLMDBENCH_VLLM_MODELSERVICE_EXTRA_VOLUMES to add them if needed.
+
+# IMPORTANT NOTE
+# All parameters not defined here or exported externally will be the default values found in setup/env.sh
+# Many commonly defined values were left blank (default) so that this scenario is applicable to as many environments as possible.
+
+# Cluster specific configuration
+# export LLMDBENCH_VLLM_COMMON_PVC_STORAGE_CLASS=ocs-storagecluster-cephfs
+# export LLMDBENCH_VLLM_COMMON_AFFINITY='nvidia.com/gpu.product:NVIDIA-H100-80GB-HBM3'
+
+# Model(s)
+# export LLMDBENCH_DEPLOY_MODEL_LIST="Qwen/Qwen3-0.6B"
+export LLMDBENCH_DEPLOY_MODEL_LIST=meta-llama/Llama-3.1-8B-Instruct
+export LLMDBENCH_VLLM_COMMON_PVC_MODEL_CACHE_SIZE=20Gi
+
+# Routing configuration (via gaie)
+LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE="plugins-v2.yaml"
+
+# Routing configuration (via modelservice) 
+export LLMDBENCH_VLLM_MODELSERVICE_INFERENCE_MODEL=true
+export LLMDBENCH_LLMD_ROUTINGSIDECAR_CONNECTOR=nixlv2
+
+# Prefill and Decode configiration (via modelservice)
+
+# export LLMDBENCH_VLLM_COMMON_ACCELERATOR_RESOURCE="nvidia.com/gpu"
+
+export LLMDBENCH_VLLM_COMMON_ENVVARS_TO_YAML=$(mktemp)
+cat << EOF > $LLMDBENCH_VLLM_COMMON_ENVVARS_TO_YAML
+- name: CUDA_VISIBLE_DEVICES
+  value: "0"
+- name: UCX_TLS
+  value: "cuda_ipc,cuda_copy,tcp"
+- name: VLLM_NIXL_SIDE_CHANNEL_PORT
+  value: "5557"
+- name: VLLM_LOGGING_LEVEL
+  value: DEBUG
+EOF
+
+export LLMDBENCH_VLLM_MODELSERVICE_EXTRA_CONTAINER_CONFIG=$(mktemp)
+cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_EXTRA_CONTAINER_CONFIG}
+ports:
+  - containerPort: 5557
+    protocol: TCP
+  - containerPort: 8200
+    name: metrics
+    protocol: TCP
+EOF
+
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_REPLICAS=2
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_MODEL_COMMAND=vllmServe
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS=["--enforce-eager____--kv-transfer-config____{\\\"kv_connector\\\":\\\"NixlConnector\\\",\\\"kv_role\\\":\\\"kv_both\\\"}"]
+
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_REPLICAS=0
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_MODEL_COMMAND=vllmServe
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_ARGS=["--enforce-eager____--kv-transfer-config____{\\\"kv_connector\\\":\\\"NixlConnector\\\",\\\"kv_role\\\":\\\"kv_both\\\"}"]
diff --git a/scenarios/precise-prefix-cache-aware.sh b/scenarios/precise-prefix-cache-aware.sh
@@ -3,8 +3,9 @@
 
 export LLMDBENCH_DEPLOY_MODEL_LIST=meta-llama/Llama-3.1-70B-Instruct
 
-# Common parameters across standalone and llm-d (prefill and decode) pods
 export LLMDBENCH_HARNESS_EXPERIMENT_PROFILE=shared_prefix_synthetic.yaml
+
+# Common parameters across standalone and llm-d (prefill and decode) pods
 export LLMDBENCH_VLLM_COMMON_PVC_MODEL_CACHE_SIZE=1Ti
 export LLMDBENCH_VLLM_COMMON_CPU_NR=16
 export LLMDBENCH_VLLM_COMMON_CPU_MEM=64Gi
diff --git a/scenarios/wide-ep-small.sh b/scenarios/wide-ep-small.sh
@@ -3,46 +3,66 @@
 # It's purpose is to drive development of setup/steps/09_deploy_via_modelservice.sh
 
 # Fill in required/desired values
-export LLMDBENCH_HF_TOKEN=
+# export LLMDBENCH_HF_TOKEN=
 # export LLMDBENCH_VLLM_COMMON_NAMESPACE=
 # export LLMDBENCH_CONTROL_WORK_DIR=
 
-# Cluster specific configuration (fusion6/pokprod001)
-export LLMDBENCH_VLLM_COMMON_PVC_STORAGE_CLASS=ocs-storagecluster-cephfs
+# Cluster specific configuration
+# export LLMDBENCH_VLLM_COMMON_PVC_STORAGE_CLASS=ocs-storagecluster-cephfs
 export LLMDBENCH_VLLM_COMMON_AFFINITY='nvidia.com/gpu.product:NVIDIA-H100-80GB-HBM3'
 
 # Model(s)
 export LLMDBENCH_DEPLOY_MODEL_LIST="Qwen/Qwen3-0.6B"
-# export LLMDBENCH_VLLM_COMMON_PVC_MODEL_CACHE_SIZE=800Gi
+export LLMDBENCH_VLLM_COMMON_PVC_MODEL_CACHE_SIZE=20Gi
 
-# modelservice configuration
+# Routing configuration (via modelservice) 
 
 export LLMDBENCH_VLLM_MODELSERVICE_INFERENCE_MODEL=true
 
 export LLMDBENCH_LLMD_ROUTINGSIDECAR_CONNECTOR=nixlv2
 export LLMDBENCH_LLMD_ROUTINGSIDECAR_DEBUG_LEVEL=3
 
+# Prefill and Decode configiration (via modelservice)
+
 export LLMDBENCH_VLLM_MODELSERVICE_MULTINODE=true
 
-export LLMDBENCH_VLLM_STANDALONE_VLLM_FUSED_MOE_CHUNK_SIZE="1024"
-export LLMDBENCH_VLLM_STANDALONE_DP_SIZE_LOCAL="2"
-export LLMDBENCH_VLLM_STANDALONE_TRITON_LIBCUDA_PATH="/usr/lib64"
-# export LLMDBENCH_VLLM_STANDALONE_HF_HUB_DISABLE_XET="1"
-export LLMDBENCH_VLLM_STANDALONE_VLLM_SKIP_P2P_CHECK="1"
-export LLMDBENCH_VLLM_STANDALONE_VLLM_RANDOMIZE_DP_DUMMY_INPUTS="1"
-export LLMDBENCH_VLLM_STANDALONE_VLLM_USE_DEEP_GEMM="1"
-export LLMDBENCH_VLLM_STANDALONE_VLLM_ALL2ALL_BACKEND="deepep_low_latency"
-export LLMDBENCH_VLLM_STANDALONE_NVIDIA_GDRCOPY="enabled"
-export LLMDBENCH_VLLM_STANDALONE_NVSHMEM_DEBUG="INFO"
-export LLMDBENCH_VLLM_STANDALONE_NVSHMEM_REMOTE_TRANSPORT="ibgda"
-export LLMDBENCH_VLLM_STANDALONE_NVSHMEM_IB_ENABLE_IBGDA="true"
-export LLMDBENCH_VLLM_STANDALONE_NVSHMEM_BOOTSTRAP_UID_SOCK_IFNAME="eth0"
-export LLMDBENCH_VLLM_STANDALONE_GLOO_SOCKET_IFNAME="eth0"
-export LLMDBENCH_VLLM_STANDALONE_NCCL_SOCKET_IFNAME="eth0"
-export LLMDBENCH_VLLM_STANDALONE_NCCL_IB_HCA="ibp"
-export LLMDBENCH_VLLM_STANDALONE_VLLM_LOGGING_LEVEL="INFO"
-# export LLMDBENCH_VLLM_STANDALONE_HF_HUB_CACHE="/huggingface-cache"
-export LLMDBENCH_VLLM_STANDALONE_HF_HUB_CACHE="/model-cache/models"
+export LLMDBENCH_VLLM_COMMON_ENVVARS_TO_YAML=$(mktemp)
+cat << EOF > $LLMDBENCH_VLLM_COMMON_ENVVARS_TO_YAML
+- name: VLLM_FUSED_MOE_CHUNK_SIZE
+  value: "1024"
+- name: DP_SIZE_LOCAL
+  value: "2"
+- name: TRITON_LIBCUDA_PATH
+  value: "/usr/lib64"
+- name: VLLM_SKIP_P2P_CHECK
+  value: "1"
+- name: VLLM_RANDOMIZE_DP_DUMMY_INPUTS
+  value: "1"
+- name: VLLM_USE_DEEP_GEMM
+  value: "1"
+- name: VLLM_ALL2ALL_BACKEND
+  value: "deepep_low_latency"
+- name: NVIDIA_GDRCOPY
+  value: "enabled"
+- name: NVSHMEM_DEBUG
+  value: "INFO"
+- name: NVSHMEM_REMOTE_TRANSPORT
+  value: "ibgda"
+- name: NVSHMEM_IB_ENABLE_IBGDA
+  value: "true"
+- name: NVSHMEM_BOOTSTRAP_UID_SOCK_IFNAME
+  value: "eth0"
+- name: GLOO_SOCKET_IFNAME
+  value: "eth0"
+- name: NCCL_SOCKET_IFNAME
+  value: "eth0"
+- name: NCCL_IB_HCA
+  value: "ibp"
+- name: VLLM_LOGGING_LEVEL
+  value: "INFO"
+- name: HF_HUB_CACHE
+  value: "/model-cache/models"
+EOF
 
 # export LLMDBENCH_VLLM_MODELSERVICE_MOUNT_MODEL_VOLUME_OVERRIDE=false
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_REPLICAS=1
@@ -52,40 +72,45 @@ export LLMDBENCH_VLLM_MODELSERVICE_DECODE_MODEL_COMMAND=custom
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS=$(mktemp)
 cat << EOF > $LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS
 START_RANK=\$(( \${LWS_WORKER_INDEX:-0} * DP_SIZE_LOCAL ))
-
         source /opt/vllm/bin/activate
-        exec vllm serve \
-            /model-cache/models/Qwen/Qwen3-0.6B \
-            --port 8200 \
-            --disable-log-requests \
-            --disable-uvicorn-access-log \
-            --enable-expert-parallel \
-            --data-parallel-hybrid-lb \
-            --tensor-parallel-size \$TP_SIZE \
-            --data-parallel-size \$((LWS_GROUP_SIZE * DP_SIZE_LOCAL)) \
-            --data-parallel-size-local \$DP_SIZE_LOCAL \
-            --data-parallel-address \${LWS_LEADER_ADDRESS} \
-            --data-parallel-rpc-port 5555 \
-            --data-parallel-start-rank \$START_RANK \
-            --trust-remote-code \
-            --kv_transfer_config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
+        exec vllm serve /model-cache/models/Qwen/Qwen3-0.6B \
+--port 8200 \
+--disable-log-requests \
+--disable-uvicorn-access-log \
+--enable-expert-parallel \
+--data-parallel-hybrid-lb \
+--tensor-parallel-size \$TP_SIZE \
+--data-parallel-size \$((LWS_GROUP_SIZE * DP_SIZE_LOCAL)) \
+--data-parallel-size-local \$DP_SIZE_LOCAL \
+--data-parallel-address \${LWS_LEADER_ADDRESS} \
+--data-parallel-rpc-port 5555 \
+--data-parallel-start-rank \$START_RANK \
+--trust-remote-code \
+--kv_transfer_config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
 EOF
-export LLMDBENCH_VLLM_COMMON_ENVVARS_TO_YAML="LLMDBENCH_VLLM_STANDALONE_VLLM_FUSED_MOE_CHUNK_SIZE,LLMDBENCH_VLLM_STANDALONE_DP_SIZE_LOCAL,LLMDBENCH_VLLM_STANDALONE_TRITON_LIBCUDA_PATH,LLMDBENCH_VLLM_STANDALONE_VLLM_SKIP_P2P_CHECK,LLMDBENCH_VLLM_STANDALONE_VLLM_RANDOMIZE_DP_DUMMY_INPUTS,LLMDBENCH_VLLM_STANDALONE_VLLM_USE_DEEP_GEMM,LLMDBENCH_VLLM_STANDALONE_VLLM_ALL2ALL_BACKEND,LLMDBENCH_VLLM_STANDALONE_NVIDIA_GDRCOPY,LLMDBENCH_VLLM_STANDALONE_NVSHMEM_DEBUG,LLMDBENCH_VLLM_STANDALONE_NVSHMEM_REMOTE_TRANSPORT,LLMDBENCH_VLLM_STANDALONE_NVSHMEM_IB_ENABLE_IBGDA,LLMDBENCH_VLLM_STANDALONE_NVSHMEM_BOOTSTRAP_UID_SOCK_IFNAME,LLMDBENCH_VLLM_STANDALONE_GLOO_SOCKET_IFNAME,LLMDBENCH_VLLM_STANDALONE_NCCL_SOCKET_IFNAME,LLMDBENCH_VLLM_STANDALONE_NCCL_IB_HCA,LLMDBENCH_VLLM_STANDALONE_VLLM_LOGGING_LEVEL,LLMDBENCH_VLLM_STANDALONE_HF_HUB_CACHE"
 export LLMDBENCH_VLLM_MODELSERVICE_EXTRA_CONTAINER_CONFIG=$(mktemp)
 cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_EXTRA_CONTAINER_CONFIG}
 workingDir: /code
 imagePullPolicy: Always
-# securityContext:
-#   runAsUser: 0
-#   runAsGroup: 0
-#   capabilities:
-#     add:
-#     - "IPC_LOCK"
-#     - "SYS_RAWIO"
 EOF
+
 export LLMDBENCH_VLLM_COMMON_ACCELERATOR_RESOURCE="nvidia.com/gpu"
 export LLMDBENCH_VLLM_COMMON_ACCELERATOR_NR=2
 
+export LLMDBENCH_VLLM_MODELSERVICE_EXTRA_VOLUME_MOUNTS=$(mktemp)
+cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_EXTRA_VOLUME_MOUNTS}
+- name: dshm
+  mountPath: /dev/shm
+EOF
+
+export LLMDBENCH_VLLM_MODELSERVICE_EXTRA_VOLUMES=$(mktemp)
+cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_EXTRA_VOLUMES}
+- name: dshm
+  emptyDir:
+    medium: Memory
+    sizeLimit: 1Gi
+EOF
+
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_REPLICAS=1
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_PARALLELISM=1
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_TENSOR_PARALLELISM=1
@@ -95,19 +120,18 @@ cat << EOF > $LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_ARGS
 START_RANK=\$(( \${LWS_WORKER_INDEX:-0} * DP_SIZE_LOCAL ))
 
         source /opt/vllm/bin/activate
-        exec vllm serve \
-            Qwen/Qwen3-0.6B \
-            --port 8000 \
-            --disable-log-requests \
-            --disable-uvicorn-access-log \
-            --enable-expert-parallel \
-            --data-parallel-hybrid-lb \
-            --tensor-parallel-size \$TP_SIZE \
-            --data-parallel-size \$((LWS_GROUP_SIZE * DP_SIZE_LOCAL)) \
-            --data-parallel-size-local \$DP_SIZE_LOCAL \
-            --data-parallel-address \${LWS_LEADER_ADDRESS} \
-            --data-parallel-rpc-port 5555 \
-            --data-parallel-start-rank \$START_RANK \
-            --trust-remote-code \
-            --kv_transfer_config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
+        exec vllm serve /model-cache/models/Qwen/Qwen3-0.6B \
+--port 8000 \
+--disable-log-requests \
+--disable-uvicorn-access-log \
+--enable-expert-parallel \
+--data-parallel-hybrid-lb \
+--tensor-parallel-size \$TP_SIZE \
+--data-parallel-size \$((LWS_GROUP_SIZE * DP_SIZE_LOCAL)) \
+--data-parallel-size-local \$DP_SIZE_LOCAL \
+--data-parallel-address \${LWS_LEADER_ADDRESS} \
+--data-parallel-rpc-port 5555 \
+--data-parallel-start-rank \$START_RANK \
+--trust-remote-code \
+--kv_transfer_config '{"kv_connector":"NixlConnector","kv_role":"kv_both"}'
 EOF
diff --git a/setup/env.sh b/setup/env.sh
@@ -96,6 +96,13 @@ export LLMDBENCH_VLLM_INFRA_CHART_NAME=${LLMDBENCH_VLLM_INFRA_CHART_NAME:-oci://
 export LLMDBENCH_VLLM_INFRA_CHART_VERSION=${LLMDBENCH_VLLM_INFRA_CHART_VERSION:-1.0.6}
 export LLMDBENCH_VLLM_GAIE_CHART_NAME=${LLMDBENCH_VLLM_GAIE_CHART_NAME:-oci://us-central1-docker.pkg.dev/k8s-staging-images/gateway-api-inference-extension/charts/inferencepool}
 export LLMDBENCH_VLLM_GAIE_CHART_VERSION=${LLMDBENCH_VLLM_GAIE_CHART_VERSION:-v0.5.0}
+
+export LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE=${LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE:-"default-plugins.yaml"}
+
+if [[ -v LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS ]]; then
+  echo "ℹ️ Deprecated environment variable \"LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS\"; use \"LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE\" instead."
+fi
+
 export LLMDBENCH_VLLM_MODELSERVICE_RELEASE=${LLMDBENCH_VLLM_MODELSERVICE_RELEASE:-"llmdbench"}
 export LLMDBENCH_VLLM_MODELSERVICE_VALUES_FILE=${LLMDBENCH_VLLM_MODELSERVICE_VALUES_FILE:-"default-values.yaml"}
 export LLMDBENCH_VLLM_MODELSERVICE_ADDITIONAL_SETS=${LLMDBENCH_VLLM_MODELSERVICE_ADDITIONAL_SETS:-""}
@@ -323,18 +330,6 @@ if [[ -n "$overridevarlist" ]]; then
   export LLMDBENCH_CONTROL_OVERRIDE_COMMAND_DISPLAYED=1
 fi
 
-if [[ "$LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS" == /* ]]; then
-  export LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS_FULL_PATH=$(echo $LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS'.yaml' | $LLMDBENCH_CONTROL_SCMD 's^.yaml.yaml^.yaml^g')
-else
-  export LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS_FULL_PATH=$(echo ${LLMDBENCH_MAIN_DIR}/setup/presets/gaie/$LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS'.yaml' | $LLMDBENCH_CONTROL_SCMD 's^.yaml.yaml^.yaml^g')
-fi
-if [[ ! -f $LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS_FULL_PATH ]]; then
-  echo "❌ GAIE presets file \"$LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS_FULL_PATH\" could not be found."
-  exit 1
-else
-  export LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS=$(echo $LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS_FULL_PATH | rev | cut -d '/' -f 1 | rev)
-fi
-
 if [[ ! -z $LLMDBENCH_HARNESS_EXPERIMENT_TREATMENTS ]]; then
   if [[ "$LLMDBENCH_HARNESS_EXPERIMENT_TREATMENTS" == /* ]]; then
     export LLMDBENCH_HARNESS_EXPERIMENT_TREATMENTS_FULL_PATH=$(echo $LLMDBENCH_HARNESS_EXPERIMENT_TREATMENTS'.yaml' | $LLMDBENCH_CONTROL_SCMD 's^.yaml.yaml^.yaml^g')
diff --git a/setup/functions.py b/setup/functions.py
@@ -662,3 +662,17 @@ def get_image(image_registry: str, image_repo: str, image_name: str, image_tag:
         return is_latest_tag
     else:
         return f"{image_registry}/{image_repo}/{image_name}:{is_latest_tag}"
+
+def add_config(obj_or_filename, num_spaces=0, label=""):
+    spaces = " " * num_spaces
+    contents = ""
+    indented_contents = ""
+    try:
+        with open(obj_or_filename, 'r') as f:
+            contents = f.read()
+    except FileNotFoundError:
+        # not a file
+        contents = obj_or_filename
+
+    indented_contents = '\n'.join(f"{spaces}{line}" for line in contents.splitlines())
+    return indented_contents
diff --git a/setup/functions.sh b/setup/functions.sh
@@ -378,8 +378,41 @@ function add_config {
       echo ""
     fi
     echo "$(cat $object_to_render)" | $LLMDBENCH_CONTROL_SCMD -e "s^\\n^\\\\\n^g" | $LLMDBENCH_CONTROL_SCMD -e "s#^#$spacec#g"
+  else
+    echo ${object_to_render}
+  fi
+}
+export -f add_config
+
+# make sure things are defined; should be easier with python
+function add_config_prep {
+  if [[ -z ${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_POD_CONFIG} ]]; then
+    export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_POD_CONFIG="#no config"
+  fi
+  if [[ -z ${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_CONTAINER_CONFIG} ]]; then
+    export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_CONTAINER_CONFIG="#no config"
+  fi
+  if [[ -z ${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_VOLUME_MOUNTS} ]]; then
+    export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_VOLUME_MOUNTS="[]"
+  fi
+  if [[ -z ${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_VOLUMES} ]]; then
+    export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_VOLUMES="[]"
+  fi
+  if [[ -z ${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_POD_CONFIG} ]]; then
+    export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_POD_CONFIG="#no config"
+  fi
+  if [[ -z ${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_CONTAINER_CONFIG} ]]; then
+    export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_CONTAINER_CONFIG="#no config"
+  fi
+  if [[ -z ${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_VOLUME_MOUNTS} ]]; then
+    export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_VOLUME_MOUNTS="[]"
+  fi
+  if [[ -z ${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_VOLUMES} ]]; then
+    export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_VOLUMES="[]"
   fi
 }
+export -f add_config
+
 
 function add_command {
   local model_command=$1
diff --git a/setup/steps/08_deploy_gaie.py b/setup/steps/08_deploy_gaie.py
diff --git a/setup/steps/08_deploy_gaie.sh b/setup/steps/08_deploy_gaie.sh
diff --git a/setup/steps/09_deploy_via_modelservice.sh b/setup/steps/09_deploy_via_modelservice.sh