kalantar
diff --git a/‎.github/workflows/benchmark1.yaml‎
Lines changed: 12 additions & 12 deletions b/‎.github/workflows/benchmark1.yaml‎
Lines changed: 12 additions & 12 deletions
diff --git a/‎.github/workflows/ci-pr-benchmark.yaml‎
Lines changed: 3 additions & 3 deletions b/‎.github/workflows/ci-pr-benchmark.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎experiments/inference-scheduling.yaml‎
Lines changed: 20 additions & 0 deletions b/‎experiments/inference-scheduling.yaml‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎experiments/disaggregated_vs_llmd.yaml‎ ‎experiments/pd-disaggregation.yaml‎experiments/disaggregated_vs_llmd.yaml renamed to experiments/pd-disaggregation.yaml b/‎experiments/disaggregated_vs_llmd.yaml‎ ‎experiments/pd-disaggregation.yaml‎experiments/disaggregated_vs_llmd.yaml renamed to experiments/pd-disaggregation.yaml
diff --git a/‎experiments/precise_prefix_cache_aware.yaml‎
Lines changed: 2 additions & 2 deletions b/‎experiments/precise_prefix_cache_aware.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎scenarios/cicd.sh‎
Lines changed: 0 additions & 9 deletions b/‎scenarios/cicd.sh‎
Lines changed: 0 additions & 9 deletions
diff --git a/‎scenarios/cicd/kind_sim_fb.sh‎
Lines changed: 6 additions & 4 deletions b/‎scenarios/cicd/kind_sim_fb.sh‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎scenarios/disaggregated_vs_llmd.sh‎
Lines changed: 0 additions & 37 deletions b/‎scenarios/disaggregated_vs_llmd.sh‎
Lines changed: 0 additions & 37 deletions
diff --git a/‎scenarios/examples/inference-scheduling.sh‎
Lines changed: 98 additions & 0 deletions b/‎scenarios/examples/inference-scheduling.sh‎
Lines changed: 98 additions & 0 deletions
@@ -68,63 +68,63 @@ jobs:
       - name: Cleanup target cloud (modelservice)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/teardown.sh -c cicd -t modelservice -d
+        run: ./setup/teardown.sh -c ocp_l40_fb -t modelservice -d
 
       - name: Cleanup target cloud (standalone)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/teardown.sh -c cicd -t standalone -d
+        run: ./setup/teardown.sh -c ocp_l40_fb -t standalone -d
 
       - name: Standup target cloud (standalone)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/standup.sh -c cicd -t standalone
+        run: ./setup/standup.sh -c ocp_l40_fb -t standalone
 
       - name: Run benchmark (standalone, inference-perf)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/run.sh -c cicd -t standalone
+        run: ./setup/run.sh -c ocp_l40_fb -t standalone
 
       - name: Run benchmark (standalone, fmperf)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/run.sh -c cicd -t standalone -l fmperf -w sanity_short-input
+        run: ./setup/run.sh -c ocp_l40_fb -t standalone -l fmperf -w sanity_short-input
 
       - name: Run benchmark (standalone, guidellm)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/run.sh -c cicd -t standalone -l guidellm -w sanity_concurrent
+        run: ./setup/run.sh -c ocp_l40_fb -t standalone -l guidellm -w sanity_concurrent
 
       - name: Run benchmark (standalone, vllm-benchmark)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/run.sh -c cicd -t standalone -l vllm-benchmark
+        run: ./setup/run.sh -c ocp_l40_fb -t standalone -l vllm-benchmark
 
       - name: Cleanup target cloud (standalone)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/teardown.sh -c cicd -t standalone -d
+        run: ./setup/teardown.sh -c ocp_l40_fb -t standalone -d
 
       - name: E2E target cloud (modelservice, inference-perf)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/e2e.sh -c cicd -t modelservice --deep
+        run: ./setup/e2e.sh -c ocp_l40_fb -t modelservice --deep
 
       - name: E2E target cloud (modelservice, fmperf)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/e2e.sh -c cicd -t modelservice --deep -l fmperf -w sanity_short-input.yaml
+        run: ./setup/e2e.sh -c ocp_l40_fb -t modelservice --deep -l fmperf -w sanity_short-input.yaml
 
       - name: E2E target cloud (modelservice, guidellm)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/e2e.sh -c cicd -t modelservice --deep -l guidellm -w sanity_concurrent.yaml
+        run: ./setup/e2e.sh -c ocp_l40_fb -t modelservice --deep -l guidellm -w sanity_concurrent.yaml
 
 
       - name: E2E target cloud (modelservice, vllm-benchmark)
         env:
           LLMDBENCH_HF_TOKEN: ${{ secrets.LLMDBENCH_HF_TOKEN }}
-        run: ./setup/e2e.sh -c cicd -t modelservice --deep -l vllm-benchmark
+        run: ./setup/e2e.sh -c ocp_l40_fb -t modelservice --deep -l vllm-benchmark
 
 
       - name: Install AWS CLI
 
@@ -39,17 +39,17 @@ jobs:
         env:
           LLMDBENCH_HF_TOKEN: hf-token-placeholder
         run: |
-          ./setup/standup.sh -c kind_modelservice_inference-sim -t modelservice -s 0,1,2,4,7,8,9
+          ./setup/standup.sh -c kind_sim_fb -t modelservice -s 0,1,2,4,7,8,9
 
       - name: Run harness (mock)
         env:
           LLMDBENCH_HF_TOKEN: hf-token-placeholder
           LLMD_CONTROL_DRY_RUN: 1 # TODO: harness doesn't work now for kind bc no harness endpoint
         run: |
-          ./setup/run.sh -c kind_modelservice_inference-sim --dry-run
+          ./setup/run.sh -c kind_sim_fb --dry-run
 
       - name: Teardown
         env:
           LLMDBENCH_HF_TOKEN: hf-token-placeholder
         run: |
-          ./setup/teardown.sh -c kind_modelservice_inference-sim
+          ./setup/teardown.sh -c kind_sim_fb
@@ -0,0 +1,20 @@
+setup:
+  factors:
+    - LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE
+  levels:
+    LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE: "default,prefix-cache-estimate-config,prefix-cache-tracking-config"
+  treatments:
+    default: "default"
+    cache_estimate: "prefix-cache-estimate-config"
+    cache_tracking: "prefix-cache-tracking-config"
+run:
+  factors:
+    - num_groups
+    - system_prompt_len
+  levels:
+    num_groups: "40,60"
+    system_prompt_len: "80000,5000,1000"
+  treatments:
+    long: "40,8000"
+    medium: "60,5000"
+    short: "60,1000"
@@ -1,8 +1,8 @@
 setup:
   factors:
-    - LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS
+    - LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE
   levels:
-    LLMDBENCH_VLLM_MODELSERVICE_GAIE_PRESETS: "default,prefix-cache-estimate-config,prefix-cache-tracking-config"
+    LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE: "default,prefix-cache-estimate-config,prefix-cache-tracking-config"
   treatments:
     default: "default"
     cache_estimate: "prefix-cache-estimate-config"
 
@@ -1,10 +1,13 @@
 # A scenario to capture running inference-sim on a Kind cluster without requiring GPUs
 export LLMDBENCH_DEPLOY_METHODS=modelservice
 export LLMDBENCH_VLLM_COMMON_REPLICAS=1
-export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_NR=0
-export LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_NR=0
+export LLMDBENCH_VLLM_COMMON_ACCELERATOR_RESOURCE=
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_NR=
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_NR=
 export LLMDBENCH_VLLM_COMMON_AFFINITY=kubernetes.io/os:linux
+export LLMDBENCH_CONTROL_WAIT_TIMEOUT=90
 export LLMDBENCH_LLMD_IMAGE_NAME="llm-d-inference-sim"
+export LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE="plugins-v2.yaml"
 export LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_TAG="v0.2.0@sha256:a623a0752af0a71b7b05ebf95517848b5dbc3d8d235c1897035905632d5b7d80"
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_MODEL_COMMAND=imageDefault
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_MODEL_COMMAND=imageDefault
@@ -17,5 +20,4 @@ export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_CPU_MEM=100Mi
 export LLMDBENCH_VLLM_MODELSERVICE_URI_PROTOCOL="hf"
 export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
 export LLMDBENCH_HARNESS_PVC_SIZE=3Gi
-export LLMDBENCH_VLLM_MODELSERVICE_INFERENCE_MODEL=true
-
+export LLMDBENCH_VLLM_MODELSERVICE_INFERENCE_MODEL=true
@@ -0,0 +1,98 @@
+# INFERENCE SCHEDULING WELL LIT PATH
+# Based on https://github.com/llm-d-incubation/llm-d-infra/tree/main/quickstart/examples/inference-scheduling
+# Removed pod monitoring; can be added using LLMDBENCH_VLLM_MODELSERVICE_EXTRA_POD_CONFIG
+# Removed extra volumes metrics-volume and torch-compile-volume; they are not needed for this model and tested hardware.
+# Use LLMDBENCH_VLLM_MODELSERVICE_EXTRA_VOLUME_MOUNTS and LLMDBENCH_VLLM_MODELSERVICE_EXTRA_VOLUMES to add them if needed.
+
+# IMPORTANT NOTE
+# All parameters not defined here or exported externally will be the default values found in setup/env.sh
+# Many commonly defined values were left blank (default) so that this scenario is applicable to as many environments as possible.
+
+# Model parameters
+# export LLMDBENCH_DEPLOY_MODEL_LIST="Qwen/Qwen3-0.6B"
+# export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
+export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-8B-Instruct"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-70B-Instruct"
+export LLMDBENCH_VLLM_COMMON_PVC_MODEL_CACHE_SIZE=1Ti
+
+
+# Workload parameters
+export LLMDBENCH_HARNESS_EXPERIMENT_PROFILE=shared_prefix_synthetic.yaml
+export LLMDBENCH_HARNESS_NAME=inference-perf
+
+# Routing configuration (via gaie)
+#export LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE="plugins-v2.yaml" (default is default-plugins.yaml)
+export LLMDBENCH_LLMD_INFERENCESCHEDULER_IMAGE_TAG=v0.2.1
+
+# Routing configuration (via modelservice)
+# export LLMDBENCH_VLLM_MODELSERVICE_INFERENCE_MODEL=false # already the default
+# export LLMDBENCH_LLMD_ROUTINGSIDECAR_CONNECTOR=nixlv2 # already the default
+
+# Common parameters across standalone and llm-d (prefill and decode) pods
+export LLMDBENCH_VLLM_COMMON_MAX_MODEL_LEN=16000
+export LLMDBENCH_VLLM_COMMON_BLOCK_SIZE=64
+
+#             Affinity to select node with appropriate accelerator (leave uncommented to automatically detect GPU)
+#export LLMDBENCH_VLLM_COMMON_AFFINITY=nvidia.com/gpu.product:NVIDIA-H100-80GB-HBM3
+#export LLMDBENCH_VLLM_COMMON_AFFINITY=gpu.nvidia.com/model:H200
+#export LLMDBENCH_VLLM_COMMON_AFFINITY=nvidia.com/gpu.product:NVIDIA-L40S
+#export LLMDBENCH_VLLM_COMMON_AFFINITY=nvidia.com/gpu.product:NVIDIA-A100-SXM4-80GB
+
+#             Uncomment to request specific network devices
+#export LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE=rdma/roce_gdr
+#export LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE=rdma/ib
+#export LLMDBENCH_VLLM_COMMON_NETWORK_NR=4
+
+export LLMDBENCH_VLLM_COMMON_ENVVARS_TO_YAML=$(mktemp)
+cat << EOF > $LLMDBENCH_VLLM_COMMON_ENVVARS_TO_YAML
+- name: UCX_TLS
+  value: "cuda_ipc,cuda_copy,tcp"
+- name: VLLM_NIXL_SIDE_CHANNEL_PORT
+  value: "5557"
+- name: VLLM_NIXL_SIDE_CHANNEL_HOST
+  valueFrom:
+    fieldRef:
+      fieldPath: status.podIP
+- name: VLLM_LOGGING_LEVEL
+  value: DEBUG
+- name: VLLM_ALLOW_LONG_MAX_MODEL_LEN
+  value: "1"
+EOF
+
+export LLMDBENCH_VLLM_MODELSERVICE_EXTRA_CONTAINER_CONFIG=$(mktemp)
+cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_EXTRA_CONTAINER_CONFIG}
+ports:
+  - containerPort: 5557
+    protocol: TCP
+  - containerPort: 8200
+    name: metrics
+    protocol: TCP
+EOF
+
+# Prefill parameters
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_REPLICAS=0
+
+# Decode parameters
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_NR=4
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_NR=16
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_MEM=64Gi
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_REPLICAS=2
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_INFERENCE_PORT=8200
+# Uncomment the following line to enable multi-nic
+#export LLMDBENCH_VLLM_MODELSERVICE_DECODE_PODANNOTATIONS=deployed-by:$(id -un),modelservice:llm-d-benchmark,k8s.v1.cni.cncf.io/networks:multi-nic-compute
+# Uncomment the following two lines to enable roce/gdr (or switch to rdma/ib for infiniband)
+#export LLMDBENCH_VLLM_MODELSERVICE_DECODE_NETWORK_RESOURCE=rdma/roce_gdr
+#export LLMDBENCH_VLLM_MODELSERVICE_DECODE_NETWORK_NR=4
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_MODEL_COMMAND=vllmServe
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS="[\
+--enforce-eager____\
+--block-size____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_BLOCK_SIZE____\
+--kv-transfer-config____'{\"kv_connector\":\"NixlConnector\",\"kv_role\":\"kv_both\"}'____\
+--tensor-parallel-size____REPLACE_ENV_LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_NR____\
+--disable-log-requests____\
+--disable-uvicorn-access-log____\
+--max-model-len____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_MAX_MODEL_LEN\
+]"
+
+# Local directory to copy benchmark runtime files and results
+export LLMDBENCH_CONTROL_WORK_DIR=~/data/inference-scheduling