NVIDIA
diff --git a/‎conf/staging/ai_dynamo/test/agg.yaml‎ ‎conf/experimental/ai_dynamo/test/agg.yaml‎conf/staging/ai_dynamo/test/agg.yaml renamed to conf/experimental/ai_dynamo/test/agg.yaml b/‎conf/staging/ai_dynamo/test/agg.yaml‎ ‎conf/experimental/ai_dynamo/test/agg.yaml‎conf/staging/ai_dynamo/test/agg.yaml renamed to conf/experimental/ai_dynamo/test/agg.yaml
diff --git a/‎conf/experimental/ai_dynamo/test/vllm.toml‎
Lines changed: 28 additions & 0 deletions b/‎conf/experimental/ai_dynamo/test/vllm.toml‎
Lines changed: 28 additions & 0 deletions
diff --git a/‎…ng/ai_dynamo/test_scenario/vllm_k8s.toml‎ ‎…al/ai_dynamo/test_scenario/vllm_k8s.toml‎conf/staging/ai_dynamo/test_scenario/vllm_k8s.toml renamed to conf/experimental/ai_dynamo/test_scenario/vllm_k8s.toml
Lines changed: 2 additions & 2 deletions b/‎…ng/ai_dynamo/test_scenario/vllm_k8s.toml‎ ‎…al/ai_dynamo/test_scenario/vllm_k8s.toml‎conf/staging/ai_dynamo/test_scenario/vllm_k8s.toml renamed to conf/experimental/ai_dynamo/test_scenario/vllm_k8s.toml
Lines changed: 2 additions & 2 deletions
diff --git a/‎conf/staging/ai_dynamo/test/vllm.toml‎
Lines changed: 0 additions & 59 deletions b/‎conf/staging/ai_dynamo/test/vllm.toml‎
Lines changed: 0 additions & 59 deletions
diff --git a/‎doc/workloads/ai_dynamo.rst‎
Lines changed: 2 additions & 2 deletions b/‎doc/workloads/ai_dynamo.rst‎
Lines changed: 2 additions & 2 deletions
@@ -0,0 +1,28 @@
+name = "vllm"
+description = "vllm"
+test_template_name = "AIDynamo"
+
+[cmd_args]
+docker_image_url = "nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.6.1.post1"
+
+  [cmd_args.dynamo]
+  backend = "vllm"
+
+  [cmd_args.genai_perf]
+  endpoint = "v1/chat/completions"
+  endpoint-type = "chat"
+  extra-inputs = 'min_tokens:10'
+  output-tokens-mean = 500
+  output-tokens-stddev = 0
+  random-seed = 123
+  request-count = 20
+  synthetic-input-tokens-mean = 3000
+  synthetic-input-tokens-stddev = 0
+  warmup-request-count = 10
+  concurrency = 1
+  extra-args = "--streaming -- -v --async"
+
+[extra_env_vars]
+UCX_LOG_LEVEL = "warn"
+UCX_TLS = "cuda_copy,rc_x"
+DYNAMO_NODELIST = "$(scontrol show hostname $SLURM_JOB_NODELIST | tr -s '\\n' ',')"
@@ -1,11 +1,11 @@
 name = "vllm_k8s"
 
 [[Tests]]
-id = "Tests.1"
+id = "dynamo.vllm"
 test_name = "vllm"
 
   [Tests.cmd_args]
-  docker_image_url = "gitlab-master.nvidia.com#dl/ai-dynamo/dynamo:e82bc4ec960111b369260e1758072c93227b66bf-32414403-vllm-amd64"
+  docker_image_url = "nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.6.1.post1"
   dynamo_graph_path = "conf/staging/ai_dynamo/test/agg.yaml"
     [Tests.cmd_args.dynamo]
       [Tests.cmd_args.dynamo.prefill_worker]
 
@@ -52,5 +52,5 @@ Run CloudAI to deploy AI Dynamo worker nodes according to your spec and run ``ge
 .. code-block:: bash
 
    uv run cloudai run --system-config <k8s system toml> \
-      --tests-dir conf/staging/ai_dynamo/test \
-      --test-scenario conf/staging/ai_dynamo/test_scenario/vllm_k8s.toml
+      --tests-dir conf/experimental/ai_dynamo/test \
+      --test-scenario conf/experimental/ai_dynamo/test_scenario/vllm_k8s.toml