more parallelism configuration

kalantar · kalantar · commit 6b7d48c34c96 · 2025-12-05T18:37:19.000-05:00
Signed-off-by: Michael Kalantar &lt;kalantar@us.ibm.com&gt;
diff --git a/scenarios/guides/wide-ep-lws.sh b/scenarios/guides/wide-ep-lws.sh
diff --git a/setup/env.sh b/setup/env.sh
@@ -352,7 +352,9 @@ export LLMDBENCH_VLLM_MODELSERVICE_DECODE_REPLICAS=${LLMDBENCH_VLLM_MODELSERVICE
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_PODANNOTATIONS=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_PODANNOTATIONS:-deployed-by:$LLMDBENCH_CONTROL_USERNAME,modelservice:llm-d-benchmark}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_MEM_UTIL=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_MEM_UTIL:-$LLMDBENCH_VLLM_COMMON_ACCELERATOR_MEM_UTIL}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_DATA_PARALLELISM=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_DATA_PARALLELISM:-1}
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_DATA_LOCAL_PARALLELISM=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_DATA_LOCAL_PARALLELISM:-1}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_TENSOR_PARALLELISM=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_TENSOR_PARALLELISM:-1}
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_NUM_WORKERS=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_NUM_WORKERS:-1}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_NR=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_NR:-auto}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_RESOURCE=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_RESOURCE:-auto}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_NETWORK_RESOURCE=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_NETWORK_RESOURCE:-$LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE}
@@ -374,7 +376,9 @@ export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_REPLICAS=${LLMDBENCH_VLLM_MODELSERVIC
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_PODANNOTATIONS=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_PODANNOTATIONS:-deployed-by:$LLMDBENCH_CONTROL_USERNAME,modelservice:llm-d-benchmark}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_MEM_UTIL=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_MEM_UTIL:-$LLMDBENCH_VLLM_COMMON_ACCELERATOR_MEM_UTIL}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_PARALLELISM=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_PARALLELISM:-1}
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_LOCAL_PARALLELISM=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_LOCAL_PARALLELISM:-1}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_TENSOR_PARALLELISM=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_TENSOR_PARALLELISM:-1}
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NUM_WORKERS=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NUM_WORKERS:-1}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_NR=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_NR:-auto}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_RESOURCE=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_RESOURCE:-auto}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NETWORK_RESOURCE=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NETWORK_RESOURCE:-$LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE}
diff --git a/setup/steps/09_deploy_via_modelservice.py b/setup/steps/09_deploy_via_modelservice.py
@@ -150,7 +150,9 @@ def generate_ms_values_yaml(
     decode_replicas = int(ev.get("vllm_modelservice_decode_replicas", "0"))
     decode_create = "true" if decode_replicas > 0 else "false"
     decode_data_parallelism = ev.get("vllm_modelservice_decode_data_parallelism", "1")
-    decode_tensor_parallelism = ev["vllm_modelservice_decode_tensor_parallelism"]
+    decode_data_local_parallelism = ev.get("vllm_modelservice_decode_data_local_parallelism", "1")
+    decode_tensor_parallelism = ev.get("vllm_modelservice_decode_tensor_parallelism", "1")
+    decode_workers_parallelism = ev.get("vllm_modelservice_decode_worker_parallelism", "1")
     decode_model_command = ev.get("vllm_modelservice_decode_model_command", "")
     decode_extra_args = ev.get("vllm_modelservice_decode_extra_args", "")
     decode_inference_port = ev["vllm_modelservice_decode_inference_port"]
@@ -159,9 +161,9 @@ def generate_ms_values_yaml(
     prefill_replicas = int(ev.get("vllm_modelservice_prefill_replicas", "0"))
     prefill_create = "true" if prefill_replicas > 0 else "false"
     prefill_data_parallelism = ev.get("vllm_modelservice_prefill_data_parallelism", "1")
-    prefill_tensor_parallelism = ev.get(
-        "vllm_modelservice_prefill_tensor_parallelism", "1"
-    )
+    prefill_data_local_parallelism = ev.get("vllm_modelservice_prefill_data_local_parallelism", "1")
+    prefill_tensor_parallelism = ev.get("vllm_modelservice_prefill_tensor_parallelism", "1")
+    prefill_workers_parallelism = ev.get("vllm_modelservice_prefill_worker_parallelism", "1")
     prefill_model_command = ev.get("vllm_modelservice_prefill_model_command", "")
     prefill_extra_args = ev.get("vllm_modelservice_prefill_extra_args", "")
     prefill_inference_port = ev["vllm_modelservice_prefill_inference_port"]
@@ -245,7 +247,9 @@ def generate_ms_values_yaml(
 {add_affinity(ev)}
   parallelism:
     data: {decode_data_parallelism}
+    dataLocal: {decode_data_local_parallelism}
     tensor: {decode_tensor_parallelism}
+    workers: {decode_workers_parallelism}
   annotations:
       {add_annotations("LLMDBENCH_VLLM_COMMON_ANNOTATIONS").lstrip()}
   podAnnotations:
@@ -300,7 +304,9 @@ def generate_ms_values_yaml(
 {add_affinity(ev)}
   parallelism:
     data: {prefill_data_parallelism}
+    dataLocal: {prefill_data_local_parallelism}
     tensor: {prefill_tensor_parallelism}
+    workers: {prefill_workers_parallelism}
   annotations:
       {add_annotations("LLMDBENCH_VLLM_COMMON_ANNOTATIONS").lstrip()}
   podAnnotations:
diff --git a/workload/report/convert.py b/workload/report/convert.py
@@ -223,19 +223,23 @@ def _get_llmd_benchmark_envars() -> dict:
                     "accelerator": [{
                         "model": os.environ['LLMDBENCH_VLLM_COMMON_AFFINITY'].split(':', 1)[-1],
                         "count": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_PREFILL_TENSOR_PARALLELISM'])
-                        * int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_PARALLELISM']),
+                        * int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_LOCAL_PARALLELISM']),
                         "parallelism": {
                             "tp": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_PREFILL_TENSOR_PARALLELISM']),
                             "dp": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_PARALLELISM']),
+                            "dpLocal": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_PREFILL_DATA_LOCAL_PARALLELISM']),
+                            "workers": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NUM_WORKERS']),
                         },
                     }] * int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_PREFILL_REPLICAS']) +
                     [{
                         "model": os.environ['LLMDBENCH_VLLM_COMMON_AFFINITY'].split(':', 1)[-1],
                         "count": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_DECODE_TENSOR_PARALLELISM'])
-                        * int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_DECODE_DATA_PARALLELISM']),
+                        * int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_DECODE_DATA_LOCAL_PARALLELISM']),
                         "parallelism": {
                             "tp": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_DECODE_TENSOR_PARALLELISM']),
                             "dp": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_DECODE_DATA_PARALLELISM']),
+                            "dpLocal": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_DECODE_DATA_LOCAL_PARALLELISM']),
+                            "workers": int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_DECODE_NUM_WORKERS']),
                         },
                     }] * int(os.environ['LLMDBENCH_VLLM_MODELSERVICE_DECODE_REPLICAS']),
                 },