fix multi-gpu llm tests

nrghosh · nrghosh · commit cf7f2bee1795 · 2026-01-21T16:05:25.000-08:00
- use MoE model (Deepseek-V2-Lite) because vllm-project/vllm#30739 changes how vLLM handles DP ranks - overrides dp_size=1 and dp_rank=0 if non-MoE model. - fixes doc/source/llm/doc_code/serve/multi_gpu/dp_basic_example.py and doc/source/llm/doc_code/serve/multi_gpu/dp_pd_example.py Signed-off-by: Nikhil Ghosh <nikhil@anyscale.com>
diff --git a/doc/source/llm/doc_code/serve/multi_gpu/dp_basic_example.py b/doc/source/llm/doc_code/serve/multi_gpu/dp_basic_example.py
@@ -42,7 +42,7 @@ def _testing_build_dp_openai_app(builder_config, **kwargs):
 # Configure the model with data parallel settings
 config = LLMConfig(
     model_loading_config={
-        "model_id": "Qwen/Qwen2.5-0.5B-Instruct"
+        "model_id": "deepseek-ai/DeepSeek-V2-Lite"
     },
     engine_kwargs={
         "data_parallel_size": 2,  # Number of DP replicas
diff --git a/doc/source/llm/doc_code/serve/multi_gpu/dp_pd_example.py b/doc/source/llm/doc_code/serve/multi_gpu/dp_pd_example.py
@@ -57,7 +57,7 @@ def _testing_build_dp_deployment(llm_config, **kwargs):
 # Configure prefill with data parallel attention
 prefill_config = LLMConfig(
     model_loading_config={
-        "model_id": "Qwen/Qwen2.5-0.5B-Instruct"
+        "model_id": "deepseek-ai/DeepSeek-V2-Lite"
     },
     engine_kwargs={
         "data_parallel_size": 2,  # 2 DP replicas for prefill
@@ -78,7 +78,7 @@ def _testing_build_dp_deployment(llm_config, **kwargs):
 # Configure decode with data parallel attention
 decode_config = LLMConfig(
     model_loading_config={
-        "model_id": "Qwen/Qwen2.5-0.5B-Instruct"
+        "model_id": "deepseek-ai/DeepSeek-V2-Lite"
     },
     engine_kwargs={
         "data_parallel_size": 2,  # 2 DP replicas for decode (adjusted for 4 GPU limit)