fix: drop load_format=dummy_dtensor; modern vllm rejects it. let verl default win

Devesh-Maheshwari · Devesh-Maheshwari · commit 50a41321b98e · 2026-04-25T04:32:43.000-05:00
diff --git a/configs/grpo_qwen1_5b.yaml b/configs/grpo_qwen1_5b.yaml
@@ -24,7 +24,10 @@ data:
   tokenizer: null
   # Default: dataset built by `scripts/build_grpo_dataset.py`. Override per-run.
   train_files: results/grpo_dataset/v1/train.parquet
-  val_files: null
+  # verl tries to LOAD a val dataset even with test_freq: -1, so point at
+  # the train parquet to keep it happy. Validation logic itself is disabled
+  # via test_freq + val_before_train, so this dataset is never iterated.
+  val_files: results/grpo_dataset/v1/train.parquet
   prompt_key: prompt
   max_prompt_length: 1024
   max_response_length: 1024
@@ -86,7 +89,9 @@ actor_rollout_ref:
     ignore_eos: false
     enforce_eager: false
     free_cache_engine: true
-    load_format: dummy_dtensor
+    # load_format inherited from ppo_trainer defaults (modern vLLM rejects the
+    # old "dummy_dtensor" name). Let verl pick a compatible value for its
+    # bundled vLLM version.
     tensor_model_parallel_size: 1
     max_num_batched_tokens: 8192
     max_num_seqs: 1024
diff --git a/configs/grpo_qwen7b.yaml b/configs/grpo_qwen7b.yaml
@@ -74,7 +74,8 @@ actor_rollout_ref:
     ignore_eos: false
     enforce_eager: false
     free_cache_engine: true
-    load_format: dummy_dtensor
+    # load_format inherited from ppo_trainer defaults (modern vLLM rejects
+    # the old "dummy_dtensor" name).
     tensor_model_parallel_size: 2  # split rollout across 2 GPUs
     max_num_batched_tokens: 8192
     max_num_seqs: 512