reward handling & a WAR for ppo test

hchings · Superjomn · commit 771d59a703fe · 2026-01-09T13:28:22.000+08:00
diff --git a/.github/workflows/e2e_ppo_grpo_trainer_trtllm.yml b/.github/workflows/e2e_ppo_grpo_trainer_trtllm.yml
@@ -1,3 +1,6 @@
+# TODO: This workflow will not pass in CI yet. It needs:
+#   - uploading dummy reward model to verl CI
+
 # # Tests layout
 
 # Each folder under tests/ corresponds to a test category for a sub-namespace in verl. For instance:
@@ -171,7 +174,7 @@ jobs:
         run: |
           rm -rf checkpoints
 
-  e2e_ppo_trainer_megatron-qwen3:
+  e2e_ppo_trainer_megatron-qwen2:
     needs: setup
     runs-on: ["${{ needs.setup.outputs.runner-label || 'L20x8' }}"]
     timeout-minutes: 10 # Increase this timeout value as needed
@@ -193,32 +196,40 @@ jobs:
       - name: Prepare GSM8K dataset
         run: |
           python3 examples/data_preprocess/gsm8k.py --local_dataset_path ${HOME}/models/hf_data/gsm8k
-      - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with tie-embedding Megatron (Qwen) with train tp > infer tp
+      - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (Qwen), dummy RM, and train tp > infer tp
         run: |
           ray stop --force
           ENGINE=trtllm \
+            TOTAL_TRAIN_STEPS=1 \
             VAL_BEFORE_TRAIN=True \
             TEST_FREQ=1 \
             SAVE_FREQ=1 \
             TRAIN_TP=2 \
             INFER_TP=1 \
-            MODEL_ID=Qwen/Qwen3-0.6B \
+            RM_TP=8 \
+            RM_NUM_WORKERS=2 \
+            MODEL_ID=Qwen/Qwen2.5-1.5B \
             bash tests/special_e2e/run_ppo_trainer_megatron.sh \
-              actor_rollout_ref.rollout.mode=async \
-              actor_rollout_ref.rollout.calculate_log_probs=True
-      - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with tie-embedding Megatron (Qwen) with train tp < infer tp
+              actor_rollout_ref.rollout.mode="async" \
+              actor_rollout_ref.rollout.calculate_log_probs=True \
+              +reward_model.rollout.engine_kwargs.trtllm.disable_overlap_scheduler=True
+      - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (Qwen), dummy RM, and train tp < infer tp
         run: |
           ray stop --force
           ENGINE=trtllm \
+            TOTAL_TRAIN_STEPS=1 \
             VAL_BEFORE_TRAIN=True \
             TEST_FREQ=1 \
             SAVE_FREQ=1 \
             TRAIN_TP=1 \
             INFER_TP=2 \
-            MODEL_ID=Qwen/Qwen3-0.6B \
+            RM_TP=8 \
+            RM_NUM_WORKERS=2 \
+            MODEL_ID=Qwen/Qwen2.5-1.5B \
             bash tests/special_e2e/run_ppo_trainer_megatron.sh \
-              actor_rollout_ref.rollout.mode=async \
-              actor_rollout_ref.rollout.calculate_log_probs=True
+              actor_rollout_ref.rollout.mode="async" \
+              actor_rollout_ref.rollout.calculate_log_probs=True \
+              +reward_model.rollout.engine_kwargs.trtllm.disable_overlap_scheduler=True
       - name: clean up
         run: |
           rm -rf checkpoints
diff --git a/tests/special_e2e/run_ppo_trainer_megatron.sh b/tests/special_e2e/run_ppo_trainer_megatron.sh
@@ -6,10 +6,10 @@ export VERL_LOGGING_LEVEL=INFO
 export VERL_PPO_LOGGING_LEVEL=INFO
 
 NUM_GPUS=${NUM_GPUS:-8}
-
 MODEL_ID=${MODEL_ID:-Qwen/Qwen2.5-0.5B}
 MODEL_PATH=${MODEL_PATH:-${HOME}/models/${MODEL_ID}}
 RM_MODEL_PATH=${RM_MODEL_PATH:-${HOME}/models/Skywork/Skywork-Reward-V2-Llama-3.2-1B}
+RM_NUM_WORKERS=${RM_NUM_WORKERS:-8}
 #huggingface-cli download "${MODEL_ID}" --local-dir "${MODEL_PATH}"
 
 USE_DUMMY_MODEL=${USE_DUMMY_MODEL:-False}
@@ -69,6 +69,7 @@ COMMON_ETP=${COMMON_ETP:-1}
 
 TRAIN_TP=${TRAIN_TP:-$COMMON_TP}
 INFER_TP=${INFER_TP:-$COMMON_TP}
+RM_TP=${RM_TP:-$INFER_TP}
 
 ACTOR_PP=${ACTOR_PP:-$COMMON_PP}
 ACTOR_VPP=${ACTOR_VPP:-$COMMON_VPP}
@@ -244,10 +245,10 @@ python3 -m verl.trainer.main_ppo --config-path=config \
     reward_model.use_reward_loop=True \
     reward_model.rollout.name=${ENGINE} \
     reward_model.rollout.gpu_memory_utilization=0.6 \
-    reward_model.rollout.tensor_model_parallel_size=${INFER_TP} \
+    reward_model.rollout.tensor_model_parallel_size=${RM_TP} \
     reward_model.rollout.prompt_length=${MAX_RM_LENGTH} \
     reward_model.rollout.response_length=${MAX_RESPONSE_LENGTH} \
-    reward_model.num_workers=8 \
+    reward_model.num_workers=${RM_NUM_WORKERS} \
     algorithm.use_kl_in_reward=False \
     algorithm.kl_penalty=kl \
     algorithm.kl_ctrl.kl_coef=0.001 \
diff --git a/verl/experimental/reward_loop/reward_loop.py b/verl/experimental/reward_loop/reward_loop.py
@@ -218,6 +218,19 @@ async def compute_score_disrm(self, data: DataProto) -> dict:
             }
             output = await self._post_request(payloads, "v1/embeddings")
             rm_score = output["data"][-1]["embedding"][-1]
+        elif engine_name == "trtllm":
+            return {"reward_score": 0.3}  # WAR: Tenative returning a fake reward score to test PPO e2e
+
+            payloads = {
+                "model": model_name,
+                "prompt": disrm_prompt,
+                # "max_tokens": 1024,
+                "return_context_logits": True,
+            }
+
+            output = await self._post_request(payloads, "v1/completions")
+            assert "choices" in output and output["choices"], "TRTLLM OpenAI server response is missing choices field"
+            rm_score = output["choices"][0]["context_logits"]
         else:
             raise NotImplementedError(f"RewardLoopManager does not support {engine_name}")