clean PR

ETOgaosion · ETOgaosion · commit 3d368eb0a332 · 2025-05-24T05:21:16.000Z
diff --git a/.github/workflows/e2e_ppo_trainer_megatron.yml b/.github/workflows/e2e_ppo_trainer_megatron.yml
@@ -40,51 +40,9 @@ permissions:
   contents: read
 
 jobs:
-  e2e_ppo_trainer_megatron-qwen:
-    runs-on: [L20x8]
-    timeout-minutes: 60 # Increase this timeout value as needed
-    env:
-      HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
-      HTTPS_PROXY: ${{ secrets.PROXY_HTTPS }}
-      NO_PROXY: "localhost,127.0.0.1,hf-mirror.com"
-      HF_ENDPOINT: "https://hf-mirror.com"
-      HF_HUB_ENABLE_HF_TRANSFER: "0" # This is more stable
-    container:
-      image: whatcanyousee/verl:ngc-cu124-vllm0.8.5-sglang0.4.6-mcore0.12.0-te2.3
-      options: --gpus all --shm-size=10g
-    steps:
-      - uses: actions/checkout@11bd71901bbe5b1630ceea73d27597364c9af683 # v4.2.2
-        with:
-          fetch-depth: 0
-      - name: Install the current repository
-        run: |
-          pip3 install --no-deps -e .[test]
-      - name: Prepare GSM8K dataset
-        run: |
-          python3 examples/data_preprocess/gsm8k.py
-      - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (Qwen) with validation and saving
-        run: |
-          ray stop --force
-          ALL_OFFLOAD=True VAL_BEFORE_TRAIN=True TEST_FREQ=1 SAVE_FREQ=1 bash tests/e2e/run_ppo_trainer_megatron.sh
-      - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (Qwen) after resuming
-        run: |
-          ray stop --force
-          RESUME_MODE=auto  TOT_TRAIN_STEPS=2 bash tests/e2e/run_ppo_trainer_megatron.sh
-      - name: Test Megatron checkpoints merging function (Qwen Actor and Critic)
-        run: |
-          exp_name="qwen2.5-0.5b-megatron-gsm8k-minimal"
-          python scripts/model_merger.py test --backend megatron --tie-word-embedding --local_dir checkpoints/verl-test/${exp_name}/global_step_1/actor --test_hf_dir checkpoints/verl-test/${exp_name}/global_step_1/actor/huggingface
-          python scripts/model_merger.py test --backend megatron --is-value-model --local_dir checkpoints/verl-test/${exp_name}/global_step_1/critic --test_hf_dir checkpoints/verl-test/${exp_name}/global_step_1/critic/huggingface
-      - name: Running GRPO GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (Qwen)
-        run: |
-          ray stop --force
-          ADV_ESTIMATOR=grpo TOT_TRAIN_STEPS=2 bash tests/e2e/run_ppo_trainer_megatron.sh
-      - name: clean up
-        run: |
-          rm -rf checkpoints
   e2e_ppo_trainer_megatron-deepseek:
     runs-on: [L20x8]
-    timeout-minutes: 60 # Increase this timeout value as needed
+    timeout-minutes: 90 # Increase this timeout value as needed
     env:
       HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
       HTTPS_PROXY: ${{ secrets.PROXY_HTTPS }}
@@ -111,11 +69,11 @@ jobs:
       - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (DeepSeek)
         run: |
           ray stop --force
-          RESUME_MODE=auto MODEL_ID=deepseek-ai/deepseek-coder-1.3b-instruct TOT_TRAIN_STEPS=2 bash tests/e2e/run_ppo_trainer_megatron.sh
+          RESUME_MODE=auto MODEL_ID=deepseek-ai/deepseek-coder-1.3b-instruct TOTAL_TRAIN_STEPS=2 bash tests/e2e/run_ppo_trainer_megatron.sh
       - name: Running GRPO GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (Deepseek)
         run: |
           ray stop --force
-          ADV_ESTIMATOR=grpo MODEL_ID=deepseek-ai/deepseek-coder-1.3b-instruct TOT_TRAIN_STEPS=2 bash tests/e2e/run_ppo_trainer_megatron.sh
+          ADV_ESTIMATOR=grpo MODEL_ID=deepseek-ai/deepseek-coder-1.3b-instruct TOTAL_TRAIN_STEPS=2 bash tests/e2e/run_ppo_trainer_megatron.sh
       - name: Test Megatron checkpoints merging function (DeepSeek Actor and Critic)
         run: |
           exp_name="deepseek-coder-1.3b-instruct-megatron-gsm8k-minimal"
@@ -126,7 +84,7 @@ jobs:
           rm -rf checkpoints
   e2e_ppo_trainer_megatron-qwen3:
     runs-on: [L20x8]
-    timeout-minutes: 30 # Increase this timeout value as needed
+    timeout-minutes: 90 # Increase this timeout value as needed
     env:
       HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
       HTTPS_PROXY: ${{ secrets.PROXY_HTTPS }}
@@ -166,42 +124,9 @@ jobs:
       - name: clean up
         run: |
           rm -rf checkpoints
-  e2e_ppo_trainer_megatron-different-train-infer-tp-qwen:
-    runs-on: [L20x8]
-    timeout-minutes: 60 # Increase this timeout value as needed
-    env:
-      HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
-      HTTPS_PROXY: ${{ secrets.PROXY_HTTPS }}
-      NO_PROXY: "localhost,127.0.0.1,hf-mirror.com"
-      HF_ENDPOINT: "https://hf-mirror.com"
-      HF_HUB_ENABLE_HF_TRANSFER: "0" # This is more stable
-    container:
-      image: whatcanyousee/verl:ngc-cu124-vllm0.8.5-sglang0.4.6-mcore0.12.0-te2.3
-      options: --gpus all --shm-size=10g
-    steps:
-      - uses: actions/checkout@11bd71901bbe5b1630ceea73d27597364c9af683 # v4.2.2
-        with:
-          fetch-depth: 0
-      - name: Install the current repository
-        run: |
-          pip3 install --no-deps -e .[test]
-      - name: Prepare GSM8K dataset
-        run: |
-          python3 examples/data_preprocess/gsm8k.py
-      - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (Qwen) with train tp > infer tp
-        run: |
-          ray stop --force
-          VAL_BEFORE_TRAIN=True TEST_FREQ=1 SAVE_FREQ=1 TRAIN_TP=2 INFER_TP=1 bash tests/e2e/run_ppo_trainer_megatron.sh
-      - name: Running GSM8K E2E training tests with 3D parallelism on 8 L20 GPUs with Megatron (Qwen) with  train tp < infer tp
-        run: |
-          ray stop --force
-          VAL_BEFORE_TRAIN=True TEST_FREQ=1 SAVE_FREQ=1 TRAIN_TP=1 INFER_TP=2 bash tests/e2e/run_ppo_trainer_megatron.sh
-      - name: clean up
-        run: |
-          rm -rf checkpoints
   e2e_ppo_trainer_megatron-different-train-infer-tp-qwen-tie-embedding:
     runs-on: [L20x8]
-    timeout-minutes: 60 # Increase this timeout value as needed
+    timeout-minutes: 90 # Increase this timeout value as needed
     env:
       HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
       HTTPS_PROXY: ${{ secrets.PROXY_HTTPS }}
@@ -234,7 +159,7 @@ jobs:
           rm -rf checkpoints
   e2e_ppo_trainer_megatron-qwen-override-transformer-config:
     runs-on: [L20x8]
-    timeout-minutes: 60 # Increase this timeout value as needed
+    timeout-minutes: 90 # Increase this timeout value as needed
     env:
       HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
       HTTPS_PROXY: ${{ secrets.PROXY_HTTPS }}
@@ -273,7 +198,7 @@ jobs:
           rm -rf checkpoints
   e2e_ppo_trainer_megatron-deepseek-override-transformer-config:
     runs-on: [L20x8]
-    timeout-minutes: 60 # Increase this timeout value as needed
+    timeout-minutes: 90 # Increase this timeout value as needed
     env:
       HTTP_PROXY: ${{ secrets.PROXY_HTTP }}
       HTTPS_PROXY: ${{ secrets.PROXY_HTTPS }}
diff --git a/tests/e2e/ppo_trainer/run_function_reward.sh b/tests/e2e/ppo_trainer/run_function_reward.sh
@@ -29,7 +29,7 @@ TEST_FREQ=${TEST_FREQ:--1}
 # Save & Resume
 RESUME_MODE=${RESUME_MODE:-disable}
 SAVE_FREQ=${SAVE_FREQ:--1}
-TOT_TRAIN_STEPS=${TOT_TRAIN_STEPS:-1}
+TOTAL_TRAIN_STEPS=${TOTAL_TRAIN_STEPS:-1}
 
 # whether to save hf_model
 SAVE_HF_MODEL=${SAVE_HF_MODEL:-False}
@@ -115,7 +115,7 @@ python3 -m verl.trainer.main_ppo \
     trainer.save_freq="${SAVE_FREQ}" \
     trainer.resume_mode="${RESUME_MODE}" \
     trainer.total_epochs=2 \
-    trainer.total_training_steps="${TOT_TRAIN_STEPS}" $@ \
+    trainer.total_training_steps="${TOTAL_TRAIN_STEPS}" $@ \
     | tee "${output_file}"
 
 if [ "${CUSTOM_REWARD_FN}" = "True" ]; then
diff --git a/tests/e2e/ppo_trainer/run_model_reward.sh b/tests/e2e/ppo_trainer/run_model_reward.sh
@@ -20,7 +20,7 @@ TEST_FREQ=${TEST_FREQ:--1}
 # Save & Resume
 RESUME_MODE=${RESUME_MODE:-disable}
 SAVE_FREQ=${SAVE_FREQ:--1}
-TOT_TRAIN_STEPS=${TOT_TRAIN_STEPS:-1}
+TOTAL_TRAIN_STEPS=${TOTAL_TRAIN_STEPS:-1}
 
 train_traj_micro_bsz_per_gpu=2 # b
 n_resp_per_prompt=4 # g
@@ -94,4 +94,4 @@ python3 -m verl.trainer.main_ppo \
     trainer.save_freq="${SAVE_FREQ}" \
     trainer.resume_mode="${RESUME_MODE}" \
     trainer.total_epochs=2 \
-    trainer.total_training_steps="${TOT_TRAIN_STEPS}" $@
+    trainer.total_training_steps="${TOTAL_TRAIN_STEPS}" $@
diff --git a/tests/e2e/run_ppo_trainer_megatron.sh b/tests/e2e/run_ppo_trainer_megatron.sh
@@ -19,7 +19,7 @@ TEST_FREQ=${TEST_FREQ:--1}
 # Save & Resume
 RESUME_MODE=${RESUME_MODE:-disable}
 SAVE_FREQ=${SAVE_FREQ:--1}
-TOT_TRAIN_STEPS=${TOT_TRAIN_STEPS:-1}
+TOTAL_TRAIN_STEPS=${TOTAL_TRAIN_STEPS:-1}
 
 train_traj_micro_bsz_per_gpu=2 # b
 n_resp_per_prompt=4 # g
@@ -75,76 +75,80 @@ if [ $SKIP_SAVE_HF_MODEL -eq 1 ]; then
     CHECKPOINT_CONTENTS=['model','optimizer','extra']
 fi
 
+ENGINES=${ENGINES:-['vllm', 'sglang', 'sglang_async']}
+
 exp_name="$(basename "${MODEL_ID,,}")-megatron-gsm8k-minimal"
 
-python3 -m verl.trainer.main_ppo --config-path=config \
-    --config-name='ppo_megatron_trainer.yaml'\
-    algorithm.adv_estimator="${ADV_ESTIMATOR}" \
-    data.train_files="${TRAIN_FILES}" \
-    data.val_files="${VAL_FILES}" \
-    data.train_batch_size=${train_prompt_bsz} \
-    data.max_prompt_length=512 \
-    data.max_response_length=512 \
-    data.filter_overlong_prompts=True \
-    data.truncation='error' \
-    actor_rollout_ref.model.path="${MODEL_PATH}" \
-    actor_rollout_ref.actor.optim.lr=1e-6 \
-    actor_rollout_ref.actor.ppo_mini_batch_size=${train_prompt_mini_bsz} \
-    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
-    actor_rollout_ref.actor.megatron.pipeline_model_parallel_size=$ACTOR_PP \
-    actor_rollout_ref.actor.megatron.virtual_pipeline_model_parallel_size=$ACTOR_VPP \
-    actor_rollout_ref.actor.megatron.context_parallel_size=$ACTOR_CP \
-    actor_rollout_ref.actor.megatron.tensor_model_parallel_size=$ACTOR_TP \
-    actor_rollout_ref.actor.megatron.param_offload=${ACTOR_PARAM_OFFLOAD} \
-    actor_rollout_ref.actor.megatron.optimizer_offload=${ACTOR_OPTIMIZER_OFFLOAD} \
-    actor_rollout_ref.actor.megatron.grad_offload=${ACTOR_GRAD_OFFLOAD} \
-    actor_rollout_ref.actor.use_kl_loss=True \
-    actor_rollout_ref.actor.kl_loss_coef=0.001 \
-    actor_rollout_ref.actor.kl_loss_type=low_var_kl \
-    actor_rollout_ref.actor.checkpoint.contents=$CHECKPOINT_CONTENTS \
-    actor_rollout_ref.rollout.name="${ENGINE}" \
-    actor_rollout_ref.rollout.tensor_model_parallel_size=$ROLLOUT_TP \
-    actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
-    actor_rollout_ref.rollout.n=${n_resp_per_prompt} \
-    actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
-    actor_rollout_ref.ref.megatron.pipeline_model_parallel_size=$REF_PP \
-    actor_rollout_ref.ref.megatron.virtual_pipeline_model_parallel_size=$REF_VPP \
-    actor_rollout_ref.ref.megatron.context_parallel_size=$REF_CP \
-    actor_rollout_ref.ref.megatron.tensor_model_parallel_size=$REF_TP \
-    actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
-    actor_rollout_ref.ref.megatron.param_offload=${REF_PARAM_OFFLOAD} \
-    critic.optim.lr=2e-5 \
-    critic.model.path="${MODEL_PATH}" \
-    critic.model.enable_gradient_checkpointing=False \
-    critic.ppo_micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
-    critic.megatron.pipeline_model_parallel_size=$CRITIC_PP \
-    critic.megatron.virtual_pipeline_model_parallel_size=$CRITIC_VPP \
-    critic.megatron.context_parallel_size=$CRITIC_CP \
-    critic.megatron.tensor_model_parallel_size=$CRITIC_TP \
-    critic.checkpoint.contents=$CHECKPOINT_CONTENTS \
-    critic.megatron.param_offload=${CRITIC_PARAM_OFFLOAD} \
-    critic.megatron.optimizer_offload=${CRITIC_OPTIMIZER_OFFLOAD} \
-    critic.megatron.grad_offload=${CRITIC_GRAD_OFFLOAD} \
-    reward_model.enable=True \
-    reward_model.model.path="${MODEL_PATH}" \
-    reward_model.micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
-    reward_model.megatron.pipeline_model_parallel_size=$RM_PP \
-    reward_model.megatron.virtual_pipeline_model_parallel_size=$RM_VPP \
-    reward_model.megatron.context_parallel_size=$RM_CP \
-    reward_model.megatron.tensor_model_parallel_size=$RM_TP \
-    reward_model.megatron.param_offload=${RM_PARAM_OFFLOAD} \
-    algorithm.use_kl_in_reward=False \
-    algorithm.kl_penalty=kl \
-    algorithm.kl_ctrl.kl_coef=0.001 \
-    trainer.critic_warmup=0 \
-    trainer.logger=['console'] \
-    trainer.project_name='verl-test' \
-    trainer.experiment_name="${exp_name}" \
-    trainer.nnodes=1 \
-    trainer.n_gpus_per_node=${NUM_GPUS} \
-    trainer.val_before_train="${VAL_BEFORE_TRAIN}" \
-    trainer.test_freq="${TEST_FREQ}" \
-    trainer.save_freq="${SAVE_FREQ}" \
-    trainer.resume_mode="${RESUME_MODE}" \
-    trainer.total_epochs=2 \
-    trainer.total_training_steps="${TOT_TRAIN_STEPS}" $@
+for ENGINE in "${ENGINES[@]}"; do
+    python3 -m verl.trainer.main_ppo --config-path=config \
+        --config-name='ppo_megatron_trainer.yaml'\
+        algorithm.adv_estimator="${ADV_ESTIMATOR}" \
+        data.train_files="${TRAIN_FILES}" \
+        data.val_files="${VAL_FILES}" \
+        data.train_batch_size=${train_prompt_bsz} \
+        data.max_prompt_length=512 \
+        data.max_response_length=512 \
+        data.filter_overlong_prompts=True \
+        data.truncation='error' \
+        actor_rollout_ref.model.path="${MODEL_PATH}" \
+        actor_rollout_ref.actor.optim.lr=1e-6 \
+        actor_rollout_ref.actor.ppo_mini_batch_size=${train_prompt_mini_bsz} \
+        actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
+        actor_rollout_ref.actor.megatron.pipeline_model_parallel_size=$ACTOR_PP \
+        actor_rollout_ref.actor.megatron.virtual_pipeline_model_parallel_size=$ACTOR_VPP \
+        actor_rollout_ref.actor.megatron.context_parallel_size=$ACTOR_CP \
+        actor_rollout_ref.actor.megatron.tensor_model_parallel_size=$ACTOR_TP \
+        actor_rollout_ref.actor.megatron.param_offload=${ACTOR_PARAM_OFFLOAD} \
+        actor_rollout_ref.actor.megatron.optimizer_offload=${ACTOR_OPTIMIZER_OFFLOAD} \
+        actor_rollout_ref.actor.megatron.grad_offload=${ACTOR_GRAD_OFFLOAD} \
+        actor_rollout_ref.actor.use_kl_loss=True \
+        actor_rollout_ref.actor.kl_loss_coef=0.001 \
+        actor_rollout_ref.actor.kl_loss_type=low_var_kl \
+        actor_rollout_ref.actor.checkpoint.contents=$CHECKPOINT_CONTENTS \
+        actor_rollout_ref.rollout.name="${ENGINE}" \
+        actor_rollout_ref.rollout.tensor_model_parallel_size=$ROLLOUT_TP \
+        actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
+        actor_rollout_ref.rollout.n=${n_resp_per_prompt} \
+        actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
+        actor_rollout_ref.ref.megatron.pipeline_model_parallel_size=$REF_PP \
+        actor_rollout_ref.ref.megatron.virtual_pipeline_model_parallel_size=$REF_VPP \
+        actor_rollout_ref.ref.megatron.context_parallel_size=$REF_CP \
+        actor_rollout_ref.ref.megatron.tensor_model_parallel_size=$REF_TP \
+        actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
+        actor_rollout_ref.ref.megatron.param_offload=${REF_PARAM_OFFLOAD} \
+        critic.optim.lr=2e-5 \
+        critic.model.path="${MODEL_PATH}" \
+        critic.model.enable_gradient_checkpointing=False \
+        critic.ppo_micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
+        critic.megatron.pipeline_model_parallel_size=$CRITIC_PP \
+        critic.megatron.virtual_pipeline_model_parallel_size=$CRITIC_VPP \
+        critic.megatron.context_parallel_size=$CRITIC_CP \
+        critic.megatron.tensor_model_parallel_size=$CRITIC_TP \
+        critic.checkpoint.contents=$CHECKPOINT_CONTENTS \
+        critic.megatron.param_offload=${CRITIC_PARAM_OFFLOAD} \
+        critic.megatron.optimizer_offload=${CRITIC_OPTIMIZER_OFFLOAD} \
+        critic.megatron.grad_offload=${CRITIC_GRAD_OFFLOAD} \
+        reward_model.enable=True \
+        reward_model.model.path="${MODEL_PATH}" \
+        reward_model.micro_batch_size_per_gpu=${train_traj_micro_bsz_per_gpu} \
+        reward_model.megatron.pipeline_model_parallel_size=$RM_PP \
+        reward_model.megatron.virtual_pipeline_model_parallel_size=$RM_VPP \
+        reward_model.megatron.context_parallel_size=$RM_CP \
+        reward_model.megatron.tensor_model_parallel_size=$RM_TP \
+        reward_model.megatron.param_offload=${RM_PARAM_OFFLOAD} \
+        algorithm.use_kl_in_reward=False \
+        algorithm.kl_penalty=kl \
+        algorithm.kl_ctrl.kl_coef=0.001 \
+        trainer.critic_warmup=0 \
+        trainer.logger=['console'] \
+        trainer.project_name='verl-test' \
+        trainer.experiment_name="${exp_name}" \
+        trainer.nnodes=1 \
+        trainer.n_gpus_per_node=${NUM_GPUS} \
+        trainer.val_before_train="${VAL_BEFORE_TRAIN}" \
+        trainer.test_freq="${TEST_FREQ}" \
+        trainer.save_freq="${SAVE_FREQ}" \
+        trainer.resume_mode="${RESUME_MODE}" \
+        trainer.total_epochs=2 \
+        trainer.total_training_steps="${TOTAL_TRAIN_STEPS}" $@
+done
diff --git a/verl/workers/sharding_manager/megatron_vllm.py b/verl/workers/sharding_manager/megatron_vllm.py