reuse max_num_seqs for max_batch_size

Superjomn · Superjomn · commit 5ad352e5d8a9 · 2026-01-15T16:50:26.000+08:00
diff --git a/verl/trainer/config/_generated_ppo_megatron_trainer.yaml b/verl/trainer/config/_generated_ppo_megatron_trainer.yaml
@@ -216,7 +216,6 @@ actor_rollout_ref:
     data_parallel_size: 1
     expert_parallel_size: 1
     pipeline_model_parallel_size: 1
-    max_batch_size: 256
     max_num_batched_tokens: 8192
     max_model_len: null
     max_num_seqs: 1024
diff --git a/verl/trainer/config/_generated_ppo_trainer.yaml b/verl/trainer/config/_generated_ppo_trainer.yaml
@@ -207,7 +207,6 @@ actor_rollout_ref:
     data_parallel_size: 1
     expert_parallel_size: 1
     pipeline_model_parallel_size: 1
-    max_batch_size: 256
     max_num_batched_tokens: 8192
     max_model_len: null
     max_num_seqs: 1024
diff --git a/verl/trainer/config/rollout/rollout.yaml b/verl/trainer/config/rollout/rollout.yaml
@@ -58,9 +58,6 @@ expert_parallel_size: 1
 # PP size for rollout.
 pipeline_model_parallel_size: 1
 
-# max batch size for rollout
-max_batch_size: 256
-
 # max number of tokens in a batch
 max_num_batched_tokens: 8192
 
diff --git a/verl/workers/config/rollout.py b/verl/workers/config/rollout.py
@@ -151,7 +151,6 @@ class RolloutConfig(BaseConfig):
     max_num_batched_tokens: int = 8192
     logprobs_mode: Optional[str] = "processed_logprobs"
     scheduling_policy: Optional[str] = "fcfs"
-    max_batch_size: int = 256
 
     # TODO: enable train_kwargs
     # train_sampling_config: SamplingConfig = field(default_factory=SamplingConfig)
diff --git a/verl/workers/rollout/trtllm_rollout/trtllm_async_server.py b/verl/workers/rollout/trtllm_rollout/trtllm_async_server.py
@@ -109,7 +109,7 @@ async def launch_server(self):
         cuda_graph_config = CudaGraphConfig(
             enable_padding=True,
             batch_sizes=self.config.cudagraph_capture_sizes,
-            max_batch_size=0 if self.config.cudagraph_capture_sizes else self.config.max_batch_size,
+            max_batch_size=0 if self.config.cudagraph_capture_sizes else self.config.max_num_seqs,
         )
 
         per_worker_gpu_share = 1.0 / self.max_colocate_count
@@ -122,7 +122,7 @@ async def launch_server(self):
             "kv_cache_config": kv_cache_config,
             "cuda_graph_config": cuda_graph_config,
             "max_seq_len": self.config.max_model_len,
-            "max_batch_size": self.config.max_batch_size,
+            "max_batch_size": self.config.max_num_seqs,
             "max_num_tokens": self.config.max_num_batched_tokens,
             "tensor_parallel_size": self.config.tensor_model_parallel_size,
             "trust_remote_code": self.model_config.trust_remote_code,