huggingface · qgallouedec · Apr 22, 2025 · Apr 14, 2025 · Apr 14, 2025 · Apr 17, 2025
diff --git a/trl/trainer/grpo_trainer.py b/trl/trainer/grpo_trainer.py
@@ -312,7 +312,9 @@ def reward_func(completions, **kwargs):
             Dataset to use for evaluation. It must meet the same requirements as `train_dataset`.
         processing_class ([`~transformers.PreTrainedTokenizerBase`], *optional*, defaults to `None`):
             Processing class used to process the data. The padding side must be set to "left". If `None`, the
-            processing class is loaded from the model's name with [`~transformers.AutoTokenizer.from_pretrained`].
+            processing class is loaded from the model's name with [`~transformers.AutoTokenizer.from_pretrained`]. A padding
+            token, `processing_class.pad_token`, must be defined. If not explicitly set, `processing_class.eos_token` will
+            be used as the default padding token.
         reward_processing_classes (`Union[PreTrainedTokenizerBase, list[PreTrainedTokenizerBase]]`, *optional*, defaults to `None`):
             Processing classes corresponding to the reward functions specified in `reward_funcs`. Can be either:
 
@@ -418,6 +420,8 @@ def __init__(
         # Processing class
         if processing_class is None:
             processing_class = AutoTokenizer.from_pretrained(model.config._name_or_path, padding_side="left")
+            if processing_class.pad_token is None:
+                processing_class.pad_token = processing_class.eos_token
-            if processing_class.pad_token is None:
-                processing_class.pad_token = processing_class.eos_token
+        if processing_class.pad_token is None:
+            processing_class.pad_token = processing_class.eos_token
-            if processing_class.pad_token is None:
-                processing_class.pad_token = processing_class.eos_token
+        if processing_class.pad_token is None:
+            processing_class.pad_token = processing_class.eos_token
 
         # Reward functions
         if not isinstance(reward_funcs, list):