[algo] fix gspo sequence ratio broadcast (#596)

rank-Yu · web-flow · commit fd9a5d974857 · 2026-01-05T22:55:28.000+08:00
diff --git a/verl/trainer/core_algos.py b/verl/trainer/core_algos.py
@@ -469,7 +469,7 @@ def compute_policy_loss(
         if loss_type == "gspo_token":
             log_importance_ratio = negative_approx_kl_in_seq.detach().unsqueeze(-1) + log_probs - log_probs.detach()
         else:
-            log_importance_ratio = negative_approx_kl_in_seq * response_mask
+            log_importance_ratio = negative_approx_kl_in_seq.unsqueeze(-1) * response_mask
     else:
         log_importance_ratio = negative_approx_kl