Update actor.py

fzyzcjy · web-flow · commit dfcf59e35777 · 2025-10-26T10:22:04.000+08:00
diff --git a/slime/backends/fsdp_utils/actor.py b/slime/backends/fsdp_utils/actor.py
@@ -486,7 +486,7 @@ def train(self, rollout_id: int, rollout_data_ref: Box) -> None:
             pg_clipfrac = sum_of_sample_mean(pg_clipfrac, response_lengths, loss_masks)
             ppo_kl = sum_of_sample_mean(ppo_kl.abs(), response_lengths, loss_masks)
 
-            train_rollout_logprob_diff = old_log_probs - rollout_log_probs
+            train_rollout_logprob_diff = (old_log_probs - rollout_log_probs).abs()
             train_rollout_logprob_diff = sum_of_sample_mean(
                 train_rollout_logprob_diff, response_lengths, loss_masks
             ).detach()