We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
应该改为:
原因:因为你是对π_θ_old求的期望,你在求KL散度的时候肯定不是π_θ在分子上。另外ref模型应该是GRPO里才有的概念(用来约束当前模型和该iter开始时刻模型的更新幅度),在PPO里应该只有old模型,所以应该是π_θ_old在分子上。
可以参考InstructGPT: