Skip to content

论文里PPO的公式写错了 #37

Open
@itmorn

Description

@itmorn

Image
应该改为:
Image

原因:因为你是对π_θ_old求的期望,你在求KL散度的时候肯定不是π_θ在分子上。另外ref模型应该是GRPO里才有的概念(用来约束当前模型和该iter开始时刻模型的更新幅度),在PPO里应该只有old模型,所以应该是π_θ_old在分子上。

可以参考InstructGPT:
Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions