Skip to content

不太能理解为什么无监督场景下能work,请教一下 #3

@Psychim

Description

@Psychim

要通过优化p(r<t|x)去优化下界,那么按我的理解,优化的方向应该是让模型分布集中在L(r<t, x)更大的前缀r<t上。在有监督场景下,过滤掉采样到错误轨迹的前缀,容易理解能够达到这样的优化目标。

但在无监督场景中,r<t采样自模型自身的分布p(r<t|x),拟合对象就是模型自身的p(r<t|x),那么SFT后的前缀分布不是没有任何改变吗?似乎不能达到“让模型分布集中在L(r<t, x)更大的前缀r<t上”的目的?

既然正确/错误轨迹的前缀具有一致性,那么对采样出来的前缀做SFT,该前缀的正确/错误轨迹的概率不是被均匀地提高了吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions