要通过优化p(r<t|x)去优化下界,那么按我的理解,优化的方向应该是让模型分布集中在L(r<t, x)更大的前缀r<t上。在有监督场景下,过滤掉采样到错误轨迹的前缀,容易理解能够达到这样的优化目标。
但在无监督场景中,r<t采样自模型自身的分布p(r<t|x),拟合对象就是模型自身的p(r<t|x),那么SFT后的前缀分布不是没有任何改变吗?似乎不能达到“让模型分布集中在L(r<t, x)更大的前缀r<t上”的目的?
既然正确/错误轨迹的前缀具有一致性,那么对采样出来的前缀做SFT,该前缀的正确/错误轨迹的概率不是被均匀地提高了吗?