不太能理解为什么无监督场景下能work，请教一下

要通过优化p(r<t|x)去优化下界，那么按我的理解，优化的方向应该是让模型分布集中在L(r<t, x)更大的前缀r<t上。在有监督场景下，过滤掉采样到错误轨迹的前缀，容易理解能够达到这样的优化目标。

但在无监督场景中，r<t采样自模型自身的分布p(r<t|x)，拟合对象就是模型自身的p(r<t|x)，那么SFT后的前缀分布不是没有任何改变吗？似乎不能达到“让模型分布集中在L(r<t, x)更大的前缀r<t上”的目的？

既然正确/错误轨迹的前缀具有一致性，那么对采样出来的前缀做SFT，该前缀的正确/错误轨迹的概率不是被均匀地提高了吗？