奖励模型训练方式

我看了咱们这个项目的RM训练方式，应该是正常大模型sft或者rl的方式，只是训练模型输出某个分数，但现在的框架例如llamafactory，openrlhf，训练奖励模型的方式其实是把大模型的隐藏层抽出来，然后添加value-head去回归分数，我想问咱们能否支持这样的方式。不知道您是否了解这两种方式的区别