我看了咱们这个项目的RM训练方式,应该是正常大模型sft或者rl的方式,只是训练模型输出某个分数,但现在的框架例如llamafactory,openrlhf,训练奖励模型的方式其实是把大模型的隐藏层抽出来,然后添加value-head去回归分数,我想问咱们能否支持这样的方式。不知道您是否了解这两种方式的区别