全量微调1.5B模型过程中format reward一直是0,作者给出的训练曲线貌似也是一样的结果,是否需要放宽格式奖励条件
全量微调1.5B模型过程中format reward一直是0,作者给出的训练曲线貌似也是一样的结果,是否需要放宽格式奖励条件