ReasonFlux-PRM Reproduce the problem

感谢很有启发性的工作，但是我在复现的时候遇到了几个问题，希望解答一下：

1. ReasonFlux-PRM的loss计算如下：

<img width="1696" height="160" alt="Image" src="https://github.com/user-attachments/assets/98b69fc3-55f8-478b-9dec-a2749f303a9e" />

请问final loss是如何计算的？训练集的数据格式是否如下：
Q + Step_1 + <extract_0> + Step_2 + <extract_0> + ... ... + Step_T + <extract_0>
但是我想知道的是final loss是在哪里计算的loss？

2. Inference时候的数据格式？
我使用了论文中贴出的case study输入进开源的PRM-7B模型中时，无法给出论文中演示的step-level reward分数。请展示一个inference的数据格式是否可行？
还有一个疑惑对于 Trajectory-leval 的reward是如何计算的？ 论文中好像没有提到。



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

ReasonFlux-PRM Reproduce the problem #19

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

ReasonFlux-PRM Reproduce the problem #19

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions