PPOSFTDataset bug report和相关问题咨询

[ppo_datahelper.py](https://github.com/OpenLMLab/MOSS-RLHF/blob/main/ppo/ppo_datahelper.py#L340)此处代码和对应函数不适配。
![image](https://github.com/OpenLMLab/MOSS-RLHF/assets/6756880/8ad0f372-20c8-480c-829f-eb026ecff242)

另外想正好咨询一下：
1. 此处应该padding left or right？
2. llama2默认是padding right，但我看到reward model里的batch数据都是padding left，ppo这里都有很多地方也是padding到left的，具体的padding对齐策略是怎样的呢？
3. 我发现loss_mask最终会把对应的tokenid改为0，[ppo_trainer.py](https://github.com/OpenLMLab/MOSS-RLHF/blob/main/ppo/ppo_trainer.py#L464) ，然后和模型输出做cross entropy，这里被mask掉的数据，好像依旧会按照label是0而进行梯度回传，能否咨询下这里的具体原理呢？
![image](https://github.com/OpenLMLab/MOSS-RLHF/assets/6756880/c5b8d922-0bee-4dd5-95bb-589d7f2c3438)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

PPOSFTDataset bug report和相关问题咨询 #49

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

PPOSFTDataset bug report和相关问题咨询 #49

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions