关于强化学习GRPO训练的问题

![Image](https://github.com/user-attachments/assets/d7fb52ed-c477-495d-854f-8610b958494f)
文中给出了强化学习部分的伪代码，但从里面看不出这里的一个step是一轮对话里面的一次问答，还是一次问答中输出的前后两个token。由于源码没有公开，虽然倾向于前者但仍不能肯定。烦请解答，谢谢！