We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
文中给出了强化学习部分的伪代码,但从里面看不出这里的一个step是一轮对话里面的一次问答,还是一次问答中输出的前后两个token。由于源码没有公开,虽然倾向于前者但仍不能肯定。烦请解答,谢谢!