Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
版本依赖:ms-swift>=3.7
论文发现在以 RLVR等方法训练大型语言模型推理能力时,驱动学习进步的关键在于一小部分高熵“少数 token”,而并非大多数信息熵低的 token。
论文指出,在模型推理的 token 分布中,只有极少数信息熵较高的 token 起到了主导作用。这些 token 往往出现在推理和决策路径分歧最大的关键节点(如 "wait"、"since" 等),决定了模型能否习得复杂推理任务。而大多数熵低的 token 对模型推理能力的提升作用有限。论文提出只对高熵 token 计算策略梯度、舍弃低熵 token 的梯度。
token 熵公式如下
$ H_t := -∑_{j=1}^{V} p_{t,j} \log p_{t,j}, \qquad where (p_{t,1}, ···, p_{t,V}) = \mathbf{p}t = π_θ(\cdot | \mathbf{q}, \mathbf{o}{<t}) = \text{Softmax}(\frac{\mathbf{z}_t}{T}) $
其中
-
$\pi_\theta$ :参数为$\theta$ 的模型 -
$\mathbf{q}$ :输入查询(input query)。 - $\mathbf{o}{<t} = (o_1, o_2, \cdots, o{t-1})$:时间步
$t$ 之前已生成的 token 序列。 -
$V$ :词表大小(vocabulary size)。 -
$\mathbf{z}_t \in \mathbb{R}^V$ :时间步$t$ 的 pre-softmax 逻辑值(logits)。 -
$\mathbf{p}_t \in \mathbb{R}^V$ :模型对词表的概率分布。 -
$T \in \mathbb{R}$ :解码温度(decoding temperature),控制分布的平滑程度。
熵的计算对象:$H_t$ 是 token 生成分布 $\mathbf{p}t$ 的熵,用于衡量训练策略 $\pi\theta$ 在给定上下文
"Token entropy"
$H_t$ 始终指向位置$t$ 的生成分布$\mathbf{p}_t$ 的不确定性,而非 token$o_t$ 本身的属性。即$H_t$ 是位置$t$ 对应分布$\mathbf{p}_t$ 的熵,与采样得到的 token$o_t$ 无关。
在实践中,我们可以在 GRPO 训练中通过参数 top_entropy_quantile 控制训练范围。论文实验设置该参数为 0.2,即每次仅对处于熵分布前 20% 的 token 进行训练优化。
同时使用参数log_entropy,可以记录训练过程中的熵值变化,参考文档