Skip to content

Latest commit

 

History

History
9 lines (6 loc) · 635 Bytes

File metadata and controls

9 lines (6 loc) · 635 Bytes

为训练循环添加高级优化策略

在主章节中,我们使用了 较为简洁的训练函数,以保持代码的可读性,并使 第 5 章 的内容符合篇幅要求。然而,为了 提高训练的稳定性和收敛速度,可以额外添加以下优化策略:

  • 线性预热(Linear Warmup)
  • 余弦衰减调度(Cosine Decay Schedule)
  • 梯度裁剪(Gradient Clipping)

如果希望使用 更高级的训练函数,请参考 附录 D: 训练循环优化,其中包含完整的实现代码。