@@ -131,22 +131,13 @@ graph LR
131131
132132整个 RL 大厦建立在一个哲学立场——** 奖励假设** ——之上:所有目标都可以描述为"最大化期望累积奖励"。只要能把"好"和"坏"量化成数字信号,RL 就有办法让智能体学会。
133133
134- 在传统的游戏控制任务中(如马里奥),“奖励”是环境自带的(吃金币+1,掉坑里-100)。但是,当我们把强化学习用到** 大语言模型(LLM)** 上,让 AI 学会“好好说话”时,问题来了:人类的偏好极其复杂,环境根本没法自动给出一句回答是 +1 分还是 -1 分。
135-
136- 这就引出了大模型时代 RL 的两条关键路线:
137-
138- 1 . ** 基于偏好的对齐(RLHF/DPO)** :当判断标准是“人类是否喜欢”(如语气是否礼貌、回答是否安全)时,环境没法自动给分。我们先让人类给 AI 的回答打分,训练一个** 奖励模型(Reward Model, RM)** 来“模仿”人类偏好,再用它来指导 RL 训练。你将在第 8 和第 9 章看到这套基于 SFT 和 RM 的经典流水线。
139- 2 . ** 基于可验证奖励的纯强化学习(Pure RL / RLVR)** :当我们转向数学、代码或复杂推理(Reasoning)任务时,答案的对错是** 客观可验证** 的。DeepSeek-R1-Zero 等前沿工作证明,不再需要预先进行 SFT 或训练 RM,只要给模型一个基于规则的反馈(比如代码能否跑通、数学题结果是否正确),纯粹的强化学习就能驱动基础模型(Base Model)自发涌现出长思维链(Chain-of-Thought)和强大的推理能力。这是当前 AI 迈向 AGI 的最前沿探索。
140-
141- 不仅如此,RL 正在突破单轮问答的局限,走向** 智能体强化学习(Agentic RL)** 。AI 不再只是输出文本,而是在环境中进行多轮交互、调用工具、查阅网页,最终完成长周期的复杂任务(如 Tongyi DeepResearch)。你将在第 10 章看到它如何成为从“对话模型”到“自主智能体”的关键跨越。
142-
143- 任务类型也有两种:** 回合制(Episodic)** 有明确的起点和终点(一局超级马里奥、一局 CartPole),** 持续性(Continuing)** 没有终点(自动化股票交易)。本书的实验都是回合制,方便用"每回合得分"衡量进展。
134+ 任务类型也有两种:** 回合制(Episodic)** 有明确的起点和终点(一局超级马里奥、一局 CartPole),** 持续性(Continuing)** 没有终点(自动化股票交易)。本书的实验都是回合制,方便用”每回合得分”衡量进展。
144135
145136### 如何求解:两条路线
146137
147138所有 RL 算法都在回答同一个问题:如何选择动作以** 最大化累积回报** ?所谓累积回报 $G_t$,就是智能体从时刻 $t$ 起获得的所有折扣奖励之和:
148139
149- $$ G_t = \sum_{k=0}^{\infty} \gamma^k\, r_{t+k+1} $$
140+ $$ G_t = r_{t+1} + \gamma\, r_{t+2} + \gamma^2\, r_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k\, r_{t+k+1} $$
150141
151142它衡量的是"一局游戏从头到尾总共拿了多少分",而不是某一步的即时奖励。回答这个问题有两条截然不同的路线,在此之前先认识一个核心概念——** 策略(Policy)$\pi$** ,它是智能体的"大脑",即给定状态输出动作的函数。训练的终极目标就是找到** 最优策略 $\pi^* $** 。策略分两种:** 确定性** 策略对同一状态永远输出同一动作($a = \pi(s)$),** 随机性** 策略输出动作的概率分布($\pi(a|s) = P(a|s)$)——后者天然兼顾探索,因为总有小概率去尝试非首选动作。
152143
@@ -226,6 +217,47 @@ graph TD
226217
227218本书所有算法都属于 Deep RL。
228219
220+ ### 大模型时代
221+
222+ 前文讨论的强化学习框架——智能体、环境、奖励——是在游戏和机器人等传统场景中发展起来的。一个自然的疑问是:** 当这套框架遇到大语言模型时,会发生什么?**
223+
224+ 2016 年,AlphaGo 击败李世石,证明了强化学习在完美信息博弈中的威力。但真正让 RL 走向大众视野中心的,是 2022 年 ChatGPT 的发布——人们发现,让大模型从"能说话"变成"说好话"的关键技术,正是强化学习。
225+
226+ 在游戏环境中,奖励信号是清晰且自动的:吃金币 +1 分,掉坑里 -100 分。但当我们要让 AI 学会"好好说话"时,问题来了:什么是"好"的回答?礼貌?有用?安全?人类偏好如此复杂,环境根本无法自动判断一句回答该得几分。
227+
228+ ** RLHF(Reinforcement Learning from Human Feedback)** 给出了第一套解决方案,通过三个阶段完成从"能说话"到"说好话"的转变:
229+
230+ <div align =" center " style =" margin : 2.5rem 0 ;" >
231+
232+ ``` mermaid
233+ graph LR
234+ A["人类撰写<br/>高质量对话"] -->|"SFT"| B["基础对话模型"]
235+ C["人类对回答<br/>排序标注"] -->|"训练"| D["奖励模型 RM"]
236+ B -->|"生成回答"| D
237+ D -->|"奖励信号"| E["PPO / GRPO<br/>RL 优化"]
238+ E -->|"优化策略"| B
239+ ```
240+
241+ </div >
242+
243+ 1 . ** 监督微调(SFT)** :用人类撰写的高质量对话示例微调模型,让它学会基本的对话格式。
244+ 2 . ** 奖励模型训练(RM)** :让人类对模型的多个回答进行排序,训练一个能"模仿"人类偏好的打分模型。
245+ 3 . ** 强化学习优化(RL)** :用 PPO 等算法,以奖励模型的分数为信号,进一步优化模型的回答策略。
246+
247+ 大模型时代的 RL 演化出了两条关键路线。** 路线一:基于偏好的对齐(RLHF / DPO)** ——当判断标准是"人类是否喜欢"(语气是否礼貌、回答是否安全)时,环境无法自动给分。我们先用人类标注训练一个奖励模型来"模仿"人类偏好,再用它指导 RL 训练。DPO 则更进一步,巧妙地将奖励信号"隐藏"在策略概率比中,绕过了显式的奖励模型——你将在第 8-9 章亲手实践这条流水线。** 路线二:基于可验证奖励的纯强化学习(RLVR)** ——当转向数学、代码或复杂推理任务时,答案的对错是客观可验证的。DeepSeek-R1-Zero 等前沿工作证明:不再需要预先进行 SFT 或训练奖励模型,只要给模型一个基于规则的反馈,纯粹的强化学习就能驱动基础模型自发涌现出长思维链(Chain-of-Thought)和强大的推理能力。这是当前 AI 迈向 AGI 的最前沿探索之一。
248+
249+ 还记得前文介绍的 PPO 吗?在大模型时代,它从游戏控制的集大成者,变成了整个 LLM 对齐工业的基石。但 PPO 需要一个额外的 Critic 网络来评估动作好坏,对于大模型来说这意味着巨大的计算开销。** GRPO(Group Relative Policy Optimization)** 应运而生——它用组内相对优势替代 Critic 网络,在同一次生成的多个回答之间比较优劣,直接从中学习"哪个更好"。这一简化让 RL 训练的成本大幅降低,成为开源社区对齐大模型的主流选择之一。
250+
251+ ### 未来
252+
253+ 强化学习正在从"让 AI 做单步决策"走向"让 AI 完成完整任务",这条路上有三个值得关注的方向。
254+
255+ 第一个方向是** 智能体强化学习(Agentic RL)** 。当前的大语言模型本质上是"单轮问答机器"——你问一句,它答一句。但现实中的任务往往需要多轮交互:规划旅行时要搜索多个网站比价,调试代码时要反复运行测试、阅读报错、修改再验证。Agentic RL 正是训练 AI 在环境中连续行动、调用工具、根据中间结果动态调整策略,最终完成长周期的复杂任务。这是从"对话模型"到"自主智能体"的关键跨越,你将在第 10 章深入实践。
256+
257+ 第二个方向是** 多模态与具身智能** 。RL 正在突破纯文本的边界:视觉-语言模型(VLM)让 RL 的触角延伸到图像理解和视觉推理,而具身智能(Embodied AI)则将 RL 推向物理世界——让机器人在真实环境中通过试错学会行走、抓取和操作。其中最大的挑战在于仿真与现实的差距(Sim-to-Real Gap):在虚拟环境中训练好的策略,到真实世界可能完全失效。域随机化(Domain Randomization)等技术正在缓解这一问题,而 Model-Based RL 和自我博弈(Self-Play)也在打开新的可能性。
258+
259+ 第三个方向或许也是最终的走向——** 通向更通用的智能** 。回到萨顿的"苦涩的教训":通用方法终将胜出。从游戏到语言,从语言到视觉,从视觉到物理世界,强化学习的每一步扩展都在验证同一个判断——让智能体自己通过试错来学习,比人类手动编码知识更有效。而这条路的尽头,或许就是 AGI。
260+
229261---
230262
231263以上是强化学习的概念框架。初次接触难免觉得术语密集,不必在此停留太久——后续各章会通过代码和实验逐一展开,每遇到一个概念,你都会有具体的动手经验与之对应。
@@ -237,7 +269,7 @@ graph TD
237269![ AlphaGo vs Lee Sedol] ( ./brief-history/images/alphago-game5.svg )
238270
239271<div style =" text-align : center ; font-size : 0.9em ; color : var (--vp-c-text-2 ); margin-top : -10px ; margin-bottom : 20px ;" >
240- <em >图 5 :2016 年 AlphaGo 与李世石五番棋第五局棋谱。AlphaGo 以 4:1 获胜,标志着强化学习第一次震撼公众。来源:<a href =" https://commons.wikimedia.org/wiki/File:Lee_Sedol_(B)_vs_AlphaGo_(W)_-_Game_5.svg " target =" _blank " rel =" noopener noreferrer " >Wikimedia Commons</a >(CC BY-SA 4.0)</em >
272+ <em >图:2016 年 AlphaGo 与李世石五番棋第五局棋谱。AlphaGo 以 4:1 获胜,标志着强化学习第一次震撼公众。来源:<a href =" https://commons.wikimedia.org/wiki/File:Lee_Sedol_(B)_vs_AlphaGo_(W)_-_Game_5.svg " target =" _blank " rel =" noopener noreferrer " >Wikimedia Commons</a >(CC BY-SA 4.0)</em >
241273</div >
242274
243275然而,市面上的学习资源严重滞后于行业实践。主流教程对 RL 一笔带过,专门的 RL 教材又停留在传统框架,对 PPO、DPO、GRPO 只字不提。一个想要理解 RLHF 流程的工程师,不得不在经典教材和最新论文之间艰难地自行搭建桥梁。我们着手写这本书,就是为了填补这道鸿沟。
@@ -315,7 +347,9 @@ graph TD
315347
316348</div >
317349
318- 上图是全书算法的主线。左侧蓝色分支是 ** Value-Based** ——先估计每个动作能得多少分,再选得分最高的;右侧橙色分支是 ** Policy-Based** ——跳过打分,直接学习在什么状态下该做什么动作。两条路线在 Actor-Critic 处合流,由此长出 PPO,而 PPO 正是后续所有大模型对齐与智能体算法的骨架。
350+ 上图是全书算法的主线。** 第一部分** (灰色)带你快速上手,在 CartPole 和 DPO 上获得第一手感受。** 第二部分** (蓝色)构建核心理论:左侧蓝色分支是 Value-Based——先估计每个动作能得多少分,再选得分最高的;右侧橙色分支是 Policy-Based——跳过打分,直接学习在什么状态下该做什么动作。两条路线在 Actor-Critic 处合流,由此长出 PPO。** 第三部分** (绿色)进入大模型时代:PPO 正是后续所有大模型对齐与智能体算法的骨架,由此延伸出 RLHF、DPO、GRPO 和 Agentic RL。** 第四部分** (紫色)展望前沿,探索多模态 RL 与具身智能。
351+
352+ 以下是各章内容的详细介绍。
319353
320354** 第一部分包括快速入门。**
321355
@@ -369,7 +403,8 @@ GPU 与显存需求按三个层级划分:
369403
370404## 小结
371405
372- - 强化学习已经从实验室走向工业界,成为大语言模型后训练、机器人控制、游戏 AI 等领域的核心技术。
373- - 本书采用"先动手、后理论"的教学路径,每章都包含可运行的代码和系统化的数学讲解。
374- - 全书覆盖从 MDP、Q-Learning 到 PPO、DPO、GRPO,再到 LLM 对齐和智能体 RL 的完整知识图谱。
375- - 只需基本的 Python 编程和数学基础即可开始学习。
406+ - ** 基础理解** :强化学习是最接近生物本能的学习方式——通过试错和奖励信号来优化行为,萨顿的"苦涩的教训"告诉我们,通用方法终将胜过人类手动编码的知识。
407+ - ** 核心理论** :RL 的理论框架围绕智能体-环境交互循环展开,价值函数和策略梯度是两条核心求解路线,Actor-Critic 将两者融合。
408+ - ** 大模型时代** :从 RLHF 到 DPO,从 PPO 到 GRPO 和 RLVR,强化学习已成为大语言模型对齐和推理能力涌现的关键技术。
409+ - ** 未来** :Agentic RL、多模态 RL 和具身智能正在将 RL 从对话推向行动、从文本推向物理世界,通向更通用的智能。
410+ - 本书采用"先动手、后理论"的教学路径,只需基本的 Python 编程和数学基础即可开始学习。
0 commit comments