docs: update preface, config and sitemap

sanbuphy · sanbuphy · commit 13d63c294021 · 2026-05-06T17:18:01.000+08:00
diff --git a/docs/.vitepress/config.mjs b/docs/.vitepress/config.mjs
@@ -620,7 +620,7 @@ const zhSidebar = {
               link: '/chapter04_dqn/q-learning'
             },
             {
-              text: '4.2 从表格 Q 到 DQN',
+              text: '4.2 为什么需要 DQN',
               link: '/chapter04_dqn/from-q-to-dqn'
             },
             { text: '4.3 Replay、Target 与 CNN', link: '/chapter04_dqn/dqn-components' },
diff --git a/docs/preface/intro.md b/docs/preface/intro.md
@@ -131,22 +131,13 @@ graph LR
 
 整个 RL 大厦建立在一个哲学立场——**奖励假设**——之上：所有目标都可以描述为"最大化期望累积奖励"。只要能把"好"和"坏"量化成数字信号，RL 就有办法让智能体学会。
 
-在传统的游戏控制任务中（如马里奥），“奖励”是环境自带的（吃金币+1，掉坑里-100）。但是，当我们把强化学习用到**大语言模型（LLM）** 上，让 AI 学会“好好说话”时，问题来了：人类的偏好极其复杂，环境根本没法自动给出一句回答是 +1 分还是 -1 分。
-
-这就引出了大模型时代 RL 的两条关键路线：
-
-1. **基于偏好的对齐（RLHF/DPO）**：当判断标准是“人类是否喜欢”（如语气是否礼貌、回答是否安全）时，环境没法自动给分。我们先让人类给 AI 的回答打分，训练一个**奖励模型（Reward Model, RM）** 来“模仿”人类偏好，再用它来指导 RL 训练。你将在第 8 和第 9 章看到这套基于 SFT 和 RM 的经典流水线。
-2. **基于可验证奖励的纯强化学习（Pure RL / RLVR）**：当我们转向数学、代码或复杂推理（Reasoning）任务时，答案的对错是**客观可验证**的。DeepSeek-R1-Zero 等前沿工作证明，不再需要预先进行 SFT 或训练 RM，只要给模型一个基于规则的反馈（比如代码能否跑通、数学题结果是否正确），纯粹的强化学习就能驱动基础模型（Base Model）自发涌现出长思维链（Chain-of-Thought）和强大的推理能力。这是当前 AI 迈向 AGI 的最前沿探索。
-
-不仅如此，RL 正在突破单轮问答的局限，走向**智能体强化学习（Agentic RL）**。AI 不再只是输出文本，而是在环境中进行多轮交互、调用工具、查阅网页，最终完成长周期的复杂任务（如 Tongyi DeepResearch）。你将在第 10 章看到它如何成为从“对话模型”到“自主智能体”的关键跨越。
-
-任务类型也有两种：**回合制（Episodic）** 有明确的起点和终点（一局超级马里奥、一局 CartPole），**持续性（Continuing）** 没有终点（自动化股票交易）。本书的实验都是回合制，方便用"每回合得分"衡量进展。
+任务类型也有两种：**回合制（Episodic）** 有明确的起点和终点（一局超级马里奥、一局 CartPole），**持续性（Continuing）** 没有终点（自动化股票交易）。本书的实验都是回合制，方便用”每回合得分”衡量进展。
 
 ### 如何求解：两条路线
 
 所有 RL 算法都在回答同一个问题：如何选择动作以**最大化累积回报**？所谓累积回报 $G_t$，就是智能体从时刻 $t$ 起获得的所有折扣奖励之和：
 
-$$G_t = \sum_{k=0}^{\infty} \gamma^k\, r_{t+k+1}$$
+$$G_t = r_{t+1} + \gamma\, r_{t+2} + \gamma^2\, r_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k\, r_{t+k+1}$$
 
 它衡量的是"一局游戏从头到尾总共拿了多少分"，而不是某一步的即时奖励。回答这个问题有两条截然不同的路线，在此之前先认识一个核心概念——**策略（Policy）$\pi$**，它是智能体的"大脑"，即给定状态输出动作的函数。训练的终极目标就是找到**最优策略 $\pi^*$**。策略分两种：**确定性**策略对同一状态永远输出同一动作（$a = \pi(s)$），**随机性**策略输出动作的概率分布（$\pi(a|s) = P(a|s)$）——后者天然兼顾探索，因为总有小概率去尝试非首选动作。
 
@@ -226,6 +217,47 @@ graph TD
 
 本书所有算法都属于 Deep RL。
 
+### 大模型时代
+
+前文讨论的强化学习框架——智能体、环境、奖励——是在游戏和机器人等传统场景中发展起来的。一个自然的疑问是：**当这套框架遇到大语言模型时，会发生什么？**
+
+2016 年，AlphaGo 击败李世石，证明了强化学习在完美信息博弈中的威力。但真正让 RL 走向大众视野中心的，是 2022 年 ChatGPT 的发布——人们发现，让大模型从"能说话"变成"说好话"的关键技术，正是强化学习。
+
+在游戏环境中，奖励信号是清晰且自动的：吃金币 +1 分，掉坑里 -100 分。但当我们要让 AI 学会"好好说话"时，问题来了：什么是"好"的回答？礼貌？有用？安全？人类偏好如此复杂，环境根本无法自动判断一句回答该得几分。
+
+**RLHF（Reinforcement Learning from Human Feedback）** 给出了第一套解决方案，通过三个阶段完成从"能说话"到"说好话"的转变：
+
+<div align="center" style="margin: 2.5rem 0;">
+
+```mermaid
+graph LR
+    A["人类撰写<br/>高质量对话"] -->|"SFT"| B["基础对话模型"]
+    C["人类对回答<br/>排序标注"] -->|"训练"| D["奖励模型 RM"]
+    B -->|"生成回答"| D
+    D -->|"奖励信号"| E["PPO / GRPO<br/>RL 优化"]
+    E -->|"优化策略"| B
+```
+
+</div>
+
+1. **监督微调（SFT）**：用人类撰写的高质量对话示例微调模型，让它学会基本的对话格式。
+2. **奖励模型训练（RM）**：让人类对模型的多个回答进行排序，训练一个能"模仿"人类偏好的打分模型。
+3. **强化学习优化（RL）**：用 PPO 等算法，以奖励模型的分数为信号，进一步优化模型的回答策略。
+
+大模型时代的 RL 演化出了两条关键路线。**路线一：基于偏好的对齐（RLHF / DPO）**——当判断标准是"人类是否喜欢"（语气是否礼貌、回答是否安全）时，环境无法自动给分。我们先用人类标注训练一个奖励模型来"模仿"人类偏好，再用它指导 RL 训练。DPO 则更进一步，巧妙地将奖励信号"隐藏"在策略概率比中，绕过了显式的奖励模型——你将在第 8-9 章亲手实践这条流水线。**路线二：基于可验证奖励的纯强化学习（RLVR）**——当转向数学、代码或复杂推理任务时，答案的对错是客观可验证的。DeepSeek-R1-Zero 等前沿工作证明：不再需要预先进行 SFT 或训练奖励模型，只要给模型一个基于规则的反馈，纯粹的强化学习就能驱动基础模型自发涌现出长思维链（Chain-of-Thought）和强大的推理能力。这是当前 AI 迈向 AGI 的最前沿探索之一。
+
+还记得前文介绍的 PPO 吗？在大模型时代，它从游戏控制的集大成者，变成了整个 LLM 对齐工业的基石。但 PPO 需要一个额外的 Critic 网络来评估动作好坏，对于大模型来说这意味着巨大的计算开销。**GRPO（Group Relative Policy Optimization）** 应运而生——它用组内相对优势替代 Critic 网络，在同一次生成的多个回答之间比较优劣，直接从中学习"哪个更好"。这一简化让 RL 训练的成本大幅降低，成为开源社区对齐大模型的主流选择之一。
+
+### 未来
+
+强化学习正在从"让 AI 做单步决策"走向"让 AI 完成完整任务"，这条路上有三个值得关注的方向。
+
+第一个方向是**智能体强化学习（Agentic RL）**。当前的大语言模型本质上是"单轮问答机器"——你问一句，它答一句。但现实中的任务往往需要多轮交互：规划旅行时要搜索多个网站比价，调试代码时要反复运行测试、阅读报错、修改再验证。Agentic RL 正是训练 AI 在环境中连续行动、调用工具、根据中间结果动态调整策略，最终完成长周期的复杂任务。这是从"对话模型"到"自主智能体"的关键跨越，你将在第 10 章深入实践。
+
+第二个方向是**多模态与具身智能**。RL 正在突破纯文本的边界：视觉-语言模型（VLM）让 RL 的触角延伸到图像理解和视觉推理，而具身智能（Embodied AI）则将 RL 推向物理世界——让机器人在真实环境中通过试错学会行走、抓取和操作。其中最大的挑战在于仿真与现实的差距（Sim-to-Real Gap）：在虚拟环境中训练好的策略，到真实世界可能完全失效。域随机化（Domain Randomization）等技术正在缓解这一问题，而 Model-Based RL 和自我博弈（Self-Play）也在打开新的可能性。
+
+第三个方向或许也是最终的走向——**通向更通用的智能**。回到萨顿的"苦涩的教训"：通用方法终将胜出。从游戏到语言，从语言到视觉，从视觉到物理世界，强化学习的每一步扩展都在验证同一个判断——让智能体自己通过试错来学习，比人类手动编码知识更有效。而这条路的尽头，或许就是 AGI。
+
 ---
 
 以上是强化学习的概念框架。初次接触难免觉得术语密集，不必在此停留太久——后续各章会通过代码和实验逐一展开，每遇到一个概念，你都会有具体的动手经验与之对应。
@@ -237,7 +269,7 @@ graph TD
 ![AlphaGo vs Lee Sedol](./brief-history/images/alphago-game5.svg)
 
 <div style="text-align: center; font-size: 0.9em; color: var(--vp-c-text-2); margin-top: -10px; margin-bottom: 20px;">
-  <em>图 5：2016 年 AlphaGo 与李世石五番棋第五局棋谱。AlphaGo 以 4:1 获胜，标志着强化学习第一次震撼公众。来源：<a href="https://commons.wikimedia.org/wiki/File:Lee_Sedol_(B)_vs_AlphaGo_(W)_-_Game_5.svg" target="_blank" rel="noopener noreferrer">Wikimedia Commons</a>（CC BY-SA 4.0）</em>
+  <em>图：2016 年 AlphaGo 与李世石五番棋第五局棋谱。AlphaGo 以 4:1 获胜，标志着强化学习第一次震撼公众。来源：<a href="https://commons.wikimedia.org/wiki/File:Lee_Sedol_(B)_vs_AlphaGo_(W)_-_Game_5.svg" target="_blank" rel="noopener noreferrer">Wikimedia Commons</a>（CC BY-SA 4.0）</em>
 </div>
 
 然而，市面上的学习资源严重滞后于行业实践。主流教程对 RL 一笔带过，专门的 RL 教材又停留在传统框架，对 PPO、DPO、GRPO 只字不提。一个想要理解 RLHF 流程的工程师，不得不在经典教材和最新论文之间艰难地自行搭建桥梁。我们着手写这本书，就是为了填补这道鸿沟。
@@ -315,7 +347,9 @@ graph TD
 
 </div>
 
-上图是全书算法的主线。左侧蓝色分支是 **Value-Based**——先估计每个动作能得多少分，再选得分最高的；右侧橙色分支是 **Policy-Based**——跳过打分，直接学习在什么状态下该做什么动作。两条路线在 Actor-Critic 处合流，由此长出 PPO，而 PPO 正是后续所有大模型对齐与智能体算法的骨架。
+上图是全书算法的主线。**第一部分**（灰色）带你快速上手，在 CartPole 和 DPO 上获得第一手感受。**第二部分**（蓝色）构建核心理论：左侧蓝色分支是 Value-Based——先估计每个动作能得多少分，再选得分最高的；右侧橙色分支是 Policy-Based——跳过打分，直接学习在什么状态下该做什么动作。两条路线在 Actor-Critic 处合流，由此长出 PPO。**第三部分**（绿色）进入大模型时代：PPO 正是后续所有大模型对齐与智能体算法的骨架，由此延伸出 RLHF、DPO、GRPO 和 Agentic RL。**第四部分**（紫色）展望前沿，探索多模态 RL 与具身智能。
+
+以下是各章内容的详细介绍。
 
 **第一部分包括快速入门。**
 
@@ -369,7 +403,8 @@ GPU 与显存需求按三个层级划分：
 
 ## 小结
 
-- 强化学习已经从实验室走向工业界，成为大语言模型后训练、机器人控制、游戏 AI 等领域的核心技术。
-- 本书采用"先动手、后理论"的教学路径，每章都包含可运行的代码和系统化的数学讲解。
-- 全书覆盖从 MDP、Q-Learning 到 PPO、DPO、GRPO，再到 LLM 对齐和智能体 RL 的完整知识图谱。
-- 只需基本的 Python 编程和数学基础即可开始学习。
+- **基础理解**：强化学习是最接近生物本能的学习方式——通过试错和奖励信号来优化行为，萨顿的"苦涩的教训"告诉我们，通用方法终将胜过人类手动编码的知识。
+- **核心理论**：RL 的理论框架围绕智能体-环境交互循环展开，价值函数和策略梯度是两条核心求解路线，Actor-Critic 将两者融合。
+- **大模型时代**：从 RLHF 到 DPO，从 PPO 到 GRPO 和 RLVR，强化学习已成为大语言模型对齐和推理能力涌现的关键技术。
+- **未来**：Agentic RL、多模态 RL 和具身智能正在将 RL 从对话推向行动、从文本推向物理世界，通向更通用的智能。
+- 本书采用"先动手、后理论"的教学路径，只需基本的 Python 编程和数学基础即可开始学习。
diff --git a/docs/public/sitemap.xml b/docs/public/sitemap.xml

Original file line number	Diff line number	Diff line change
`@@ -620,7 +620,7 @@ const zhSidebar = {`
`620`	`620`	`link: '/chapter04_dqn/q-learning'`
`621`	`621`	`},`
`622`	`622`	`{`
`623`		`- text: '4.2 从表格 Q 到 DQN',`
	`623`	`+ text: '4.2 为什么需要 DQN',`
`624`	`624`	`link: '/chapter04_dqn/from-q-to-dqn'`
`625`	`625`	`},`
`626`	`626`	`{ text: '4.3 Replay、Target 与 CNN', link: '/chapter04_dqn/dqn-components' },`