这个文件夹对应任务二的第一阶段。
目标不是一次性把整本强化学习教材全部看完,而是建立一条够用、能立刻落到环境训练里的学习路线。建议按 "读一段文字资料 -> 做一个小实验 -> 写一段总结" 的节奏推进。
如果觉得纯视频太慢,这一阶段完全可以以网页/讲义/笔记为主,只把视频当补充。
- 理解
agent / environment / state / action / reward / return - 理解
policy、value function、Bellman equation - 学习
multi-armed bandit与探索-利用权衡 - 学习
Dynamic Programming、Monte Carlo、Temporal Difference - 学习
SARSA和Q-learning - 理解函数逼近、
DQN的基本动机 - 理解
Policy Gradient、Actor-Critic、PPO / SAC的直觉
优先顺序建议是:
- 先读
Easy RL(蘑菇书)- 它最像系统化网页笔记,读起来比纯视频轻很多
- 遇到概念不稳的地方,再翻
Sutton & Barto- 这本是理论主教材,用来补定义、公式和细节
- 如果某个点还是没感觉,再看
David Silver对应一讲- 只补需要的那一讲,不必从头把整套视频刷完
Easy RL(蘑菇书)- 最推荐的中文网页/笔记式资料,适合入门表格型方法
- 适合先建立整体框架
Sutton & Barto, Reinforcement Learning: An Introduction (2nd Edition)- 理论主教材,适合查概念、公式和算法细节
- 这一阶段重点看前半本
Stanford CS234 Modules- 结构非常清楚,适合作为英文版课程讲义主线
- 如果想读更严谨的课程文字说明,可以用它
David Silver RL Course- 更适合补直觉,不一定要整套看完
OpenAI Spinning Up- 更偏深度强化学习,放到表格型方法之后再读
Gymnasium Migration Guide- 用来适应新版 API,避免把旧版
gym教程直接照搬
- 用来适应新版 API,避免把旧版
如果现在就准备开始,建议先读这几块:
Easy RL- 先读强化学习基本概念
- 再读
MDP / Bellman Equation - 然后读
Dynamic Programming / Monte Carlo / TD / Q-learning / SARSA
Sutton & Barto- Chapter 1: Introduction
- Chapter 2: Multi-armed Bandits
- Chapter 3: Finite Markov Decision Processes
- Chapter 4: Dynamic Programming
- Chapter 5: Monte Carlo Methods
- Chapter 6: Temporal-Difference Learning
Stanford CS234 ModulesTabular MDP planningTabular RL policy evaluationModel-free control
如果你不想在资料里犹豫太久,可以直接这么开始:
- 先读
Easy RL里关于MDP / Bellman / Q-learning的内容 - 同时翻
Sutton & Barto的 Chapter 3-6 - 立刻开始手写
FrozenLake-v1的Q-learning - 学完后自己写一页总结:
MC和TD有什么区别SARSA和Q-learning有什么区别- 稀疏奖励为什么难
- 不建议先把所有视频刷完再开始动手
- 不建议上来就学
PPO / SAC而跳过表格型方法 - 不建议只看博客碎片而没有一条主线
- 能用自己的话解释
MDP、return、value、policy - 能说明
MC、TD、SARSA、Q-learning的区别 - 能手写一个表格型
Q-learningbaseline - 能正确处理 Gymnasium 的
reset()和step()返回值
- 学完表格型方法后,先做
FrozenLake-v1 - 学完离散动作深度 RL 后,进入
CartPole-v1 - 学完连续动作与 actor-critic 后,进入
Pendulum-v1 - 然后再进入
FetchReach -> FetchPush -> FetchPickAndPlace
- Easy RL(GitHub): https://github.com/datawhalechina/easy-rl
- Sutton & Barto (MIT Press): https://mitpress.mit.edu/9780262352703/reinforcement-learning/
- Sutton & Barto PDF: http://incompleteideas.net/book/the-book-2nd.html
- Stanford CS234: https://web.stanford.edu/class/cs234/
- Stanford CS234 Modules: https://web.stanford.edu/class/cs234/modules.html
- David Silver RL Course: https://www.davidsilver.uk/teaching/
- CS285: https://www2.eecs.berkeley.edu/Courses/CS285/
- OpenAI Spinning Up: https://spinningup.openai.com/
- Gymnasium Migration Guide: https://gymnasium.farama.org/main/introduction/migration_guide/