distil-rl-introduction

### 你是否已经阅读并同意《Datawhale开源项目指南》？

- [x] 我已阅读并同意[《Datawhale开源项目指南》](https://github.com/datawhalechina/DOPMC/blob/main/GUIDE.md)

### 你是否已经阅读并同意《Datawhale开源项目行为准则》？

- [x] 我已阅读并同意[《Datawhale开源项目行为准则》](https://github.com/datawhalechina/DOPMC/blob/main/CODE_OF_CONDUCT.md)

### 项目简介

《蒸馏版强化学习：简明导论》 是一份基于图灵奖得主Richard Sutton的强化学习经典著作 Reinforcement Learning： An Introduction以及其研究团队在University of Alberta 所推出的相应强化学习专项课程总结而成的学习网站。

这个教程精选了RLIntroduction中的核心章节，并将其与[视频专项课程](https://www.coursera.org/specializations/reinforcement-learning)根据我个人在学习中的体验融合， 对于每一个知识点选取笔者认为最高效，最易于理解的形式（文本，图片或相应的视频片段）编排而成 ，整个网站内容主要基于笔者自己在学习中的笔记及理解。

目前项目英文版已经编排完成，可在[该网址](https://dong237.github.io/DistilRLIntroduction/)查看，更详细的项目简介见[此页](https://dong237.github.io/DistilRLIntroduction/Contents/0_prelude.html#what-this-is)

### 立项理由

作为一名强化学习（RL）的学习者，RL是我在ML所有子领域中付出最多精力而自我感觉也最难攻克的一部分，在我的学习过程中我一直在寻找能够在难度和实用度之间达到适当平衡的学习资源，来帮助像我一样具有一定深度学习经验，希望全面了解RL的学习者。Sutton 的《强化学习导论》虽然是强化学习领域的经典之作，但从头到尾通读需要付出大量精力。

所以我用自己的RL学习笔记制作了这个教程：一个精简的"知识库"，希望能帮助其他RL入门者更快更轻松地掌握核心概念

### 项目受众

- 理论上任何对RL感兴趣的学习者，但建议具备一定机器学习及统计学基础，拥有深度学习经验最佳
- 对已经有一定RL使用经验，想全面了解RL理论（从bandit到ppo）的学习者
- 最后，由于项目目前只有英文版，建议至少通过CET-4. 后续可能会提供中文版

### 项目亮点

目前笔者接触过的多数RL教程形式无非为文本类：
[Reinforcement Learning：An Introduction](http://incompleteideas.net/book/the-book-2nd.html)
[OpenAI](https://spinningup.openai.com/en/latest/index.html) [spinning ](https://spinningup.openai.com/en/latest/index.html)[up](https://spinningup.openai.com/en/latest/index.html)
[Huggingface](https://huggingface.co/learn/deep-rl-course/unit0/introduction) [Deep RL ](https://huggingface.co/learn/deep-rl-course/unit0/introduction)[course](https://huggingface.co/learn/deep-rl-course/unit0/introduction)
[翁荔博客](https://lilianweng.github.io/)
[蘑菇](https://datawhalechina.github.io/easy-rl/)[书](https://datawhalechina.github.io/easy-rl/)[Esay](https://datawhalechina.github.io/easy-rl/) [RL](https://datawhalechina.github.io/easy-rl/)
或视频课程类
[David Silver’s ](https://www.youtube.com/playlist?list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ)[RL course at ](https://www.youtube.com/playlist?list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ)[UCL](https://www.youtube.com/playlist?list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ)，

同时常见的中文类教程缺乏系统的讲解：
[知乎作者](https://www.zhihu.com/column/c_1530717247106920448)[1](https://www.zhihu.com/column/c_1530717247106920448)
[知乎](https://www.zhihu.com/people/chen-jia-hao-78-82/posts)[作者](https://www.zhihu.com/people/chen-jia-hao-78-82/posts)[2](https://www.zhihu.com/people/chen-jia-hao-78-82/posts)

本教程则融合文本和视频课程形式，在每个知识点处选取最适合的知识形式，同时内容全部基于领域内最具权威的著作（RL Introduction）。后续根据时间情况，笔者也计划提供中文翻译版本

### 项目规划

## 📋 目录

### 🌟 介绍
- 第0章：序言
- 第1章：强化学习简介

### 🧮 表格解决方法
#### 强化学习基础
- 第2章：多臂赌博机
- 第3章：马尔可夫决策过程
- 第4章：动态规划

#### 基于采样的学习方法
- 第5章：蒙特卡洛方法
- 第6章：时序差分学习
- 第7章：规划、学习与行动

### 🤖 近似解决方法
#### 价值函数近似
- 第8章：基于近似的on-policy预测
- 第9章：基于近似的on-policy控制

#### 策略近似
- 第10章：策略梯度方法
- 第11章：现代策略梯度方法

## 项目进度
目前项目已全部完成（英文版），内容见[该网址](https://dong237.github.io/DistilRLIntroduction/)


### 已完成内容

Website:  https://dong237.github.io/DistilRLIntroduction/
Github repo:  https://github.com/Dong237/DistilRLIntroduction/tree/main

### ❗❗❗注意事项❗❗❗：为了便于我们跟你取得联系，请务必加我们的微信：at-Sm1les（备注你来自于项目立项即可），发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue，若7天内无反对意见则默认立项通过，如有任何疑问或者需要帮助均可随时联系微信：at-Sm1les

- [x] 我已知悉上述注意事项并添加了微信：at-Sm1les

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

distil-rl-introduction #336

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

立项理由

项目受众

项目亮点

项目规划

📋 目录

🌟 介绍

🧮 表格解决方法

强化学习基础

基于采样的学习方法

🤖 近似解决方法

价值函数近似

策略近似

项目进度

已完成内容

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

distil-rl-introduction #336

Description

你是否已经阅读并同意《Datawhale开源项目指南》？

你是否已经阅读并同意《Datawhale开源项目行为准则》？

项目简介

立项理由

项目受众

项目亮点

项目规划

📋 目录

🌟 介绍

🧮 表格解决方法

强化学习基础

基于采样的学习方法

🤖 近似解决方法

价值函数近似

策略近似

项目进度

已完成内容

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions