Skip to content

distil-rl-introduction #336

@Dong237

Description

@Dong237

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

《蒸馏版强化学习:简明导论》 是一份基于图灵奖得主Richard Sutton的强化学习经典著作 Reinforcement Learning: An Introduction以及其研究团队在University of Alberta 所推出的相应强化学习专项课程总结而成的学习网站。

这个教程精选了RLIntroduction中的核心章节,并将其与视频专项课程根据我个人在学习中的体验融合, 对于每一个知识点选取笔者认为最高效,最易于理解的形式(文本,图片或相应的视频片段)编排而成 ,整个网站内容主要基于笔者自己在学习中的笔记及理解。

目前项目英文版已经编排完成,可在该网址查看,更详细的项目简介见此页

立项理由

作为一名强化学习(RL)的学习者,RL是我在ML所有子领域中付出最多精力而自我感觉也最难攻克的一部分,在我的学习过程中我一直在寻找能够在难度和实用度之间达到适当平衡的学习资源,来帮助像我一样具有一定深度学习经验,希望全面了解RL的学习者。Sutton 的《强化学习导论》虽然是强化学习领域的经典之作,但从头到尾通读需要付出大量精力。

所以我用自己的RL学习笔记制作了这个教程:一个精简的"知识库",希望能帮助其他RL入门者更快更轻松地掌握核心概念

项目受众

  • 理论上任何对RL感兴趣的学习者,但建议具备一定机器学习及统计学基础,拥有深度学习经验最佳
  • 对已经有一定RL使用经验,想全面了解RL理论(从bandit到ppo)的学习者
  • 最后,由于项目目前只有英文版,建议至少通过CET-4. 后续可能会提供中文版

项目亮点

目前笔者接触过的多数RL教程形式无非为文本类:
Reinforcement Learning:An Introduction
OpenAI spinning up
Huggingface Deep RL course
翁荔博客
蘑菇Esay RL
或视频课程类
David Silver’s RL course at UCL

同时常见的中文类教程缺乏系统的讲解:
知乎作者1
知乎作者2

本教程则融合文本和视频课程形式,在每个知识点处选取最适合的知识形式,同时内容全部基于领域内最具权威的著作(RL Introduction)。后续根据时间情况,笔者也计划提供中文翻译版本

项目规划

📋 目录

🌟 介绍

  • 第0章:序言
  • 第1章:强化学习简介

🧮 表格解决方法

强化学习基础

  • 第2章:多臂赌博机
  • 第3章:马尔可夫决策过程
  • 第4章:动态规划

基于采样的学习方法

  • 第5章:蒙特卡洛方法
  • 第6章:时序差分学习
  • 第7章:规划、学习与行动

🤖 近似解决方法

价值函数近似

  • 第8章:基于近似的on-policy预测
  • 第9章:基于近似的on-policy控制

策略近似

  • 第10章:策略梯度方法
  • 第11章:现代策略梯度方法

项目进度

目前项目已全部完成(英文版),内容见该网址

已完成内容

Website: https://dong237.github.io/DistilRLIntroduction/
Github repo: https://github.com/Dong237/DistilRLIntroduction/tree/main

❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les

  • 我已知悉上述注意事项并添加了微信:at-Sm1les

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions