CS420/95_深度强化学习_课程笔记.md at master · boyuai/CS420 · GitHub

27 lines (18 loc) · 729 Bytes

深度强化学习

价值和策略近似

状态值函数和状态动作值函数近似

端到端强化学习

端到端：深度强化学习直接省去了特征的选用输出一个分类的概率

利用深度神经网络进行价值函数和策略近似

深度强化学习带来的关键改变

价值函数和策略现在变成了深度神经网络
相当高维度的参数空间
难以稳定地训练
容易过拟合
需要大量数据
需要更高性能计算
CPU、GPU之间的平衡，CPU负责收集经验数据，GPU用于训练网络

深度强化学习的分类

基于价值的方法
基于随机策略的方法
基于确定性策略的方法