Skip to content

Latest commit

 

History

History
27 lines (18 loc) · 729 Bytes

File metadata and controls

27 lines (18 loc) · 729 Bytes

深度强化学习

价值和策略近似

状态值函数和状态动作值函数近似

端到端强化学习

端到端:深度强化学习直接省去了特征的选用输出一个分类的概率

利用深度神经网络进行价值函数和策略近似

深度强化学习带来的关键改变

  • 价值函数和策略现在变成了深度神经网络
  • 相当高维度的参数空间
  • 难以稳定地训练
  • 容易过拟合
  • 需要大量数据
  • 需要更高性能计算
  • CPU、GPU之间的平衡,CPU负责收集经验数据,GPU用于训练网络

深度强化学习的分类

  • 基于价值的方法
  • 基于随机策略的方法
  • 基于确定性策略的方法