深度强化学习 价值和策略近似 状态值函数和状态动作值函数近似 端到端强化学习 端到端:深度强化学习直接省去了特征的选用输出一个分类的概率 利用深度神经网络进行价值函数和策略近似 深度强化学习带来的关键改变 价值函数和策略现在变成了深度神经网络 相当高维度的参数空间 难以稳定地训练 容易过拟合 需要大量数据 需要更高性能计算 CPU、GPU之间的平衡,CPU负责收集经验数据,GPU用于训练网络 深度强化学习的分类 基于价值的方法 基于随机策略的方法 基于确定性策略的方法