CS420/93_策略梯度_课程笔记.md at master · boyuai/CS420 · GitHub

45 lines (24 loc) · 905 Bytes

策略梯度

参数化策略

策略本身也可以参数化，策略可以是确定的也可以是随机的

基于策略的强化学习

优点

具有更好的收敛性质
在高纬度或连续的动作空间中更有效
能够学习出随机策略

缺点

通常会收敛到局部最优而非全局最优
评估一个策略通常不够高些并具有较大的方差

策略梯度

知道决策的方向就可以向其更新

单步马尔科夫决策过程中的策略梯度

策略的价值期望

似然比（Likelihood Ratio）

可以使用似然比改写策略的价值期望

策略梯度定理

蒙特卡洛策略梯度（REINFORCE）

利用随机梯度上升更新参数

利用策略梯度定理

累计奖励值可作为无偏估计

Puck World冰球世界示例

Softmax随机策略