策略梯度 参数化策略 策略本身也可以参数化,策略可以是确定的也可以是随机的 基于策略的强化学习 优点 具有更好的收敛性质 在高纬度或连续的动作空间中更有效 能够学习出随机策略 缺点 通常会收敛到局部最优而非全局最优 评估一个策略通常不够高些并具有较大的方差 策略梯度 知道决策的方向就可以向其更新 单步马尔科夫决策过程中的策略梯度 策略的价值期望 似然比(Likelihood Ratio) 可以使用似然比改写策略的价值期望 策略梯度定理 蒙特卡洛策略梯度(REINFORCE) 利用随机梯度上升更新参数 利用策略梯度定理 累计奖励值可作为无偏估计 Puck World冰球世界示例 Softmax随机策略