Hi
首先,非常感谢你开源这本书,它对我学习强化学习帮助很大!
我在阅读关于 REINFORCE 算法 的章节(图 4.14 和相关公式)时,对参数更新的公式有一点疑惑,想请教一下或者确认是否是一个笔误。
❓ 问题描述
在算法流程图的最后一步,参数更新公式写为:
θ<-θ+αγ^t▽lnπ(A_t|S_t,θ)
🤔 我的理解
根据标准的 REINFORCE 算法,我们通常计算的是从当前时刻 t 开始的未来折扣回报 G_t:
在更新策略参数 $\theta$ 时,我们直接使用这个 $G_t$ 作为无偏估计来衡量动作的好坏。
💡 疑惑点
如果在更新公式中显式地乘上 γ^t,这似乎意味着我们将未来的回报 $G$再次进行了折扣。
但在策略梯度的推导中,目标是最大化从当前状态开始的期望回报,因此不需要将梯度更新项再乘上 γ^t。
所以,请问这里的 γ^t 是否多余?
谢谢!
Hi
首先,非常感谢你开源这本书,它对我学习强化学习帮助很大!
我在阅读关于 REINFORCE 算法 的章节(图 4.14 和相关公式)时,对参数更新的公式有一点疑惑,想请教一下或者确认是否是一个笔误。
❓ 问题描述
在算法流程图的最后一步,参数更新公式写为:
θ<-θ+αγ^t▽lnπ(A_t|S_t,θ)
🤔 我的理解
根据标准的 REINFORCE 算法,我们通常计算的是从当前时刻 t 开始的未来折扣回报 G_t:$\theta$ 时,我们直接使用这个 $G_t$ 作为无偏估计来衡量动作的好坏。
在更新策略参数
💡 疑惑点
如果在更新公式中显式地乘上 γ^t,这似乎意味着我们将未来的回报$G$ 再次进行了折扣。
但在策略梯度的推导中,目标是最大化从当前状态开始的期望回报,因此不需要将梯度更新项再乘上 γ^t。
所以,请问这里的 γ^t 是否多余?
谢谢!