Skip to content

第四章81页REINFORCE算法伪代码中θ更新公式可能不恰当? #189

@050125hhh

Description

@050125hhh

Hi

首先,非常感谢你开源这本书,它对我学习强化学习帮助很大!

我在阅读关于 REINFORCE 算法 的章节(图 4.14 和相关公式)时,对参数更新的公式有一点疑惑,想请教一下或者确认是否是一个笔误。

❓ 问题描述

在算法流程图的最后一步,参数更新公式写为:
θ<-θ+αγ^t▽lnπ(A_t|S_t,θ)

🤔 我的理解

根据标准的 REINFORCE 算法,我们通常计算的是从当前时刻 t 开始的未来折扣回报 G_t:
在更新策略参数 $\theta$ 时,我们直接使用这个 $G_t$ 作为无偏估计来衡量动作的好坏。

💡 疑惑点

如果在更新公式中显式地乘上 γ^t,这似乎意味着我们将未来的回报 $G$再次进行了折扣。

但在策略梯度的推导中,目标是最大化从当前状态开始的期望回报,因此不需要将梯度更新项再乘上 γ^t。

所以,请问这里的 γ^t 是否多余?

谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions