第四章81页REINFORCE算法伪代码中θ更新公式可能不恰当？

Hi

首先，非常感谢你开源这本书，它对我学习强化学习帮助很大！

我在阅读关于 **REINFORCE 算法** 的章节（图 4.14 和相关公式）时，对参数更新的公式有一点疑惑，想请教一下或者确认是否是一个笔误。

### ❓ 问题描述
在算法流程图的最后一步，参数更新公式写为：
θ<-θ+αγ^t▽lnπ(A_t|S_t,θ)

### 🤔 我的理解
根据标准的 REINFORCE 算法，我们通常计算的是从当前时刻 t 开始的未来折扣回报 G_t：
在更新策略参数 $\theta$ 时，我们直接使用这个 $G_t$ 作为无偏估计来衡量动作的好坏。

### 💡 疑惑点
如果在更新公式中显式地乘上 γ^t，这似乎意味着我们将未来的回报 $G$再次进行了折扣。

但在策略梯度的推导中，目标是最大化从当前状态开始的期望回报，因此不需要将梯度更新项再乘上 γ^t。

所以，请问这里的 γ^t 是否多余？

谢谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

第四章81页REINFORCE算法伪代码中θ更新公式可能不恰当？ #189

❓ 问题描述

🤔 我的理解

💡 疑惑点

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

第四章81页REINFORCE算法伪代码中θ更新公式可能不恰当？ #189

Description

❓ 问题描述

🤔 我的理解

💡 疑惑点

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions