REINFORCE 算法中策略更新公式中额外的折扣因子

我对于提供的 REINFORCE 算法[图片](https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4?id=_43-reinforce%ef%bc%9a%e8%92%99%e7%89%b9%e5%8d%a1%e6%b4%9b%e7%ad%96%e7%95%a5%e6%a2%af%e5%ba%a6)中的策略参数更新公式存在错误。 当前的更新公式是：

θ ← θ + αγ^t G ∇log π(A_t|S_t, θ)

然而，折扣因子 γ 已经在回报 G 的计算中被考虑过了，其中：

G ← Σ_{k=t+1}^{T} γ^{k-t-1} R_k

在策略更新步骤中再次乘以 γ^t 会不会错误地对回报进行二次折扣，偏离了 REINFORCE 算法的正确动态。

更新公式是否应该是：

θ ← θ + α G ∇log π(A_t|S_t, θ)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

REINFORCE 算法中策略更新公式中额外的折扣因子 #181

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

REINFORCE 算法中策略更新公式中额外的折扣因子 #181

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions