Skip to content

REINFORCE 算法中策略更新公式中额外的折扣因子 #181

@Jason-Pei0118

Description

@Jason-Pei0118

我对于提供的 REINFORCE 算法图片中的策略参数更新公式存在错误。 当前的更新公式是:

θ ← θ + αγ^t G ∇log π(A_t|S_t, θ)

然而,折扣因子 γ 已经在回报 G 的计算中被考虑过了,其中:

G ← Σ_{k=t+1}^{T} γ^{k-t-1} R_k

在策略更新步骤中再次乘以 γ^t 会不会错误地对回报进行二次折扣,偏离了 REINFORCE 算法的正确动态。

更新公式是否应该是:

θ ← θ + α G ∇log π(A_t|S_t, θ)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions