Skip to content

练习9.2.1的解答感觉有错误。 #113

Open
@mzh1124

Description

问题是:

假设我们只想使用时间步$t'$的输入来预测时间步$t > t'$的输出。对于每个时间步,重置门和更新门的最佳值是什么?

解答是:

  如果只想采用时间步$t'$的输出来预测时间步$t$的输出,则意味着模型需要减少之前时间步在计算中做出的贡献,根据候选隐状态计算公式:
$$\tilde{H}t = tanh(X_tW{xh}+(R_t \odot H_{t-1})W_{hh}+b_r)$$
因此需要令重置门的值趋向于0,减少过去状态的影响,令模型只考虑当前时间步$t'$所做出的贡献。
  在确定候选隐状态后,需要结合更新门进一步确定新的隐状态$H_t$受过去隐状态$H_{t-1}$和候选隐状态$\tilde{H}t$的影响程度,而在只考虑时间步$t'$的输入时,需要抛弃过去隐状态$H{t-1}$,来跳过过去时间步。因此根据最终更新公式:
$$H_t = Z_t \odot H_{t-1} + (1-Z_t) \odot \tilde{H}_t$$
需要更新门的值也趋向于0,使得新的隐状态更接近于候选隐状态。
  因此,只想使用时间步$t'$的输入来预测时间步$t$的输出时,对于时间步$t'$,让重置门$R_t$和更新门$Z_t$的值都趋向于0,对于时间步$t$,让更新门$Z_t$的值趋向于1。

我认为正确的应该是:

对于时间步$t'$,让重置门$R_t$和更新门$Z_t$的值都趋向于0,对于时间步$t$,让更新门$Z_t$的值趋向于1。

也即要对时间$t'$和$t>t'$分别考虑。

Activity

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions