Open
Description
问题是:
假设我们只想使用时间步$t'$的输入来预测时间步$t > t'$的输出。对于每个时间步,重置门和更新门的最佳值是什么?
解答是:
如果只想采用时间步$t'$的输出来预测时间步$t$的输出,则意味着模型需要减少之前时间步在计算中做出的贡献,根据候选隐状态计算公式:
$$\tilde{H}t = tanh(X_tW{xh}+(R_t \odot H_{t-1})W_{hh}+b_r)$$
因此需要令重置门的值趋向于0,减少过去状态的影响,令模型只考虑当前时间步$t'$所做出的贡献。
在确定候选隐状态后,需要结合更新门进一步确定新的隐状态$H_t$受过去隐状态$H_{t-1}$和候选隐状态$\tilde{H}t$的影响程度,而在只考虑时间步$t'$的输入时,需要抛弃过去隐状态$H{t-1}$,来跳过过去时间步。因此根据最终更新公式:
需要更新门的值也趋向于0,使得新的隐状态更接近于候选隐状态。
因此,只想使用时间步$t'$的输入来预测时间步$t$的输出时,对于时间步$t'$,让重置门$R_t$和更新门$Z_t$的值都趋向于0,对于时间步$t$,让更新门$Z_t$的值趋向于1。
我认为正确的应该是:
对于时间步$t'$,让重置门$R_t$和更新门$Z_t$的值都趋向于0,对于时间步$t$,让更新门$Z_t$的值趋向于1。
也即要对时间$t'$和$t>t'$分别考虑。
Metadata
Assignees
Labels
No labels
Activity