我的理解是attention 里面的restrict_self_attn 实现了autoregressive,也就是历史不能看到当前,但是当前可以回顾历史,但是为什么训练时restrict_self_attn=false呢?谢谢
我的理解是attention 里面的restrict_self_attn 实现了autoregressive,也就是历史不能看到当前,但是当前可以回顾历史,但是为什么训练时restrict_self_attn=false呢?谢谢