datawhalechina · liudengdajun550 · Sep 15, 2025
diff --git a/docs/chapter2/第二章 Transformer架构.md b/docs/chapter2/第二章 Transformer架构.md
@@ -169,7 +169,10 @@ attention(x, x, x)
 掩码自注意力，即 Mask Self-Attention，是指使用注意力掩码的自注意力机制。掩码的作用是遮蔽一些特定位置的 token，模型在学习的过程中，会忽略掉被遮蔽的 token。
 
 使用注意力掩码的核心动机是让模型只能使用历史信息进行预测而不能看到未来信息。使用注意力机制的 Transformer 模型也是通过类似于 n-gram 的语言模型任务来学习的，也就是对一个文本序列，不断根据之前的 token 来预测下一个 token，直到将整个文本序列补全。
+（下一个token不是依赖上一个吗？上一个还没有值怎么能预测下一个呢？
 
+训练时：所有token都已知，通过掩码机制人为限制信息流动，模拟自回归过程，但计算是并行的
+推理时：确实是顺序生成的，每次生成一个token后，将其加入已生成序列，再预测下一个）
 例如，如果待学习的文本序列是 【BOS】I like you【EOS】，那么，模型会按如下顺序进行预测和学习：
 
     Step 1：输入 【BOS】，输出 I