KV_cache的源码解释 #547

ciaoyizhen · 2025-11-24T10:00:52Z

ciaoyizhen
Nov 24, 2025

kv_cache的原理我是很清楚的，但是我很难将代码和这个联系起来。

然后我去看了
https://github.com/hans0809/MiniMind-in-Depth/blob/main/src/5-%E9%AD%94%E6%94%B9%E7%9A%84%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%EF%BC%8C%E7%BB%86%E6%95%B0%E5%BD%93%E4%BB%A3LLM%E7%9A%84%E6%95%88%E7%8E%87%E4%BC%98%E5%8C%96%E6%89%8B%E6%AE%B5.md

我就在想，在推理的时候,是不是forward的时候他的维度不是[batch_size, seq_len, hidden] 而是[batch_size, 1, hidden] 1表示新进来的

xk = xk.view(bsz, seq_len, self.n_local_kv_heads, self.head_dim)
...
if past_key_value is not None:
    xk = torch.cat([past_key_value[0], xk], dim=1)  # time 维度拼接
    xv = torch.cat([past_key_value[1], xv], dim=1)

不然我很难理解 xk的维度[batch_size, seq_len, num_head, dim] 怎么做的合并
如果是[batch, 1, num_head, dim]的话似乎就合理了但是这一块我没看到代码解释

不知道我的理解对不对

Answered by jingyaogong

Nov 24, 2025

至于为什么没有显式的 seq-len=1

贴一下GPT5.1回答吧，不打字了。

你提到的 “推理的时候，forward 的维度是 [batch_size, 1, hidden]” 这一点完全正确，且是 KV Cache 生效的核心前提。

为什么代码里没看到 `[batch_size, 1]` 的截断逻辑？

这其实是 transformers 库在幕后帮你做的工作。

MiniMindForCausalLM 继承了 GenerationMixin。当调用 model.generate() 时，transformers 库会接管控制流：

First Pass (Prefill):
- 输入完整的 Prompt（例如长度为 10）。
- forward 接收 input_ids 维度 [1, 10]。
- 计算出所有 10 个 token 的 KV，存入 past_key_values。
Decoding Phase (Generation):
- transformers 库的 GenerationMixin 会检查 past_key_values 是否存在。
- 关键点：它的默认行为（在较新版本中）会自动执行 input_ids = input_ids[:, -1:]，即只取最后一个生成的 token。
- 所以，第 2 次及以后的 forward，传入 input_ids 维度真的是 [1, 1]。

代码维度的逐行验证

让我们带入维度 [batch, 1, num_head, dim] 来验证你的猜想：

在 model/model_minimind.py 的 Attention.…

View full answer

jingyaogong · 2025-11-24T11:23:13Z

jingyaogong
Nov 24, 2025
Maintainer

推理时候是 [batch, 1, num_head, dim]

2 replies

jingyaogong Nov 24, 2025
Maintainer

至于为什么没有显式的 seq-len=1

贴一下GPT5.1回答吧，不打字了。

你提到的 “推理的时候，forward 的维度是 [batch_size, 1, hidden]” 这一点完全正确，且是 KV Cache 生效的核心前提。

为什么代码里没看到 `[batch_size, 1]` 的截断逻辑？

这其实是 transformers 库在幕后帮你做的工作。

MiniMindForCausalLM 继承了 GenerationMixin。当调用 model.generate() 时，transformers 库会接管控制流：

First Pass (Prefill):
- 输入完整的 Prompt（例如长度为 10）。
- forward 接收 input_ids 维度 [1, 10]。
- 计算出所有 10 个 token 的 KV，存入 past_key_values。
Decoding Phase (Generation):
- transformers 库的 GenerationMixin 会检查 past_key_values 是否存在。
- 关键点：它的默认行为（在较新版本中）会自动执行 input_ids = input_ids[:, -1:]，即只取最后一个生成的 token。
- 所以，第 2 次及以后的 forward，传入 input_ids 维度真的是 [1, 1]。

代码维度的逐行验证

让我们带入维度 [batch, 1, num_head, dim] 来验证你的猜想：

在 model/model_minimind.py 的 Attention.forward 中：

175|        bsz, seq_len, _ = x.shape
# 此时 seq_len = 1 (因为输入被截断了)

178|        xk = xk.view(bsz, seq_len, self.n_local_kv_heads, self.head_dim)
# xk 维度: [batch, 1, n_kv_head, head_dim] (新计算出的当前 token 的 K)

185|        if past_key_value is not None:
186|            xk = torch.cat([past_key_value[0], xk], dim=1)
# past_key_value[0] 维度: [batch, T, n_kv_head, head_dim] (历史 T 个 token 的 K)
# 拼接后 xk 维度: [batch, T+1, n_kv_head, head_dim] (包含了历史 + 当前)

如果不按你理解的这样走（即如果传了全量 input_ids）：

seq_len 就会变成 T+1。
xk 维度是 [batch, T+1, ...]。
拼接后维度变成 T + (T+1) = 2T+1，且内容重复。这不仅会导致计算错误，显存也会爆炸。

侧面佐证：位置编码

在 MiniMindModel 的 forward 中也能印证这一点：

402|        start_pos = past_key_values[0][0].shape[1] if past_key_values[0] is not None else 0
# start_pos = T (历史长度)

406|        position_embeddings = (
407|            self.freqs_cos[start_pos:start_pos + seq_length],
# 如果 seq_length 不是 1，而是 T+1
# 取出的位置编码就是 [T, 2T+1]，这是错的。位置编码应该是 [T, T+1]。
# 所以 seq_length 必须是 1。

结论：你的理解完全没有问题。虽然 MiniMind 代码里没有显式写 input_ids = input_ids[:, -1:]，但这正是 transformers 框架不仅负责“生成”，也负责“准备输入”所做的事情。

Answer selected by ciaoyizhen

ciaoyizhen Nov 24, 2025
Author

太感谢了我之前一直没看懂这块代码世界因你而美好大佬膜拜

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

KV_cache的源码解释 #547

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 2 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

KV_cache的源码解释 #547

Uh oh!

ciaoyizhen Nov 24, 2025

为什么代码里没看到 [batch_size, 1] 的截断逻辑？

代码维度的逐行验证

Replies: 1 comment · 2 replies

Uh oh!

jingyaogong Nov 24, 2025 Maintainer

Uh oh!

jingyaogong Nov 24, 2025 Maintainer

为什么代码里没看到 [batch_size, 1] 的截断逻辑？

代码维度的逐行验证

侧面佐证：位置编码

Uh oh!

ciaoyizhen Nov 24, 2025 Author

ciaoyizhen
Nov 24, 2025

为什么代码里没看到 `[batch_size, 1]` 的截断逻辑？

Replies: 1 comment 2 replies

jingyaogong
Nov 24, 2025
Maintainer

jingyaogong Nov 24, 2025
Maintainer

为什么代码里没看到 `[batch_size, 1]` 的截断逻辑？

ciaoyizhen Nov 24, 2025
Author