Skip to content

Commit 4bcb264

Browse files
authored
Merge pull request d-run#518 from windsonsea/flowc
update flowchart
2 parents 28dd870 + 1f81ae6 commit 4bcb264

File tree

2 files changed

+2
-17
lines changed

2 files changed

+2
-17
lines changed
71.6 KB
Loading

docs/zh/docs/blogs/2026/nano-vllm.md

Lines changed: 2 additions & 17 deletions
Original file line numberDiff line numberDiff line change
@@ -12,18 +12,7 @@
1212
1. 概率筛选:对输出向量进行概率计算,选出概率最高的 token 序号
1313
1. 结果解码:通过词典映射表将序号还原为文字,得到最终输出词
1414

15-
```mermaid
16-
flowchart LR
17-
A[文本输入<br/>自然语言文本]
18-
B[词典映射(编码)<br/>文本 → Token 序号]
19-
C[Embedding 计算<br/>Token → 语义向量]
20-
D[向量送入模型<br/>输入推理系统]
21-
E[模型内部计算<br/>矩阵运算 / 非线性函数]
22-
F[概率筛选<br/>输出向量 → Token 概率]
23-
G[结果解码<br/>Token → 文本输出]
24-
25-
A --> B --> C --> D --> E --> F --> G
26-
```
15+
![流程图](./images/flowchart.png)
2716

2817
以上是对大模型推理流程的最朴素理解。尽管整体步骤看起来并不复杂,但真正发生在模型内部的推理计算,对大多数开发者而言仍然像一个“黑盒”。如果希望进一步拆解推理引擎的底层计算与加速原理,nano-vllm 是一个非常理想的入门切入点。
2918

@@ -87,9 +76,7 @@ Qwen3-0.6B 的配置文件位于 `~/.cache/huggingface/hub/models--Qwen--Qwen3-0
8776
}
8877
```
8978

90-
### 核心字段解读
91-
92-
以下是关键配置字段的解释,使用表格总结:
79+
以下是 config.json 关键配置字段的解释:
9380

9481
| 字段名称 || 解释 |
9582
|---------------------------|---------------------|------|
@@ -103,8 +90,6 @@ Qwen3-0.6B 的配置文件位于 `~/.cache/huggingface/hub/models--Qwen--Qwen3-0
10390
| RoPE Theta (rope_theta) | 1000000 | Rotary Position Embedding 的基频。 |
10491
| 词表大小 (vocab_size) | 151936 | 词汇表大小。 |
10592

106-
### 分析
107-
10893
- **GQA 确认**:Q 头数 (16) != KV 头数 (8),因此使用 Grouped Query Attention (GQA)。分组大小:16 / 8 = 2(每个 KV 头对应 2 个 Q 头)。
10994
- **FFN 扩展比例**:d_ff / d_model = 3072 / 1024 ≈ 3.00。
11095

0 commit comments

Comments
 (0)