File tree Expand file tree Collapse file tree 2 files changed +2
-17
lines changed
Expand file tree Collapse file tree 2 files changed +2
-17
lines changed Original file line number Diff line number Diff line change 12121 . 概率筛选:对输出向量进行概率计算,选出概率最高的 token 序号
13131 . 结果解码:通过词典映射表将序号还原为文字,得到最终输出词
1414
15- ``` mermaid
16- flowchart LR
17- A[文本输入<br/>自然语言文本]
18- B[词典映射(编码)<br/>文本 → Token 序号]
19- C[Embedding 计算<br/>Token → 语义向量]
20- D[向量送入模型<br/>输入推理系统]
21- E[模型内部计算<br/>矩阵运算 / 非线性函数]
22- F[概率筛选<br/>输出向量 → Token 概率]
23- G[结果解码<br/>Token → 文本输出]
24-
25- A --> B --> C --> D --> E --> F --> G
26- ```
15+ ![ 流程图] ( ./images/flowchart.png )
2716
2817以上是对大模型推理流程的最朴素理解。尽管整体步骤看起来并不复杂,但真正发生在模型内部的推理计算,对大多数开发者而言仍然像一个“黑盒”。如果希望进一步拆解推理引擎的底层计算与加速原理,nano-vllm 是一个非常理想的入门切入点。
2918
@@ -87,9 +76,7 @@ Qwen3-0.6B 的配置文件位于 `~/.cache/huggingface/hub/models--Qwen--Qwen3-0
8776}
8877```
8978
90- ### 核心字段解读
91-
92- 以下是关键配置字段的解释,使用表格总结:
79+ 以下是 config.json 关键配置字段的解释:
9380
9481| 字段名称 | 值 | 解释 |
9582| ---------------------------| ---------------------| ------|
@@ -103,8 +90,6 @@ Qwen3-0.6B 的配置文件位于 `~/.cache/huggingface/hub/models--Qwen--Qwen3-0
10390| RoPE Theta (rope_theta) | 1000000 | Rotary Position Embedding 的基频。 |
10491| 词表大小 (vocab_size) | 151936 | 词汇表大小。 |
10592
106- ### 分析
107-
10893- ** GQA 确认** :Q 头数 (16) != KV 头数 (8),因此使用 Grouped Query Attention (GQA)。分组大小:16 / 8 = 2(每个 KV 头对应 2 个 Q 头)。
10994- ** FFN 扩展比例** :d_ff / d_model = 3072 / 1024 ≈ 3.00。
11095
You can’t perform that action at this time.
0 commit comments