WeThinkIn
diff --git a/‎README.md‎
Lines changed: 1 addition & 1 deletion b/‎README.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎数据结构&算法基础/01_数据结构与算法总览高频考点.md‎
Lines changed: 304 additions & 0 deletions b/‎数据结构&算法基础/01_数据结构与算法总览高频考点.md‎
Lines changed: 304 additions & 0 deletions
@@ -35,7 +35,7 @@
 - :snake: [编程基础：Python](编程基础：Python)
 - :bar_chart: [编程基础：C和C++](编程基础：C和C++)
 - :boom: [大厂高频算法题](大厂高频算法题)
-- :battery: [数据结构基础](数据结构基础)
+- :battery: [数据结构&算法基础](数据结构&算法基础)
 - :computer: [计算机基础](计算机基础)
 - :chart_with_upwards_trend: [开放性问题](开放性问题)
 - [2025年AI算法岗求职群&学习交流社区](https://mp.weixin.qq.com/s/ssEJjHBoJDB4y5CfQIWYvw)
 
@@ -0,0 +1,304 @@
+# 目录
+
+## 第一章 数据结构与算法总览
+
+[1. 为什么 AI 算法岗仍然必须掌握数据结构与算法？](#q-001)
+  - [面试问题：数据结构和算法在 AIGC 系统中分别解决什么问题？](#q-002)
+  - [面试问题：如何从 AI 工程场景选择合适的数据结构？](#q-003)
+  - [面试问题：算法复杂度为什么会影响模型训练和推理成本？](#q-004)
+
+## 第二章 复杂度、内存与工程权衡
+
+[2. 时间复杂度和空间复杂度应该如何分析？](#q-005)
+  - [面试问题：最好、最坏、平均和摊还复杂度有什么区别？](#q-006)
+  - [面试问题：为什么常数、缓存局部性和内存访问在 AI 系统中很重要？](#q-007)
+  - [面试问题：如何理解空间换时间、预计算和缓存？](#q-008)
+
+## 第三章 常用结构技术地图
+
+[3. 常用数据结构如何分类？](#q-009)
+  - [面试问题：数组、链表、栈、队列、哈希表、树、图分别适合什么场景？](#q-010)
+  - [面试问题：哪些数据结构在大模型系统中最常见？](#q-011)
+  - [面试问题：刷题中的数据结构如何迁移到真实 AI 项目？](#q-012)
+
+---
+
+<h1 id="q-001">1. 为什么 AI 算法岗仍然必须掌握数据结构与算法？</h1>
+
+AI 行业看起来以模型、论文、GPU 和数据为核心，但真正把模型训练、推理、检索、部署和 Agent 系统做稳，离不开数据结构与算法。
+
+原因有四点：
+
+1. **模型本身依赖高效数据组织**
+
+   Tensor 是多维数组，计算图是有向图，注意力缓存是按 token 和层组织的结构，RAG 索引依赖向量检索结构。
+
+2. **训练和推理受复杂度约束**
+
+   Transformer 注意力从 $O(n^2)$ 到稀疏注意力、滑动窗口注意力、KV Cache，本质都是算法复杂度优化。
+
+3. **工程系统需要稳定的数据结构**
+
+   DataLoader 队列、GPU task scheduler、LRU cache、token buffer、请求优先队列、日志索引、向量数据库都需要基础结构。
+
+4. **面试仍会考察手写代码能力**
+
+   AIGC 算法岗不仅问模型原理，也经常考链表、二分、堆、图、动态规划、字符串匹配、Top K、LRU、BFS/DFS 等。
+
+本板块中，概念、复杂度和 AI 场景主要在 01-06 展开；需要手写的高频模板统一补充在 [07_三语言代码模板与AI场景实现高频考点.md](07_三语言代码模板与AI场景实现高频考点.md)，便于对照 Python、C/C++、Java 三种语言复习。
+
+**面试金句：**
+
+数据结构决定数据如何被组织，算法决定数据如何被处理。AI 模型负责“学什么”，数据结构与算法决定系统能否在可接受的成本内“跑起来”。
+
+<h2 id="q-002">面试问题：数据结构和算法在 AIGC 系统中分别解决什么问题？</h2>
+
+| 维度 | 解决的问题 | AIGC 例子 |
+| --- | --- | --- |
+| 数据结构 | 数据如何存储、索引、访问和更新 | Tensor、KV Cache、向量索引、Trie、队列、图 |
+| 算法 | 如何高效完成计算、搜索、排序、匹配和优化 | Top K、Beam Search、二分、图搜索、动态规划 |
+| 复杂度分析 | 判断方案是否能规模化 | 长上下文推理、RAG 检索、批量调度 |
+| 工程权衡 | 在准确率、延迟、吞吐、内存之间取舍 | ANN 检索、缓存策略、调度队列 |
+
+例如 RAG 系统中：
+
+- 文档切片通常存在数组或列表中。
+- 元数据用哈希表维护。
+- 向量索引用 HNSW、IVF、PQ 等结构。
+- 查询时用近似最近邻算法。
+- 重排时可能用堆维护 Top K。
+- 会话历史用队列或滑动窗口管理。
+
+所以 RAG 不是“把文档塞给大模型”，而是一套数据结构和算法系统。
+
+<h2 id="q-003">面试问题：如何从 AI 工程场景选择合适的数据结构？</h2>
+
+选择数据结构可以按访问模式判断：
+
+| 访问模式 | 优先结构 | AI 场景 |
+| --- | --- | --- |
+| 按下标高频随机访问 | 数组 / Tensor | batch、embedding、feature matrix |
+| 频繁头尾插入删除 | 双端队列 | 流式 token buffer、日志窗口 |
+| 最近最少使用淘汰 | 哈希表 + 双向链表 | KV Cache、RAG query cache、特征缓存 |
+| 快速 key-value 查询 | 哈希表 | tokenizer vocab、样本索引、元数据 |
+| 有序范围查询 | 平衡树 / 跳表 | 时间线、排行榜、检索排序结果 |
+| Top K / 优先调度 | 堆 / 优先队列 | beam search、任务调度、候选召回 |
+| 前缀匹配 | Trie / Radix Tree | tokenizer、prefix cache、约束解码 |
+| 依赖关系 | 图 / DAG | 计算图、workflow、Agent task graph |
+| 大规模相似搜索 | 向量索引 | RAG、推荐、图像检索 |
+
+回答时要补一句工程判断：没有绝对最好的数据结构，只有和访问模式、数据规模、更新频率、内存预算、并发需求最匹配的结构。
+
+<h2 id="q-004">面试问题：算法复杂度为什么会影响模型训练和推理成本？</h2>
+
+复杂度会直接影响 GPU 显存、吞吐、延迟和云成本。
+
+典型例子：
+
+1. **注意力复杂度**
+
+   标准 self-attention 对序列长度 $n$ 的复杂度约为 $O(n^2)$。长上下文从 4K 到 128K 时，计算和显存压力不是线性增长。
+
+2. **KV Cache**
+
+   自回归推理如果每次都重新计算历史 token，成本很高；KV Cache 用空间保存历史 Key/Value，将增量解码成本大幅降低。
+
+3. **Top K 采样**
+
+   vocabulary 很大时，如果每步完整排序是 $O(V\log V)$；使用堆或选择算法可以降低候选筛选成本。
+
+4. **RAG 检索**
+
+   对千万级向量做精确最近邻搜索成本很高，实际系统常用 HNSW / IVF 等近似索引，用一点召回损失换取低延迟。
+
+5. **数据加载**
+
+   DataLoader 如果没有预取队列、缓存和并行读取，GPU 会等待 CPU 和 IO，导致昂贵算力空转。
+
+面试中可以说：AI 系统优化不是只改模型结构，也包括选择更合适的数据结构和算法，让每一次计算、检索和调度都更便宜。
+
+---
+
+<h1 id="q-005">2. 时间复杂度和空间复杂度应该如何分析？</h1>
+
+时间复杂度描述算法运行时间随输入规模增长的趋势，空间复杂度描述额外内存随输入规模增长的趋势。
+
+常见复杂度从低到高：
+
+| 复杂度 | 含义 | 例子 |
+| --- | --- | --- |
+| $O(1)$ | 常数时间 | 数组下标访问、哈希表平均查询 |
+| $O(\log n)$ | 对数时间 | 二分查找、堆调整、平衡树查询 |
+| $O(n)$ | 线性时间 | 遍历数组、链表扫描 |
+| $O(n\log n)$ | 线性对数 | 归并排序、堆排序、平均快排 |
+| $O(n^2)$ | 平方时间 | 冒泡排序、标准注意力矩阵 |
+| $O(2^n)$ | 指数时间 | 子集枚举、暴力搜索 |
+
+复杂度分析不是为了背公式，而是判断方案能否在真实规模下运行。
+
+<h2 id="q-006">面试问题：最好、最坏、平均和摊还复杂度有什么区别？</h2>
+
+| 类型 | 含义 | 例子 |
+| --- | --- | --- |
+| 最好复杂度 | 最理想输入下的复杂度 | 插入排序在已有序数组上是 $O(n)$ |
+| 最坏复杂度 | 最糟糕输入下的复杂度 | 快排选坏 pivot 可退化到 $O(n^2)$ |
+| 平均复杂度 | 输入按某种分布时的期望复杂度 | 哈希表平均查询 $O(1)$ |
+| 摊还复杂度 | 多次操作平均下来的复杂度 | 动态数组 append 摊还 $O(1)$ |
+
+AI 工程中的例子：
+
+- 动态 batch 队列扩容偶尔很慢，但摊还成本低。
+- 哈希表平均很快，但恶意 key 或极端冲突会退化。
+- ANN 检索平均延迟低，但尾延迟 P99 仍需监控。
+- Beam Search 平均候选不多，但大 beam size 会显著增加计算。
+
+面试中要说明：生产系统更关注最坏情况和尾延迟，不能只看平均复杂度。
+
+<h2 id="q-007">面试问题：为什么常数、缓存局部性和内存访问在 AI 系统中很重要？</h2>
+
+大 O 只描述增长趋势，不描述常数和硬件行为。AI 系统中，常数和内存访问非常关键。
+
+原因：
+
+- GPU / CPU 访问连续内存更快。
+- 数组比链表更容易利用 CPU cache。
+- Tensor 连续布局能提高向量化和矩阵乘性能。
+- 小批量请求中，函数调用、序列化、锁竞争的常数开销很明显。
+- Python 层循环可能远慢于 NumPy / PyTorch 的底层向量化实现。
+
+例子：
+
+- 在深度学习中，同样是 $O(n)$，PyTorch tensor 操作通常比 Python list 循环快很多。
+- Transformer 推理中，KV Cache 的物理布局会影响吞吐。
+- 向量数据库中，PQ 压缩可以减少内存带宽压力。
+
+面试中可以说：复杂度决定上限，内存布局和硬件友好性决定真实性能。
+
+<h2 id="q-008">面试问题：如何理解空间换时间、预计算和缓存？</h2>
+
+空间换时间是用额外存储减少重复计算。
+
+典型例子：
+
+| 技术 | 用额外空间保存什么 | 换来的收益 |
+| --- | --- | --- |
+| 哈希表 | key 到 value 的映射 | 平均 $O(1)$ 查询 |
+| LRU Cache | 最近访问结果 | 减少重复 API / 模型调用 |
+| KV Cache | 历史 token 的 Key/Value | 降低自回归解码成本 |
+| 前缀缓存 | prompt 前缀对应状态 | 复用相同系统提示和上下文 |
+| DP 表 | 子问题结果 | 避免指数级重复递归 |
+| 向量索引 | embedding 的图/聚类结构 | 加速相似搜索 |
+
+风险：
+
+- 缓存会占内存。
+- 缓存可能过期。
+- 分布变化会降低命中率。
+- 多租户场景要避免数据串线。
+- 预计算可能增加更新成本。
+
+AI 系统中最常见的答案是：缓存适合高复用、低变化、计算昂贵的数据；不适合敏感、频繁变化或难以失效的数据。
+
+---
+
+<h1 id="q-009">3. 常用数据结构如何分类？</h1>
+
+常用数据结构可以按组织方式分类：
+
+1. **线性结构**
+
+   数组、链表、栈、队列、双端队列、字符串。
+
+2. **映射结构**
+
+   哈希表、集合、LRU、LinkedHashMap。
+
+3. **树形结构**
+
+   二叉树、二叉搜索树、红黑树、堆、Trie、线段树、树状数组。
+
+4. **图结构**
+
+   邻接表、邻接矩阵、DAG、计算图、知识图谱。
+
+5. **高级检索结构**
+
+   跳表、位图、布隆过滤器、倒排索引、向量索引。
+
+6. **算法思想**
+
+   递归、分治、二分、回溯、动态规划、贪心、滑动窗口、双指针。
+
+<h2 id="q-010">面试问题：数组、链表、栈、队列、哈希表、树、图分别适合什么场景？</h2>
+
+| 结构 | 特点 | 高频场景 |
+| --- | --- | --- |
+| 数组 | 连续内存，随机访问快 | Tensor、batch、embedding table |
+| 链表 | 插入删除灵活，随机访问慢 | LRU 双向链表、内存块管理 |
+| 栈 | 后进先出 | 递归、DFS、表达式解析、单调栈 |
+| 队列 | 先进先出 | BFS、任务调度、DataLoader、消息系统 |
+| 哈希表 | 平均 $O(1)$ 查询 | vocab、特征缓存、metadata |
+| 树 | 层级和有序结构 | AST、Trie、堆、索引结构 |
+| 图 | 表示关系和依赖 | 计算图、知识图谱、workflow、GNN |
+
+AI 面试中常见追问：
+
+- 为什么 Tensor 更像数组而不是链表？
+- 为什么 tokenizer 词表适合哈希表？
+- 为什么计算图是 DAG？
+- 为什么 RAG 索引不是简单数组遍历？
+
+<h2 id="q-011">面试问题：哪些数据结构在大模型系统中最常见？</h2>
+
+大模型系统常见结构：
+
+- **Tensor / 多维数组**：模型参数、激活、embedding、attention score。
+- **KV Cache**：保存每层历史 token 的 key/value。
+- **Ring Buffer / Queue**：流式 token、请求队列、日志队列。
+- **HashMap**：token 到 id、request id 到状态、session id 到上下文。
+- **Trie / Radix Tree**：tokenizer、prefix cache、约束解码。
+- **Heap**：Top K、beam search、优先级调度。
+- **DAG**：计算图、workflow、Agent task graph。
+- **Vector Index**：RAG、推荐、图像检索。
+- **Bitmap / Bloom Filter**：快速去重、过滤已见文档或 token。
+
+面试中可以把它们串成一个 LLM 推理链路：
+
+```text
+Prompt -> Tokenizer Trie/Vocab HashMap -> Tensor -> KV Cache -> Heap TopK -> Stream Queue -> Session Store
+```
+
+<h2 id="q-012">面试问题：刷题中的数据结构如何迁移到真实 AI 项目？</h2>
+
+刷题训练的是抽象能力，真实项目需要把抽象能力落到工程场景。
+
+| 刷题知识 | AI 项目迁移 |
+| --- | --- |
+| 二分查找 | 阈值搜索、学习率区间、召回分数边界 |
+| 堆 | Top K token、候选召回、任务优先级 |
+| 哈希表 | 特征缓存、token vocab、请求状态 |
+| 图搜索 | 计算图、知识图谱、Agent workflow |
+| 动态规划 | 编辑距离、序列对齐、Viterbi、CTC |
+| Trie | tokenizer、敏感词过滤、约束解码 |
+| LRU | KV Cache、RAG cache、模型服务缓存 |
+| 单调队列 | 滑动窗口最大值、时序特征聚合 |
+
+高分回答不是“我会刷题”，而是能解释某个数据结构在实际系统中为什么能降低复杂度、降低延迟或提升可维护性。
+
+---
+
+## 高频速记
+
+1. 数据结构决定数据如何组织，算法决定数据如何处理。
+2. AI 系统中的 Tensor、KV Cache、计算图、向量索引都离不开数据结构。
+3. 复杂度分析直接影响模型训练、推理、检索和部署成本。
+4. 平均复杂度不等于生产可靠性，尾延迟和最坏情况也要关注。
+5. 数组随机访问快，链表插删灵活，哈希表平均查询快，树适合有序和层级，图适合关系和依赖。
+6. 空间换时间在 AI 中非常常见，例如 KV Cache、LRU、DP、向量索引。
+7. 刷题知识要迁移到真实场景，例如 Top K、RAG、tokenizer、DataLoader、workflow。
+
+## 参考资料
+
+- Wang Zheng, [**数据结构和算法必知必会的50个代码实现**](https://github.com/wangzheng0822/algo).
+- 《剑指 Offer》与 LeetCode 高频算法题。
+- PyTorch / TensorFlow 中 Tensor、DataLoader、计算图相关工程实践。