本仓库主要介绍AI Infra领域相关知识,内容涵盖:训练/推理框架🧩、性能加速🚀、深度学习🧠、基础硬件🔧等。
相关练习代码采用python语言,以notebook形式呈现,帮助读者快速了解或掌握相关内容。
🔍主要文件
- ./llm_infer :推理练习
- ./models:主流模型介绍
- ./docs:AI infra共享资料
| 📚 文章 | 📖 知识分类 |
|---|---|
| 推理性能优化:GPU/NPU Profiling阅读引导 | 基础知识 |
| 推理性能优化:分布式推理优化思路 | 基础知识 |
| 1.5x提升:PD分离KV cache传输的实践经验 | vLLM |
| 1.3x提升:LLM推理优化:MLA算力均衡实践 | vLLM |
| 3.0x提升:推理Ulysses并行优化与DeepSeekV3/V3.2实践 | vLLM |
| 1.3x提升:vLLM推理的Swap特性实践 | vLLM |
| 📚 文章 | 📖 知识分类 | 🌐 链接 |
|---|---|---|
| LLM大模型显存计算公式与优化 | LLM | 🔥🔥🔥 |
| LLM预训练模型MFU计算器 | LLM | link |
| DeepSeekV3 MFU计算工具与算式 | LLM | link |
| PyTorch显存可视化与Snapshot数据分析 | PyTorch | link |
| PyTorch结构可视化:交互式DeepSeekV3计算图 | PyTorch | link |
| 📚 文章 | 📖 知识分类 | 📜 备注 |
|---|---|---|
| 入门知识:如何快速理解PyTorch自动梯度(Autograd)的原理? | 训练框架 | 练习 |
| 不用 PyTorch从零实现MLP训练全流程 | 训练框架 | 练习 |
| PyTorch显存管理介绍与源码解析(一) | 训练框架 | link |
| PyTorch显存管理介绍与源码解析(二) | 训练框架 | link |
| PyTorch显存管理介绍与源码解析(三) | 训练框架 | 🔥 |
| PyTorch分布式训练基础--DDP使用 | 训练框架 | 🔥🔥🔥 |
| Context Parallelism的原理与代码浅析 | 并行训练 | 🔥🔥🔥 |
| 图解Infra视角下的强化学习性能问题(浅析) | RL训练 | 🔥 |
| FP8计算在模型训练中的应用 | 量化训练 | 🔥 |
| 📚 文章 | 📖 知识分类 | 📜 备注 |
|---|---|---|
| 超细图解MLA计算流&吸收矩阵对比分析 | Attention | 高清图 |
| 超细图解DSA计算流&性能对比与优化分析 | Attention | 高清图 |
| 用注意力知识分析DSA(DeepSeek Sparse Attention)的设计逻辑 | Attention | 🔥🔥 |
| 线性注意力(LinearAttention)的原理与细节(AlphaDeltaGate)解析 | Linear | 🔥 |
| 入门基础:分布式训练/推理基础:集合通信原理与实践 | 分布式基础 | 练习 |
| 入门基础:手写最基础的训练过程 | 深度学习 | 🔥 |
| 入门基础:梯度近似运算与雅可比(Jacobian)矩阵 | 深度学习 | - |
| 入门基础:Transformer基础模型代码实现--极简版(One-Page) | Transformer | link |
| Query和Key在注意力机制中长得几乎一模一样,为什么还要分开? | Transformer | 🔥 |
| 为什么transformer的FFN需要先升维再降维? | Transformer | 🔥🔥 |
| 为什么线性注意力中K头数小于V头数? | Linear | 🔥 |
| AI模型优化的必修课:参数搜索/自动调优 | 深度学习 | 🔥 |
https://github.com/CalvinXKY/BasicCUDA

