Skip to content

dingzhiqiang/InfraTech

 
 

Repository files navigation

InfraTech

本仓库主要介绍AI Infra领域相关知识,内容涵盖:训练/推理框架🧩、性能加速🚀、深度学习🧠、基础硬件🔧等。

相关练习代码采用python语言,以notebook形式呈现,帮助读者快速了解或掌握相关内容。

内容介绍

🔍主要文件

📜 文件名 📖 知识分类 说明 难度
chunked_prefill_and_flash_decoding.ipynb 推理基础 ChunkedPrefill&FlashDecoding原理详解 ⚡️⚡️
attention_mla_flops_with_prefix_cache.ipynb 推理基础 prefix cache为何零开销 ⚡️⚡️
ulysses_mha_demo.ipynb 并行推理 推理Ulysses并行优化 ⚡️
LLM_sampling.ipynb 推理基础 LLM推理采样(Sampling) ⚡️
speculative_decoding.ipynb 推理基础 投机推理的原理与常见方案 ⚡️
zmq_practice.ipynb 推理基础 - ⚡️
nondeterministic_reduction.ipynb 推理基础 推理的非确定性运算 ⚡️
kv_cache_transfer_vs_recomputation.ipynb 推理基础 KV cache用池化的数据会比重算更快吗? ⚡️⚡️
linear_attention_kv_cache_size.ipynb 推理基础 LinearAttention在KV cache的存储上有多大优势? ⚡️
vllm_basic_scheduler.ipynb vLLM 手搓一个基础调度器 ⚡️⚡️
sglang_radix_attention.ipynb SGLang 手撕RadixAttention ⚡️⚡️
vllm_mem_snapshot.ipynb vLLM vLLM显存可视化与管理详解 ⚡️️
LoRA_to_Multi_LoRA.ipynb 训推基础 从LoRA到Multi-LoRA ⚡️⚡️
mini_dl_framework.ipynb 训练框架 从零实现MLP训练全流程 ⚡️⚡️
pytorch_vista_deepseekV3.ipynb PyTorch PyTorch结构可视化 ⚡️
MLA_diff_mode_mfu_calculation.ipynb Attention 超细图解MLA计算流&吸收矩阵对比分析 ⚡️⚡️⚡️

🤖 推理基础知识与框架

📚 文章 📖 知识分类 📜 备注
入门知识:大模型推理核心概念与术语总结 推理基础 🔥🔥🔥
入门知识:LLM推理并行优化的必备知识 推理基础 🔥🔥🔥
入门知识:从LoRA到Multi-LoRA:原理&代码实践 推理基础 练习
入门知识:ChunkedPrefill&FlashDecoding原理详解 推理基础 练习
入门知识:LLM推理采样(Sampling)常见知识概览 推理基础 🔥
入门知识:Speculative Decoding投机推理的原理与常见方案 推理基础 🔥
入门知识:推理的非确定性运算 推理基础 🔥
vLLM(一):vLLM框架快速入门引导 vLLM 🔥🔥🔥🚀
vLLM(二):vLLM Scheduler逻辑难啃?先手搓一个基础调度器 vLLM 练习
SGLang(一):看不懂SGLang?先试试miniSGLang! SGLang 🔥🔥
SGLang(二):手撕SGLang KV Cache核心逻辑:快速理解RadixAttention SGLang 练习
vLLM(三):vLLM显存管理详解 vLLM 🔥代码
vLLM(四):核心模块:vLLM V1 KV cache 管理机制剖析 vLLM 🔥🔥
vLLM(五):vLLM V1 Scheduler的调度逻辑&优先级分析 vLLM 🔥
vLLM(六):vLLM框架V1演进分析 vLLM 🔥🔥🔥
vLLM(七):vLLM的prefix cache为何零开销 vLLM 🔥🔥🔥
vLLM(八):vLLM DP特性与演进方案分析 vLLM 🔥
vLLM(九):LLM推理数据并行负载均衡(DPLB)浅析 vLLM 🔥🔥🔥
PD分离(一):vLLM PD分离方案浅析 特性 🔥🔥🔥 🚀
PD分离(二):vLLM PD分离KV cache传递机制详解与演进分析 特性 🔥🔥🔥
AF分离:Attention与FFN分离(AFD)方案解析 特性 🔥🔥
关键特性EPLB:MoE并行负载均衡,EPLB的深度解析与可视化 特性 🔥🔥
关键特性FlashMLA:深度解析FlashMLA,一文读懂大模型加速新利器 特性 🔥🔥
推理框架适配Kimi/QwenNext线性注意力:方案&公式&代码 扩展知识 🔥
LinearAttention在KV cache的存储上有多大优势? 扩展知识 🔥🔥
如何评价Nvidia发布的大模型推理PD分离架构Dynamo? 扩展知识 🔥🔥
KV cache用池化的数据会比重算更快吗? 扩展知识 🔥 练习

🚀 推理提速经验分享

📚 文章 📖 知识分类
推理性能优化:GPU/NPU Profiling阅读引导 基础知识
推理性能优化:分布式推理优化思路 基础知识
1.5x提升:PD分离KV cache传输的实践经验 vLLM
1.3x提升:LLM推理优化:MLA算力均衡实践 vLLM
3.0x提升:推理Ulysses并行优化与DeepSeekV3/V3.2实践 vLLM
1.3x提升:vLLM推理的Swap特性实践 vLLM

🛠️辅助工具

📚 文章 📖 知识分类 🌐 链接
LLM大模型显存计算公式与优化 LLM 🔥🔥🔥
LLM预训练模型MFU计算器 LLM link
DeepSeekV3 MFU计算工具与算式 LLM link
PyTorch显存可视化与Snapshot数据分析 PyTorch link
PyTorch结构可视化:交互式DeepSeekV3计算图 PyTorch link

训练框架与基础知识

📚 文章 📖 知识分类 📜 备注
入门知识:如何快速理解PyTorch自动梯度(Autograd)的原理? 训练框架 练习
不用 PyTorch从零实现MLP训练全流程 训练框架 练习
PyTorch显存管理介绍与源码解析(一) 训练框架 link
PyTorch显存管理介绍与源码解析(二) 训练框架 link
PyTorch显存管理介绍与源码解析(三) 训练框架 🔥
PyTorch分布式训练基础--DDP使用 训练框架 🔥🔥🔥
Context Parallelism的原理与代码浅析 并行训练 🔥🔥🔥
图解Infra视角下的强化学习性能问题(浅析) RL训练 🔥
FP8计算在模型训练中的应用 量化训练 🔥

深度学习&大模型知识

📚 文章 📖 知识分类 📜 备注
超细图解MLA计算流&吸收矩阵对比分析 Attention 高清图
超细图解DSA计算流&性能对比与优化分析 Attention 高清图
用注意力知识分析DSA(DeepSeek Sparse Attention)的设计逻辑 Attention 🔥🔥
线性注意力(LinearAttention)的原理与细节(AlphaDeltaGate)解析 Linear 🔥
入门基础:手写最基础的训练过程 深度学习 🔥
入门基础:梯度近似运算与雅可比(Jacobian)矩阵 深度学习 -
入门基础:Transformer基础模型代码实现--极简版(One-Page) Transformer link
Query和Key在注意力机制中长得几乎一模一样,为什么还要分开? Transformer 🔥
为什么transformer的FFN需要先升维再降维? Transformer 🔥🔥
为什么线性注意力中K头数小于V头数? Linear 🔥
AI模型优化的必修课:参数搜索/自动调优 深度学习 🔥

GPU基础知识

https://github.com/CalvinXKY/BasicCUDA

🎉🎉🎉:20+知识分享,涵盖CUDA、NCCL、PyTorch、GPU硬件知识

作者kaiyuan知乎主页🥳 https://www.zhihu.com/people/xky7

zhilink:

公众号二维码

学习更多AI Infra知识,荐关注公众号: InfraTech

公众号二维码

About

分享AI Infra知识&代码练习:PyTorch/vLLM/SGLang框架入门⚡️、性能加速🚀、大模型基础🧠、AI软硬件🔧等

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Jupyter Notebook 100.0%