File tree Expand file tree Collapse file tree 3 files changed +5
-5
lines changed Expand file tree Collapse file tree 3 files changed +5
-5
lines changed Original file line number Diff line number Diff line change 1- # KV 缓存优势浅显易见 :从 vLLM 的前缀缓存到 llm-d 的分布式调度
1+ # KV 缓存的全面胜利 :从 vLLM 前缀缓存到 llm-d 分布式调度
22
33> 英文博客转载自 [ https://llm-d.ai/blog/ ] ( https://llm-d.ai/blog/kvcache-wins-you-can-see )
44
@@ -37,7 +37,7 @@ llm-d 项目提供了一系列“明确的路径”:经过测试和基准验
3737其[ 定价模型] ( https://www.anthropic.com/pricing#api ) 中,处理已在缓存中的 Token
3838的成本比未缓存 Token 低 ** 10 倍** (每百万 Token 分别为 $0.30 和 $3.00)。在
3939OpenAI 的 [ API 定价] ( http://openai.com/api/pricing/ ) 页面上也能看到同样的规律。
40- 高缓存命中率不仅让应用更快,更让其 ** 本质上更便宜** 。这就是 KV 缓存的力量。
40+ 高缓存命中率不仅让应用更快,让其 ** 本质上更便宜** 。这就是 KV 缓存的力量。
4141
4242在单实例环境下,像 vLLM 这样的引擎利用自动前缀缓存来消除冗余计算,
4343通过重用先前的计算结果来实现更快、更高效的性能。
Original file line number Diff line number Diff line change 77
88本频道将紧跟技术趋势,收集 AI 行业新闻。
99
10- * [ KV-Cache 可见的收益 :从 vLLM 的前缀缓存到 llm-d 的分布式调度] ( ./2025/kvcache-wins-you-can-see.md )
10+ * [ KV 缓存的全面胜利 :从 vLLM 的前缀缓存到 llm-d 的分布式调度] ( ./2025/kvcache-wins-you-can-see.md )
1111
1212 llm-d 如何实现更智能的、前缀感知的、负载和 SLO 感知的路由,从而带来更好的延迟和吞吐量?
1313
Original file line number Diff line number Diff line change 9090 - 费用中心 : videos/bills.md
9191 - AI 行业新闻 :
9292 - 索引 : blogs/index.md
93- - KV-Cache 优势浅显易见 : blogs/2025/kvcache-wins-you-can-see.md
93+ - KV 缓存的全面胜利 : blogs/2025/kvcache-wins-you-can-see.md
9494 - CUDA Core Dump调试内存访问 : blogs/2025/cuda.md
9595 - LMCache 上线即支持 GPT-OSS : blogs/2025/lmcache.md
9696 - FlowSpeech 书面语转口语 : blogs/2025/flowspeech.md
@@ -271,7 +271,7 @@ plugins:
271271 FlowSpeech 书面语转口语 : FlowSpeech Converts Text into Speech
272272 LMCache 上线即支持 GPT-OSS : LMCache supports gpt-oss
273273 CUDA Core Dump调试内存访问 : CUDA Core Dump, A Tool to Debug Memory Access
274- KV-Cache 优势浅显易见 : KV-Cache Wins You Can See
274+ KV 缓存的全面胜利 : KV-Cache Wins You Can See
275275 什么是 AI 应用 : What is AI App
276276 计费规则 : Billing Rules
277277 退费规则 : Refund Rules
You can’t perform that action at this time.
0 commit comments