尝试部署Deepseek-R1 671B-Q4时出现NameError: name 'BatchMLAPagedAttentionWrapper' is not defined #1058

vibe-Chen · 2025-04-06T09:25:29Z

vibe-Chen
Apr 6, 2025

这条姑且不算是bug反馈而是算求助...因为部署流程和默认流程差别应该挺大的

参考文献：

https://docs.qq.com/doc/DSkNobWtEZ2tRRk10 （安装过程中主要使用的教程，两句conda install -c没有成功，别的都做了）
#1017 (comment) （[Bug] No module named 'sched_ext'，按照这层的教程手动修正了）
#1023 (comment) （[Bug] KeyError: 'async_server'，按照这层的教程清理了~\.ktransformers文件夹）

平台：

硬件部分：
参考 https://www.bilibili.com/video/BV1Q29JYDELP 的配置单：
CPU:E5 2686
内存条：拆机64G 2400内存*8
GPU:NVIDIA RTX3080 20G版

软件部分：
参考 https://docs.qq.com/doc/DSkNobWtEZ2tRRk10 ；
系统为（新安装的）Windows10 专业版 19045.5608，另外CUDA选用了12.6版本

模型部分：
配置文件选用Deepseek附带的7个配置文件；
模型本身选用Deepseek-R1 671B-Q4的9个gguf文件

问题描述：

尝试加载模型时，报错（见标题）。很奇怪的一点是，明明配置和模型都是R1（或者说V3）的，调用的代码却是V2的...

Answered by vibe-Chen

Apr 7, 2025

总结：

老老实实装flashinfer
如果local_chat.py不行，试试直接用server\main.py ~~，没准有奇效~~

View full answer

waterinsect · 2025-04-06T14:56:48Z

waterinsect
Apr 6, 2025

遇到相同的问题了 :(

1 reply

waterinsect Apr 6, 2025

我是自己编译的flash_attn，cu128，不知道是不是这个原因

vibe-Chen · 2025-04-07T11:51:18Z

vibe-Chen
Apr 7, 2025
Author

装了flashinfer，这个坎跨过去了，模型顺利进了内存
然后就是又一个坎：
只要问问题就报错

pip安装从0.2.5一直降到0.2.3，试过了；直接clone然后build，也试过了；但全都是一个问题，应该可以排除是flashinfer的版本问题
~~那么问题出在哪里呢~~问题出在local_chat.py上，这是我没想到的
已提交issue

1 reply

vibe-Chen Apr 7, 2025
Author

总结：

老老实实装flashinfer
如果local_chat.py不行，试试直接用server\main.py ~~，没准有奇效~~

Answer selected by vibe-Chen

waterinsect · 2025-04-07T15:35:15Z

waterinsect
Apr 7, 2025

我手动编译安装了这个库的whl，已经成功了

…

---- 回复的原邮件 ---- | 发件人 | ***@***.***> | | 发送日期 | 2025年04月07日 22:38 | | 收件人 | kvcache-ai/ktransformers ***@***.***> | | 抄送人 | waterinsect ***@***.***>, Comment ***@***.***> | | 主题 | Re: [kvcache-ai/ktransformers] 尝试部署Deepseek-R1 671B-Q4时出现NameError: name 'BatchMLAPagedAttentionWrapper' is not defined (Discussion #1058) | 总结：老老实实装flashinfer 如果local_chat.py不行，试试直接用server\main.py~~，没准有奇效~~ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

0 replies

joker-charles · 2025-04-16T02:47:46Z

joker-charles
Apr 16, 2025

ktransformers自己修改了一个定制版本的flashinfer，别装官方那个，装git submodule 下的那个customflashinfer

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

尝试部署Deepseek-R1 671B-Q4时出现NameError: name 'BatchMLAPagedAttentionWrapper' is not defined #1058

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 4 comments 2 replies

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

Select a reply

尝试部署Deepseek-R1 671B-Q4时出现NameError: name 'BatchMLAPagedAttentionWrapper' is not defined #1058

vibe-Chen Apr 6, 2025

参考文献：

平台：

问题描述：

Replies: 4 comments · 2 replies

waterinsect Apr 6, 2025

waterinsect Apr 6, 2025

vibe-Chen Apr 7, 2025 Author

vibe-Chen Apr 7, 2025 Author

waterinsect Apr 7, 2025

joker-charles Apr 16, 2025

vibe-Chen
Apr 6, 2025

Replies: 4 comments 2 replies

waterinsect
Apr 6, 2025

vibe-Chen
Apr 7, 2025
Author

vibe-Chen Apr 7, 2025
Author

waterinsect
Apr 7, 2025

joker-charles
Apr 16, 2025