Replies: 4 comments 1 reply
-
若运行671B:UD-Q2_K_XL q2.51,预估生成速度接近20tokens/s |
Beta Was this translation helpful? Give feedback.
-
改成单路呢?拔掉一个cpu,把内存全插到保留的cpu上。双路官方是建议1t的,你这会不会应该是用磁盘了。 |
Beta Was this translation helpful? Give feedback.
-
9654 是Zen 4架构,有12个CCD(8Core/CCD),而Zen 4 的CCD通过 Infinity Fabric 访问 I/O Die 的内存控制器。12个CCD 配置的核心数更多,跨 CCD 的数据访问会增加延迟或竞争带宽,尤其在高负载下。Zen 4架构的EPYC,内存性能分界点是4CCD,大于4CCD的,性能都会受影响。对应的Zen 5的分界点是8CCD。另外双路9654还会因为NUMA之间的通讯瓶颈导致性能进一步降低。你可以只用一路9654,然后插满12通道内存,效果应该是会好很多的。 |
Beta Was this translation helpful? Give feedback.
-
9654性能有点儿不及预期,性能似乎太弱了,我还以为Q4可以轻松跑到20+呢 |
Beta Was this translation helpful? Give feedback.
-
首先感谢KT框架的开发者和贡献者。昨天尝试在Windows上编译KT并加载Q4_K_M量化的DeepSeek-R1,交份成绩单。
先前错误地将讨论发在了issue中,根据项目贡献者的建议,已将其移到discussion。
硬件环境:
软件环境:
模型:
python -m ktransformers.local_chat --model_path E:/LLM-Models/DeepSeek-AI/DeepSeek-R1-671b --gguf_path E:/LLM-Models/DeepSeek-AI/DeepSeek-R1-671b/DeepSeek-R1-671b-Q4_K_M/ --optimize_config_path E:/ktransformers/ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-multi-gpu.yaml --max_new_tokens 8192 --cpu_infer 190
AIDA64 V7.35.7000内存与缓存测试成绩:
Ollama基线性能:
num_gpu
为4
,卸载了4个层到GPU上。KT性能:
--cpu_infer
改为80
,相同提示词:--optimize_config_path
单卡运行(调用时不设置该参数)时的性能,相同提示词,单卡运行时系统内存占用394 GB,GPU0显存占用10.8 GB,CPU负载73%,GPU0负载100%:调为NPS1的性能:
--cpu_infer
设为190
,使用默认--optimize_config_path
单卡运行,相同提示词:--cpu_infer
设为180
,使用默认--optimize_config_path
单卡运行,相同提示词,观察到NUMA节点0占用约50%,NUMA节点1占用约10%:讨论:
Beta Was this translation helpful? Give feedback.
All reactions