Skip to content

3.3.0 NPU 支持 / SME2 指令加速 / EAGLE 投机解码加速

Latest

Choose a tag to compare

@jxt1234 jxt1234 released this 31 Oct 05:54
5047919

MNN 3.3 Release Note

一、大语言模型(LLM)能力增强

  • 新增模型支持

    • 支持 Qwen2.5-OmniQwen3-VLGPT-OSSMiniCPM-4Fast VLM 、GTE Reranker 等主流开源模型。

    • 支持 Attention SinkSliding Window Attention

  • LLM 推理优化

    • 新增 EAGLE-3 投机解码 支持,Mac CPU 上 Llama3-8B decode 性能提升达 2.24x

    • 完善 Python 接口,支持多模态推理、逐步推理、context 信息获取等能力。

  • 量化与精度

    • 集成 HQQ 量化算法,与AWQ算法精度接近,但量化时间远低于AWQ(Qwen 2.5 - 0.5B 各类量化方案 ppl 数据: 原始: 17.83 ;awq: 17.08 ;hqq : 16.85

    • 支持 SmoothQuant 与 输入 per-tensor 量化

    • 支持 DiskEmbedding 4/8bit 量化,并优化缓存读取速度。

二、硬件加速与 NPU 支持

  • CPU 加速

    • 实现 SME(Scalable Matrix Extension)指令集 支持,在 Armv9 设备上大幅提升 LLM 与 CV 模型性能。

      • Qwen2.5-1.5B 在 SME2 上 Prefill 性能相比 Arm86 提升 2~3 倍

      • ResNet50 FP16 单线程推理加速 3 倍

  • CUDA 后端支持LLM

    • Cutlass 升级至 4.0.0(LLM 模式下),并改为编译时下载。

    • 新增 CUDA Attention 算子,支持 LLM 模型运行。

    • 支持 int4 / int8 权重低内存计算,以降低LLM显存占用。

  • GPU 后端修复

    • 修复 OpenCL 运行 Qwen Omni 出错问题,修正 OpenCL 在 MTK 部分芯片上计算 Attention 出错问题。

    • 新增 OpenCL Kernel MD5 校验,避免缓存污染。

  • NPU 支持LLM

    • 支持 高通 QNN(NPU) 运行 LLM 与 Vision 模型。

    • 新增 联发科(MTK)NPU 对 LLM 的支持。

NPU 参考性能数据:

小米14 - Qwen3-4B-int4

image

天玑9300-计算盒 - Qwen3-4B-int4
image

三、框架功能与稳定性提升

  • 核心框架改进

    • 新增 set_order 接口,支持动态修改 VARP 布局。

    • 修复多个 crash 问题,包括:

      • StridedSlice 在 zero shape + 缩轴到 scalar 时崩溃;

      • Module 加载输入不足时崩溃;

      • Arm82 后端 Resize Error(因 CPUResizeCache 管理问题)。

  • Python 兼容性

    • 修复 PyMNN 在 Python 3.13+ 编译失败 的问题。
  • 模型转换优化

    • 修正 RemoveUnuseFul / RemoveCopy Pass 可能导致输入/输出丢失的问题。

    • 支持 GRU / LSTM 量化:通过分解算子为控制流 + Convolution 实现。

四、开源社区与兼容性

  • 修复多个社区反馈问题(Issue #3623#3632#3690#3701#3774#3780#3850 等)。

  • 提升跨平台兼容性,包括 Windows ARM、macOS、Android、iOS、鸿蒙等。


MNN 3.3 版本持续聚焦 端侧大模型高效推理 与 多硬件平台统一部署,并积极回馈开源社区。