MNN 3.3 Release Note
一、大语言模型(LLM)能力增强
- 
新增模型支持:
- 
支持 Qwen2.5-Omni、Qwen3-VL、GPT-OSS、MiniCPM-4、Fast VLM 、GTE Reranker 等主流开源模型。
 - 
支持 Attention Sink、Sliding Window Attention
 
 - 
 - 
LLM 推理优化:
- 
新增 EAGLE-3 投机解码 支持,Mac CPU 上 Llama3-8B decode 性能提升达 2.24x。
 - 
完善 Python 接口,支持多模态推理、逐步推理、context 信息获取等能力。
 
 - 
 - 
量化与精度:
- 
集成 HQQ 量化算法,与AWQ算法精度接近,但量化时间远低于AWQ(Qwen 2.5 - 0.5B 各类量化方案 ppl 数据: 原始: 17.83 ;awq: 17.08 ;hqq : 16.85)
 - 
支持 SmoothQuant 与 输入 per-tensor 量化。
 - 
支持 DiskEmbedding 4/8bit 量化,并优化缓存读取速度。
 
 - 
 
二、硬件加速与 NPU 支持
- 
CPU 加速:
- 
实现 SME(Scalable Matrix Extension)指令集 支持,在 Armv9 设备上大幅提升 LLM 与 CV 模型性能。
- 
Qwen2.5-1.5B 在 SME2 上 Prefill 性能相比 Arm86 提升 2~3 倍。
 - 
ResNet50 FP16 单线程推理加速 3 倍。
 
 - 
 
 - 
 - 
CUDA 后端支持LLM:
- 
Cutlass 升级至 4.0.0(LLM 模式下),并改为编译时下载。
 - 
新增 CUDA Attention 算子,支持 LLM 模型运行。
 - 
支持 int4 / int8 权重低内存计算,以降低LLM显存占用。
 
 - 
 - 
GPU 后端修复:
- 
修复 OpenCL 运行 Qwen Omni 出错问题,修正 OpenCL 在 MTK 部分芯片上计算 Attention 出错问题。
 - 
新增 OpenCL Kernel MD5 校验,避免缓存污染。
 
 - 
 - 
NPU 支持LLM:
- 
支持 高通 QNN(NPU) 运行 LLM 与 Vision 模型。
 - 
新增 联发科(MTK)NPU 对 LLM 的支持。
 
 - 
 
NPU 参考性能数据:
小米14 - Qwen3-4B-int4
三、框架功能与稳定性提升
- 
核心框架改进:
- 
新增
set_order接口,支持动态修改 VARP 布局。 - 
修复多个 crash 问题,包括:
- 
StridedSlice 在 zero shape + 缩轴到 scalar 时崩溃;
 - 
Module 加载输入不足时崩溃;
 - 
Arm82 后端 Resize Error(因 CPUResizeCache 管理问题)。
 
 - 
 
 - 
 - 
Python 兼容性:
- 修复 PyMNN 在 Python 3.13+ 编译失败 的问题。
 
 - 
模型转换优化:
- 
修正 RemoveUnuseFul / RemoveCopy Pass 可能导致输入/输出丢失的问题。
 - 
支持 GRU / LSTM 量化:通过分解算子为控制流 + Convolution 实现。
 
 - 
 
四、开源社区与兼容性
- 
修复多个社区反馈问题(Issue #3623、#3632、#3690、#3701、#3774、#3780、#3850 等)。
 - 
提升跨平台兼容性,包括 Windows ARM、macOS、Android、iOS、鸿蒙等。
 
MNN 3.3 版本持续聚焦 端侧大模型高效推理 与 多硬件平台统一部署,并积极回馈开源社区。
