MNN 3.3 Release Note

一、大语言模型（LLM）能力增强

新增模型支持：
- 支持 Qwen2.5-Omni、Qwen3-VL、GPT-OSS、MiniCPM-4、Fast VLM 、GTE Reranker 等主流开源模型。
- 支持 Attention Sink、Sliding Window Attention
LLM 推理优化：
- 新增 EAGLE-3 投机解码 支持，Mac CPU 上 Llama3-8B decode 性能提升达 2.24x。
- 完善 Python 接口，支持多模态推理、逐步推理、context 信息获取等能力。
量化与精度：
- 集成 HQQ 量化算法，与AWQ算法精度接近，但量化时间远低于AWQ（Qwen 2.5 - 0.5B 各类量化方案 ppl 数据：原始： 17.83 ；awq: 17.08 ；hqq : 16.85）
- 支持 SmoothQuant 与 输入 per-tensor 量化。
- 支持 DiskEmbedding 4/8bit 量化，并优化缓存读取速度。

CPU 加速：
- 实现 SME（Scalable Matrix Extension）指令集 支持，在 Armv9 设备上大幅提升 LLM 与 CV 模型性能。
  - Qwen2.5-1.5B 在 SME2 上 Prefill 性能相比 Arm86 提升 2~3 倍。
  - ResNet50 FP16 单线程推理加速 3 倍。
CUDA 后端支持LLM：
- Cutlass 升级至 4.0.0（LLM 模式下），并改为编译时下载。
- 新增 CUDA Attention 算子，支持 LLM 模型运行。
- 支持 int4 / int8 权重低内存计算，以降低LLM显存占用。
GPU 后端修复：
- 修复 OpenCL 运行 Qwen Omni 出错问题，修正 OpenCL 在 MTK 部分芯片上计算 Attention 出错问题。
- 新增 OpenCL Kernel MD5 校验，避免缓存污染。
NPU 支持LLM：
- 支持 高通 QNN（NPU） 运行 LLM 与 Vision 模型。
- 新增 联发科（MTK）NPU 对 LLM 的支持。

NPU 参考性能数据：

小米14 - Qwen3-4B-int4

天玑9300-计算盒 - Qwen3-4B-int4

核心框架改进：
- 新增 set_order 接口，支持动态修改 VARP 布局。
- 修复多个 crash 问题，包括：
  - StridedSlice 在 zero shape + 缩轴到 scalar 时崩溃；
  - Module 加载输入不足时崩溃；
  - Arm82 后端 Resize Error（因 CPUResizeCache 管理问题）。
Python 兼容性：
- 修复 PyMNN 在 Python 3.13+ 编译失败 的问题。
模型转换优化：
- 修正 RemoveUnuseFul / RemoveCopy Pass 可能导致输入/输出丢失的问题。
- 支持 GRU / LSTM 量化：通过分解算子为控制流 + Convolution 实现。

MNN 3.3 版本持续聚焦 端侧大模型高效推理 与 多硬件平台统一部署，并积极回馈开源社区。