Skip to content

Conversation

@jxt1234
Copy link
Collaborator

@jxt1234 jxt1234 commented Oct 31, 2025

一、大语言模型(LLM)能力增强
● 新增模型支持:

○ 支持 Qwen2.5-Omni、Qwen3-VL、GPT-OSS、MiniCPM-4、Fast VLM 、GTE Reranker 等主流开源模型。
○ 支持 MoE 架构模型导出与推理,Decode 性能接近同等激活参数量的 Dense 模型(比如: 30B-A3B 与 3B Dense 模型 Decode 性能接近)。
○ 支持 Attention Sink、Sliding Window Attention

● LLM 推理优化:

○ 新增 EAGLE-3 投机解码 支持,Mac CPU 上 Llama3-8B decode 性能提升达 2.24x。
○ 完善 Python 接口,支持多模态推理、逐步推理、context 信息获取等能力。

● 量化与精度:

○ 集成 HQQ 量化算法,与AWQ算法精度接近,但量化时间远低于AWQ(Qwen 2.5 - 0.5B 各类量化方案 ppl 数据: 原始: 17.83 ;awq: 17.08 ;hqq : 16.85)
○ 支持 SmoothQuant 与 输入 per-tensor 量化。
○ 支持 DiskEmbedding 4/8bit 量化,并优化缓存读取速度。

二、硬件加速与 NPU 支持
● CPU 加速:

○ 实现 SME(Scalable Matrix Extension)指令集 支持,在 Armv9 设备上大幅提升 LLM 与 CV 模型性能。

    ■ Qwen2.5-1.5B 在 SME2 上 Prefill 性能相比 Arm86 提升 2~3 倍。
    ■ ResNet50 FP16 单线程推理加速 3 倍。

● CUDA 后端支持LLM:

○ Cutlass 升级至 4.0.0(LLM 模式下),并改为编译时下载。
○ 新增 CUDA Attention 算子,支持 LLM 模型运行。
○ 支持 int4 / int8 权重低内存计算,以降低LLM显存占用。

● GPU 后端修复:

○ 修复 OpenCL 运行 Qwen Omni 出错问题,修正 OpenCL 在 MTK 部分芯片上计算 Attention 出错问题。
○ 新增 OpenCL Kernel MD5 校验,避免缓存污染。

● NPU 支持LLM:

○ 支持 高通 QNN(NPU) 运行 LLM 与 Vision 模型。
○ 新增 联发科(MTK)NPU 对 LLM 的支持。

三、框架功能与稳定性提升
● 核心框架改进:

○ 新增 set_order 接口,支持动态修改 VARP 布局。
○ 修复多个 crash 问题,包括:

    ■ StridedSlice 在 zero shape + 缩轴到 scalar 时崩溃;
    ■ Module 加载输入不足时崩溃;
    ■ Arm82 后端 Resize Error(因 CPUResizeCache 管理问题)。

● Python 兼容性:

○ 修复 PyMNN 在 Python 3.13+ 编译失败 的问题。

● 模型转换优化:

○ 修正 RemoveUnuseFul / RemoveCopy Pass 可能导致输入/输出丢失的问题。
○ 支持 GRU / LSTM 量化:通过分解算子为控制流 + Convolution 实现。

四、开源社区与兼容性
● 修复多个社区反馈问题(Issue #3623#3632#3690#3701#3774#3780#3850 等)。
● 提升跨平台兼容性,包括 Windows ARM、macOS、Android、iOS、鸿蒙等。

MNN 3.3 版本持续聚焦 端侧大模型高效推理 与 多硬件平台统一部署,并积极回馈开源社区。

@CLAassistant
Copy link

CLA assistant check
Thank you for your submission! We really appreciate it. Like many open source projects, we ask that you sign our Contributor License Agreement before we can accept your contribution.


xiaying seems not to be a GitHub user. You need a GitHub account to be able to sign the CLA. If you have already a GitHub account, please add the email address used for this commit to your account.
You have signed the CLA already but the status is still pending? Let us recheck it.

@jxt1234 jxt1234 merged commit 5047919 into master Oct 31, 2025
17 of 18 checks passed
@jxt1234 jxt1234 deleted the feature/sync branch October 31, 2025 04:57
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants