PaddleX 3.0 正式版
PaddleX3.0 汇聚了飞桨多年的精选模型,涵盖多个不同的AI方向,并且在此基础上,统一了模型的接口,降低了模型开发的难度。PaddleX3.0提供了多模型组合使用的方式、提供了较多产业级方便易用的pipeline,并提供了多种模型部署的工具。基于PaddleX3.0,可以快速完成AI应用的开发和落地。PaddleX3.0 一共经历过6个版本,本次发布为PaddleX3.0正式版。相比2.x版本,3.0版本的主要能力如下:
丰富的模型库:
- 模型丰富: PaddleX3.0 包含270+模型,涵盖了图像(视频)分类/检测/分割、OCR、语音识别、时序等多种场景。
- 方案成熟: PaddleX3.0 基于丰富的模型库,提供了通用文档解析、关键信息抽取、文档理解、表格识别、通用图像识别等多种重要且成熟的AI解决方案。
统一推理接口,重构部署能力:
- 推理接口标准化,降低不同种类模型带来的API接口差异,减少用户学习成本,提升企业落地效率。
- 提供多模型组合能力,复杂任务可以通过不同的模型方便地进行组合使用,实现1+1>2 的能力。
- 部署能力升级,多种模型部署可以使用统一的命令管理,支持多卡推理,支持多卡多实例服务化部署。
全面适配飞桨框架3.0:
- 全面适配飞桨框架3.0新特性: 支持编译器训练,训练命令通过追加
-o Global.dy2st=True即可开启编译器训练,在 GPU 上,多数模型训练速度可提升 10% 以上,少部分模型训练速度可以提升 30% 以上。推理方面,模型整体适配飞桨 3.0 中间表示技术(PIR),拥有更加灵活的扩展能力和兼容性,静态图模型存储文件名由xxx.pdmodel改为xxx.json。 - 全面支持 ONNX 格式模型: 支持通过Paddle2ONNX插件转换模型格式。
重磅能力支撑:
- 支撑PP-OCRv5的串联逻辑和多硬件推理、多后端推理、服务化部署能力。
- 支撑PP-StructureV3的复杂模型串联和并联的逻辑,首次串联并联共15个模型,实现多模型协同的复杂pipeline。精度在 OmniDocBench 榜单上达到 SOTA 水平。
- 支撑PP-ChatOCRv4的大模型串联逻辑,结合文心大模型4.5Turbo,结合新增的PP-DocBee2,关键信息抽取精度相比上一代提升15.7个百分点。
多硬件支持:
- 整体支持英伟达、英特尔、苹果M系列、昆仑芯、昇腾、寒武纪、海光、燧原等芯片的训练和推理。
- 在昇腾上,全面适配的模型达到200个, 支持OM高性能推理的模型达到21个。此外支持PP-OCRv5、PP-StructureV3等重要模型方案。
- 在昆仑芯上支持重要分类、检测、OCR类模型(含PP-OCRv5)。