Releases: PaddlePaddle/PaddleX
v3.1.0
v3.1.0版本,新增PP-OCRv5种多语种文字识别模型和文档翻译产线,优化PP-StructureV3中的PP-Chart2Table模型:
- 重要模型:
- 新增PP-OCRv5多语种文本识别模型,支持法语、西班牙语、葡萄牙语、俄语、韩语等37种语言的文字识别模型的训推流程。平均精度涨幅超30%。
- 升级PP-StructureV3中的PP-Chart2Table模型,图表转表能力进一步升级,在内部自建测评集合上指标(RMS-F1)提升9.36个百分点(71.24% -> 80.60%)
- 重要产线:
- 新增基于PP-StructureV3和ERNIE 4.5 Turbo的文档翻译产线PP-DocTranslation,支持翻译Markdown文档、各种复杂版式的PDF文档和文档图像,结果保存为Markdown格式文档。
v3.0.3
v3.0.3版本,新增服务化部署多语言调用示例,修复部分问题:
-
功能新增:
- PP-OCRv5、PP-StructureV3、PP-ChatOCRv4等10条pipeline新增C++、Java、Go、C#、Node.js、PHP等6种语言的服务调用示例。
-
Bug修复:
- 修复下载文件时向stdout写入内容扰乱CLI正常输出的问题。
- 在服务化部署中,对非线程安全的PDF读取API加锁,避免竞态条件。
- 修复了在部分情况下推理设置
run_mode不生效的问题。 - 修复PP-StructureV3产线页面无文档元素时,
page_continuation_flags默认值为None,引发的服务化部署失败问题。
v3.0.2
v3.0.2版本,新增部分功能,修复和优化部分问题,更新点如下:
功能新增和优化:
- OCR类模型默认下载源从
BOS改为HuggingFace,同时也支持用户通过更改环境变量PADDLE_PDX_MODEL_SOURCE为BOS,将模型下载源设置为百度云对象存储BOS。 - 新增PP-OCRv5的Android端示例,详情。
- 优化PP-StructureV3产线中版面分区排序算法,对复杂竖版版面排序逻辑进行完善,进一步提升了复杂版面排序效果。
- 为MKL-DNN缓存大小设置默认上界,防止缓存无限增长。同时,支持用户配置缓存容量。@timminator
- 更新高性能推理默认配置,支持Paddle MKL-DNN加速。优化高性能推理自动配置逻辑,支持更智能的配置选择。
- 调整默认设备获取逻辑,考虑环境中安装的Paddle框架对计算设备的实际支持情况,使程序行为更符合直觉。
- 模型与环境支持时,CPU下默认启用MKLDNN推理后端。
- 优化语义分割模块数据校验部分,并在数据格式错误时抛出详细引导信息。
Bug修复:
- 修复基础服务化部署在使用MKL-DNN时可能出现的多线程错误。
- 修复Latex-OCR模型的图像预处理的通道顺序错误。
- 修复文本识别模块保存可视化图像的通道顺序错误。
- 修复PP-StructureV3中表格可视化结果通道顺序错误。
- 修复PP-StructureV3产线中极特殊的情况下,计算overlap_ratio时,变量溢出问题。
其他:
- 放松numpy、pandas、等依赖的版本限制,恢复对Python 3.12的支持。
- 限制pycocotools版本号,避免其更新带来的不兼容问题。
v3.0.1
v3.0.1版本,修复和优化3.0.0版本的部分问题,升级修复点如下:
优化部分模型和模型配置:
- PP-OCRv5默认模型配置,检测和识别均改为server模型。为了改善大多数的场景默认效果,配置中的参数
limit_side_len由736改为64 - 新增
PP-LCNet_x1_0_textline_ori模型,精度99.42%,OCR、PP-StructureV3、PP-ChatOCRv4产线的默认文本行方向分类器改为该模型 - 优化
PP-LCNet_x0_25_textline_ori模型,精度提升3.3个百分点,当前精度98.85%
优化和修复部分问题:
- 修复由于公式识别、表格识别模型无法使用mkldnn导致PP-StructureV3在部分cpu推理报错的问题
- 修复在部分GPU环境中推理报
FatalError: Process abort signal is detected by the operating system错误的问题 - 修复部分Python3.8环境的type hint的问题
- 修复默认设备获取逻辑,使程序实际行为与文档中的说明一致。在
GPUtil不可用时默认使用CPU,同时支持通过CUDA_VISIBLE_DEVICES环境变量控制使用的默认GPU设备 - 修复重新安装paddlex whl时,由于历史字体文件未删除引发的安装错误
- 去除表格识别和表格识别v2产线服务接口中的无效参数
- 优化使用CPU版本Paddle并试图安装GPU版本高性能推理插件时的错误提示
- 更新依赖的Paddle2ONNX版本为2.0.2rc3
PaddleX 3.0 正式版
PaddleX3.0 汇聚了飞桨多年的精选模型,涵盖多个不同的AI方向,并且在此基础上,统一了模型的接口,降低了模型开发的难度。PaddleX3.0提供了多模型组合使用的方式、提供了较多产业级方便易用的pipeline,并提供了多种模型部署的工具。基于PaddleX3.0,可以快速完成AI应用的开发和落地。PaddleX3.0 一共经历过6个版本,本次发布为PaddleX3.0正式版。相比2.x版本,3.0版本的主要能力如下:
丰富的模型库:
- 模型丰富: PaddleX3.0 包含270+模型,涵盖了图像(视频)分类/检测/分割、OCR、语音识别、时序等多种场景。
- 方案成熟: PaddleX3.0 基于丰富的模型库,提供了通用文档解析、关键信息抽取、文档理解、表格识别、通用图像识别等多种重要且成熟的AI解决方案。
统一推理接口,重构部署能力:
- 推理接口标准化,降低不同种类模型带来的API接口差异,减少用户学习成本,提升企业落地效率。
- 提供多模型组合能力,复杂任务可以通过不同的模型方便地进行组合使用,实现1+1>2 的能力。
- 部署能力升级,多种模型部署可以使用统一的命令管理,支持多卡推理,支持多卡多实例服务化部署。
全面适配飞桨框架3.0:
- 全面适配飞桨框架3.0新特性: 支持编译器训练,训练命令通过追加
-o Global.dy2st=True即可开启编译器训练,在 GPU 上,多数模型训练速度可提升 10% 以上,少部分模型训练速度可以提升 30% 以上。推理方面,模型整体适配飞桨 3.0 中间表示技术(PIR),拥有更加灵活的扩展能力和兼容性,静态图模型存储文件名由xxx.pdmodel改为xxx.json。 - 全面支持 ONNX 格式模型: 支持通过Paddle2ONNX插件转换模型格式。
重磅能力支撑:
- 支撑PP-OCRv5的串联逻辑和多硬件推理、多后端推理、服务化部署能力。
- 支撑PP-StructureV3的复杂模型串联和并联的逻辑,首次串联并联共15个模型,实现多模型协同的复杂pipeline。精度在 OmniDocBench 榜单上达到 SOTA 水平。
- 支撑PP-ChatOCRv4的大模型串联逻辑,结合文心大模型4.5Turbo,结合新增的PP-DocBee2,关键信息抽取精度相比上一代提升15.7个百分点。
多硬件支持:
- 整体支持英伟达、英特尔、苹果M系列、昆仑芯、昇腾、寒武纪、海光、燧原等芯片的训练和推理。
- 在昇腾上,全面适配的模型达到200个, 支持OM高性能推理的模型达到21个。此外支持PP-OCRv5、PP-StructureV3等重要模型方案。
- 在昆仑芯上支持重要分类、检测、OCR类模型(含PP-OCRv5)。
PaddleX v3.0-rc1
PaddleX 3.0 rc1 全面适配 PaddlePaddle 3.0正式版,核心升级如下:
-
全面适配飞桨框架3.0新特性:支持编译器训练,训练命令通过追加
-o Global.dy2st=True即可开启编译器训练,在 GPU 上,多数模型训练速度可提升 10% 以上,少部分模型训练速度可以提升 30% 以上。推理方面,模型整体适配飞桨 3.0 中间表示技术(PIR),拥有更加灵活的扩展能力和兼容性,静态图模型存储文件名由xxx.pdmodel改为xxx.json。 -
新增飞桨自研文档图像理解多模态大模型 PP-DocBee:在学术界及内部业务场景文档理解评测榜单上,PP-DocBee 均达到同参数量级别模型的 SOTA 水平。可应用到财报、研报、合同、说明书、法律法规等文档 QA 场景。
-
全面支持 ONNX 格式模型,支持通过Paddle2ONNX插件转换模型格式。
-
升级高性能推理:
- 新增对 ONNX、OM 格式模型的支持: PaddleX 可以根据需要智能选择模型格式;
- 扩展支持的产线和模块: 所有静态图推理的单功能模块与产线均可使用高性能推理插件来提升推理性能;
- 支持 CLI、API、配置文件 3 种配置方式: 支持更精细的配置,用户可以在子产线、子模块粒度启用和禁用高性能推理插件。
-
多硬件支持扩展:
- NPU:昇腾全面验证的模型数量提升到 200 个。此外,通用 OCR、图像分类、目标检测等常用产线支持 OM 模型格式推理,推理速度能够提升 113.8%-226.4%,支持在 Atlas 200、Atlas 300 系列产品上推理部署。
- GCU:燧原正式纳入飞桨例行发版体系,完成了 PaddleX 生态适配。支持 90 个模型的训练和推理。
PaddleX v3.0-rc0
PaddleX 3.0 rc0 全面适配 PaddlePaddle 3.0rc0 及以上版本,新增10+条产线,40+个模型,优化模型和产线API,多硬件适配更多模型。全面升级高性能推理和服务化部署能力。具体新增能力如下:
-
新增产线:
- 新增文档预处理产线,支持将矫正旋转和扭曲的文档图像。
- 新增文档场景信息抽取v4产线,在文档场景信息抽取v3产线的基础上,融合了多模态能力,增强了OCR识别能力,优化了Prompt,最终文档信息抽取的准确率提升15个百分点。支持本地大模型OpenAI接口调用。
- 新增通用版面解析v3产线,在通用版面解析v1产线的基础上,优化了版面区域检测、表格识别、公式识别、阅读顺序恢复的能力,支持将不同类型的文档图像和文档PDF文件转换为标准的Markdown文件,在大多数场景的文档恢复能力表现强劲。
- 新增通用表格识别v2产线,采用了“表格分类+表格结构识别+单元格检测”的多模型串联组网方案,实现更高精度的端到端表格识别。
- 新增旋转目标检测产线,支持对旋转目标进行检测。
- 新增人体关键点检测产线,支持精确获取人体的关键点位置,如肩膀、肘部、膝盖等,从而进行姿态估计和行为识别。
- 新增开放词汇目标检测产线,支持对开放域目标进行检测,并预测类别。
- 新增开放词汇分割产线,支持对开放域目标进行图像分割。
- 新增通用视频检测产线,支持高效提取视频中的空间和时间特征,实现视频中目标的精准识别和定位。
- 新增通用视频分类产线,支持提取视频中的时空特征并进行准确分类。
- 新增多语种语音识别产线,支持将人类口述的多种语言自动转换为相应的文本或命令。
- 新增3D多模态融合检测产线,支持输入多种传感器(激光雷达、环视RGB相机等)数据,通过深度学习等方法对数据进行处理,输出三维空间中物体的位置、形状、朝向、类别等信息。
-
新增模型:
- 新增 OCR 类模型 28 个,其中包含兼顾高精度和高效率的自研版面区域检测模型 PP-DocLayout 系列、兼顾高精度和高效率的自研公式识别模型 PP-FormulaNet 系列、自研表格结构识别模型 SLANeXt 系列、更高识别精度的自研文本识别模型 PP-OCRv4_server_rec_doc 模型等。
- 新增 CV 类模型 11 个,新增了 3D 多模态融合检测模型、开放词汇目标检测和分割模型、旋转框检测模型、人体关键点检测模型等。
- 新增 Speech 类模型 5 个,新增了 Whisper 系列的 5 个模型。
- 新增 Video 类模型 4 个,包含视频检测模型 1 个、视频分类模型 3 个。
-
模型和产线能力升级:
- 模型和产线支持更多参数,如目标检测模型的类别阈值、文本检测模型的膨胀系数等,CV 类和 OCR 类模型支持 PDF 格式文件输入。
- OCR 类产线支持文档前处理操作,如文档方向分类、文档矫正等,内置文本行方向分类模型。
- 文档场景信息抽取 v3 产线支持标准 OpenAI 接口调用大语言模型,支持更多大语言模型的调用。
- 优化使用体验,部分模型和产线接口发生变化,详情参考 API升级文档。
-
多硬件支持:
-
多环境适配
- 适配 Windows 系统,支持在 Windows 下使用 PaddleX 进行模型训练和推理。修复部分 Windows 系统下安装失败的问题。
- 训练和推理全面适配 Python3.11,Python3.12。
-
部署能力全面升级:
- 高性能推理:
- 安装使用简化:支持使用 PaddleX CLI 一键安装高性能推理插件;使用高性能推理插件无需进行鉴权。
- 跨平台支持:新增对 Windows 系统的支持。
- 模型支持扩展:扩增支持模型数量,目前总计支持 220+ 个模型。
- 核心代码开源:开源核心推理库 ultra-infer,便于开发者进行二次开发和定制。
- 服务化部署:
- 基础服务化部署方案升级:升级基础服务化部署方案,支持新增产线,并适配原有产线新增功能。
- 高稳定性服务化部署方案支持:新增高稳定性服务化部署方案,支持灵活调整服务配置以优化服务性能,多种部署方案满足不同用户需求。
- 高性能推理:
PaddleX v3.0-beta2
PaddleX 3.0 Beta2 全面适配 PaddlePaddle 3.0b2 版本。新增通用图像识别、人脸识别、车辆属性识别和行人属性识别产线,同时新增 42 个模型开发全流程适配昇腾 910B,并全面支持GitHub 站点文档。 具体新增能力如下:
-
新增产线:
-
新增能力:
- 支持GitHub 站点文档,支持用户搜索相关内容和对文档内容的评论;
- 支持打印模型的推理benchmark信息,相关文档;
- 新增 42 个模型开发全流程适配昇腾 910B,模型列表。
-
优化点:
- 公式识别产线,支持 PDF 格式输入,支持公式识别结果的可视化;
- 印章文本识别产线,支持 PDF 格式的输入;
- 通用版面解析产线,优化保存图片的名称;
- 预训练统一管理,将当前支持的模型的预训练统一管理,并内置到默认配置文件中;
- 升级模型保存的格式,为高性能推理提供保障;
- 优化部分模型的默认参数,为训练更高精度的模型提供保障。
-
BugFix:
- 修复部分文档表述错误或者不当的内容,修复部分 URL 失效的问题;
- 修复文档方向分类推理模型的bug;
- 修复部分高性能推理和服务化部署的bug;
- 修复 SLANet、SLANet_plus 训练精度为 0 的bug。
PaddleX v3.0-beta1
PaddleX 3.0 Beta1 提供 200+ 模型通过极简的 Python API 一键调用;实现基于统一命令的模型全流程开发,并开源 PP-ChatOCRv3 特色模型产线基础能力;支持 100+ 模型高性能推理和服务化部署,7 类重点视觉模型端侧部署;70+ 模型开发全流程适配昇腾 910B,15+ 模型开发全流程适配昆仑芯和寒武纪。
- 模型丰富一键调用: 将覆盖文档图像智能分析、OCR、目标检测、时序预测等多个关键领域的 200+ 飞桨模型整合为 13 条模型产线,通过极简的 Python API 一键调用,快速体验模型效果。同时支持 20+ 单功能模块,方便开发者进行模型组合使用。
- 提高效率降低门槛: 实现基于图形界面和统一命令的模型全流程开发,打造大小模型结合、大模型半监督学习和多模型融合的8条特色模型产线,大幅度降低迭代模型的成本。
- 多种场景灵活部署: 支持高性能部署、服务化部署和端侧部署等多种部署方式,确保不同应用场景下模型的高效运行和快速响应。
- 主流硬件高效支持: 支持英伟达 GPU、昆仑芯、昇腾和寒武纪等多种主流硬件的无缝切换,确保高效运行。
PaddleX v3.0-beta
PaddleX 3.0 集成了飞桨生态的优势能力,覆盖 7 大场景任务,构建了 16 条模型产线,提供低代码开发模式,助力开发者在多种主流硬件上实现模型全流程开发。
- 基础模型产线(模型丰富,场景全面): 精选 68 个优质飞桨模型,涵盖图像分类、目标检测、图像分割、OCR、文本图像版面分析、文本图像信息抽取、时序分析任务场景。
- 特色模型产线(显著提升效率): 提供大小模型结合、大模型半监督学习和多模型融合的高效解决方案。
- 低门槛开发模式(便捷开发与部署): 提供零代码和低代码两种开发方式。
- 零代码开发: 用户通过图形界面(GUI)交互式提交后台训练任务,打通在线和离线部署,并支持以 API 形式调用在线服务。
- 低代码开发: 通过统一的 API 接口实现 16 条模型产线的全流程开发,同时支持用户自定义模型流程串联。
- 多硬件本地支持(兼容性强): 支持英伟达 GPU、昆仑芯、昇腾芯和寒武纪芯等多种硬件,纯离线使用。