Skip to content

PaddleX v3.0-rc0

Compare
Choose a tag to compare
@cuicheng01 cuicheng01 released this 26 Mar 14:13
· 2 commits to release/3.0-rc since this release
35e8353

PaddleX 3.0 rc0 全面适配 PaddlePaddle 3.0rc0 及以上版本,新增10+条产线,40+个模型,优化模型和产线API,多硬件适配更多模型。全面升级高性能推理和服务化部署能力。具体新增能力如下:

  • 新增产线:

    • 新增文档预处理产线,支持将矫正旋转和扭曲的文档图像。
    • 新增文档场景信息抽取v4产线,在文档场景信息抽取v3产线的基础上,融合了多模态能力,增强了OCR识别能力,优化了Prompt,最终文档信息抽取的准确率提升15个百分点。支持本地大模型OpenAI接口调用。
    • 新增通用版面解析v3产线,在通用版面解析v1产线的基础上,优化了版面区域检测、表格识别、公式识别、阅读顺序恢复的能力,支持将不同类型的文档图像和文档PDF文件转换为标准的Markdown文件,在大多数场景的文档恢复能力表现强劲。
    • 新增通用表格识别v2产线,采用了“表格分类+表格结构识别+单元格检测”的多模型串联组网方案,实现更高精度的端到端表格识别。
    • 新增旋转目标检测产线,支持对旋转目标进行检测。
    • 新增人体关键点检测产线,支持精确获取人体的关键点位置,如肩膀、肘部、膝盖等,从而进行姿态估计和行为识别。
    • 新增开放词汇目标检测产线,支持对开放域目标进行检测,并预测类别。
    • 新增开放词汇分割产线,支持对开放域目标进行图像分割。
    • 新增通用视频检测产线,支持高效提取视频中的空间和时间特征,实现视频中目标的精准识别和定位。
    • 新增通用视频分类产线,支持提取视频中的时空特征并进行准确分类。
    • 新增多语种语音识别产线,支持将人类口述的多种语言自动转换为相应的文本或命令。
    • 新增3D多模态融合检测产线,支持输入多种传感器(激光雷达、环视RGB相机等)数据,通过深度学习等方法对数据进行处理,输出三维空间中物体的位置、形状、朝向、类别等信息。
  • 新增模型:

    • 新增 OCR 类模型 28 个,其中包含兼顾高精度和高效率的自研版面区域检测模型 PP-DocLayout 系列、兼顾高精度和高效率的自研公式识别模型 PP-FormulaNet 系列、自研表格结构识别模型 SLANeXt 系列、更高识别精度的自研文本识别模型 PP-OCRv4_server_rec_doc 模型等。
    • 新增 CV 类模型 11 个,新增了 3D 多模态融合检测模型、开放词汇目标检测和分割模型、旋转框检测模型、人体关键点检测模型等。
    • 新增 Speech 类模型 5 个,新增了 Whisper 系列的 5 个模型。
    • 新增 Video 类模型 4 个,包含视频检测模型 1 个、视频分类模型 3 个。
  • 模型和产线能力升级:

    • 模型和产线支持更多参数,如目标检测模型的类别阈值、文本检测模型的膨胀系数等,CV 类和 OCR 类模型支持 PDF 格式文件输入。
    • OCR 类产线支持文档前处理操作,如文档方向分类、文档矫正等,内置文本行方向分类模型。
    • 文档场景信息抽取 v3 产线支持标准 OpenAI 接口调用大语言模型,支持更多大语言模型的调用。
    • 优化使用体验,部分模型和产线接口发生变化,详情参考 API升级文档
  • 多硬件支持:

  • 多环境适配

    • 适配 Windows 系统,支持在 Windows 下使用 PaddleX 进行模型训练和推理。修复部分 Windows 系统下安装失败的问题。
    • 训练和推理全面适配 Python3.11,Python3.12。
  • 部署能力全面升级:

    • 高性能推理:
      • 安装使用简化:支持使用 PaddleX CLI 一键安装高性能推理插件;使用高性能推理插件无需进行鉴权。
      • 跨平台支持:新增对 Windows 系统的支持。
      • 模型支持扩展:扩增支持模型数量,目前总计支持 220+ 个模型。
      • 核心代码开源:开源核心推理库 ultra-infer,便于开发者进行二次开发和定制。
    • 服务化部署:
      • 基础服务化部署方案升级:升级基础服务化部署方案,支持新增产线,并适配原有产线新增功能。
      • 高稳定性服务化部署方案支持:新增高稳定性服务化部署方案,支持灵活调整服务配置以优化服务性能,多种部署方案满足不同用户需求。