Skip to content

[BUG]带公式的PDF文档解析出来很多公式都是乱码,纯图片PDF无法处理 #3604

@clintonfang

Description

@clintonfang

Bug 描述

带公式的PDF文档解析出来很多公式都是乱码。

重现步骤

  1. 用wps将word文档转为PDF,并将这个文档拖动到对话中,会自动解析。
  2. 解析结果点击查看,可以看到大量的公式符号变成了“퐀” 这种乱码形式。

桌面端(请填写以下信息):

  • 操作系统:windows11
  • 应用程序版本:1.19.1和1.20.0.bate 中都发现了这个问题,但以前的版本好像有能正确识别的,具体哪个版本没有试过了。另外使用的是wps转pdf功能转出的pdf文件,别的软件转pdf功能没有测试过。
  • 特别提一句,如果pdf中全是图片,也无法正常识别和转换,其实现在很多模型自己就能处理,不论是文字排版的pdf还是纯图像的pdf,可以直接交给大模型自行处理,这个可以做成一个可配置项,用户配置了处理文档的模型就用用户配置的,如果没有就用内置的。现在是可以选文档处理工具,但但但,不能添加自定义的模型。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions