Skip to content

印章识别模型,对于比较模糊的印章如何处理? #4833

@johnny20240812

Description

@johnny20240812

Checklist:

描述问题

印章识别模型,对于比较模糊的印章如何处理?在实际的文件中,有大量的印章图片都会因为印泥过少,或者过多导致文字不清晰或者文字边界模糊,针对这种情况,有没有好的办法,提升识别的准确率?后面会提供相关的印章图片。我看到你们的模型对于清晰的印章图片,识别准确率很高,准确率已经达到了99.8%。请问,你们后期会考虑加入这种模糊印章的数据吗?还是说,我只能针对具体情况,自己微调印章模型呢?我认为这是一个通用问题,让我微调模型,成本太高了。

复现

使用官方提供的印章模型代码即可复现。

  1. 您是否已经正常运行我们提供的教程
    是的,我已经查看了官方的教程

  2. 您是否在教程的基础上修改代码内容?还请您提供运行的代码
    from paddleocr import SealRecognition

pipeline = SealRecognition(
use_doc_orientation_classify=False, # Set whether to use document orientation classification model
use_doc_unwarping=False, # Set whether to use document image unwarping module
)

ocr = SealRecognition(device="gpu") # Specify GPU for model inference

output = pipeline.predict("./seal_text_det.png")
for res in output:
res.print() ## Print structured prediction results
res.save_to_img("./output/")
res.save_to_json("./output/")

  1. 您使用的数据集是?
    数据是使用paddleocr-vl后,拆分出来的印章图片。

  2. 请提供您出现的报错信息及相关log
    您能否告诉我,针对这种情况,是需要我们自己去标注数据,微调模型。还是说,有没有哪些超参数,可以解决这种模糊印章的问题。

环境

  1. 请提供您使用的PaddlePaddle和PaddleX的版本号
    最新版本即可。

  2. 请提供您使用的操作系统信息,如Linux/Windows/MacOS

  3. 请问您使用的Python版本是?

  4. 请问您使用的CUDA/cuDNN的版本号是?

Metadata

Metadata

Assignees

Labels

enhancementNew feature or request

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions