是否可以用大模型替代OCR呢？ #2331

yuruotong1 · 2025-04-08T03:00:18Z

yuruotong1
Apr 8, 2025

我看现在的翻译工作多是基于本地模型的OCR，我在magic-pdf中配置了llm-aided-config，但貌似还是用的本地模型，我如何使用大模型完成识别呢？
之所以想用大模型，是因为我想自定义翻译的效果，比如能够定制一些专业词汇、增加一些活泼的气氛等等

zzk2021 · 2025-04-09T07:25:52Z

可以参考Vary，GOT-OCR等工作，目前多模态大模不足的地方在于特殊场景以及会漏

0 replies

3300752199 · 2025-04-22T02:40:14Z

可以参考Vary，GOT-OCR等工作，目前多模态大模不足的地方在于特殊场景以及会漏

GOT-OCR 效果跟qwen2.5 VL 系列相比效果如何您这边有测试过吗

0 replies

zzk2021 · 2025-04-22T03:28:42Z

可以参考Vary，GOT-OCR等工作，目前多模态大模不足的地方在于特殊场景以及会漏

GOT-OCR 效果跟qwen2.5 VL 系列相比效果如何您这边有测试过吗

在我们场景下会漏检，直接pass了

0 replies