load_images_from_pdf 的过程中使用一个私有的进程池并行加载图片是如何考量的? #4259
AndrewTsao
started this conversation in
Ideas
Replies: 2 comments 7 replies
-
|
目前我看到的是pypdfium2不是线程安全的,有一些全局公共的状态,所以用进程处理了 |
Beta Was this translation helpful? Give feedback.
1 reply
-
|
load images的操作时长一般只占文档总解析时长的1%,基本不会出现多个任务卡在这的情况 |
Beta Was this translation helpful? Give feedback.
6 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
尊敬的MinerU老师,请问一下,我们的在每一篇PDF处理过程中,进行加载Images的时候,为什么都单独创建一个进程池进行并行处理。
当批量请求时,是不是会创建大量的进程池,远超过机器的核数量,导致效率下降。
如果做为服务器模式,是否可以将这个进程池单独提出来?或者我们这样设计是出于什么样的考量,能够解释一下,谢谢。
Beta Was this translation helpful? Give feedback.
All reactions