Replies: 3 comments 1 reply
-
|
你遇到的 httpx.ReadError 在 MinerU 的 vlm-http-client 模式下是一个已知问题,主要原因是批量处理时只要有一页(比如 404、500、503)失败,整个 batch 就会异常终止,客户端收到 ReadError,即使并发量很低也会发生。这通常和 MinerU 的批量异步处理机制有关,任何单页失败都会导致全局失败,且 doc_analyze 会一次性加载所有页和推理结果到内存,容易触发资源瓶颈或网络异常,即使 GPU/内存未满也可能出现这种情况[详细分析][相关讨论]。 常见排查和缓解建议如下:
如果 vlm-http-client 后端依然不稳定,可以考虑切换到 pipeline 后端,容错性更好,适合大文档或高并发场景[后端建议]。 To reply, just mention @dosu. How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other |
Beta Was this translation helpful? Give feedback.
-
|
http_timeout之类的我已经调整过了,如果超时是timeout错误,主要问题在于vllm端没看到任何错误,如何确定是单页失败? |
Beta Was this translation helpful? Give feedback.
-
|
在 MinerU 的 vlm-http-client 批量模式下,只要有一页(比如 404、500、503)失败,整个 batch 就会直接抛出异常,客户端收到 httpx.ReadError,但 MinerU 本身没有内置单页失败的详细日志或定位机制,服务端通常也不会有报错(404 很可能是中间代理/防火墙返回的)参考。 要确认是否是单页失败导致,可以用如下方式定位:
总结:MinerU 批量模式下没有内置单页失败检测,需用循环单页处理+异常捕获来定位具体失败页参考。 To reply, just mention @dosu. How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
🔎 Search before asking | 提交之前请先搜索
🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询
Description of the bug | 错误描述
生产中http-client模型调用另外一台机器部署的VLM。偶发这个错误,但是vllm端没看到任何ERROR。
并发量只有2
How to reproduce the bug | 如何复现
http-client模式
Operating System Mode | 操作系统类型
Linux
Operating System Version| 操作系统版本
CentOS 8
Python version | Python 版本
3.10
Software version | 软件版本 (mineru --version)
>=2.5Backend name | 解析后端
vlm
Device mode | 设备模式
cuda
Beta Was this translation helpful? Give feedback.
All reactions