MongoDBReader关于Job中split的切分问题 #2188

lazycancerpatients · 2024-08-20T07:56:31Z

源为mongodb数据库时，使用多并发读取，Job在进行split切分算法时，并没有针对query条件进行数据过滤
而是读取全量数据通过 _id 进行切分，这样在collection中数据量较大时，切分会十分缓慢
真实场景：在源表数据为11亿条(存储空间约为4.5T)时，2channel切分耗时40min，3channel切分耗时90min

不针对query条件做过滤是有什么其它的考量吗

lazycancerpatients changed the title ~~MongoDBReader~~ MongoDBReader关于Job的split切分问题 Aug 20, 2024

lazycancerpatients changed the title ~~MongoDBReader关于Job的split切分问题~~ MongoDBReader关于Job中split的切分问题 Aug 20, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

MongoDBReader关于Job中split的切分问题 #2188

MongoDBReader关于Job中split的切分问题 #2188

lazycancerpatients commented Aug 20, 2024 •

edited

Loading

MongoDBReader关于Job中split的切分问题 #2188

MongoDBReader关于Job中split的切分问题 #2188

Comments

lazycancerpatients commented Aug 20, 2024 • edited Loading

lazycancerpatients commented Aug 20, 2024 •

edited

Loading