Skip to content

[Discussion] 分布式爬虫数据收集与处理方案 #1

@thonatos

Description

@thonatos

Egg.js Issue 用于反馈框架问题,讨论放这里

背景

一个分布式爬虫系统,工作流程是n个小型阿里云ecs爬虫拿到数据后socket.io发回到中小型阿里云ecs主控,主控做数据运算后将数据放入到阿里云rds,数据量很大,egg里用了async/await库的queue队列。

问题

爬虫返回给主控的数量量比主控运算的速度还快,十来分钟队列就会积了几十万导致主控的node进程崩了

方案

TODO

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions