用于爬取豆瓣小组的爬虫。
此爬虫我主要用于了爬取豆瓣租房小组的帖子,支持关键字搜索以及发帖、更新时间排序。
geventpymongorequestslxmlFlaskboostrap
具体版本参见`requirements.txt`
- 由于豆瓣有防抓机制,故此爬虫使用了代理爬取,防止被封IP。
- 可从网上收集代理IP,放在项目路径下
proxy_list.txt。 - 每个一行,程序会自动加载,且可以自动定时加载新代理。
- 或者参考我的代理采集器,自动采集代理。
- 如果程序运行发现总是出现超时或者403,请更换
proxy_list.txt下的代理。
- 安装
MongoDB,具体参考安装文档。 - 建议使用
virtualenv环境
pip install -r requirements.txt - 启动爬虫
nohup python spider.py >> douban_spider.log & - 启动web服务
nohup python app.py >> app.log & - 查看页面
http://localhost:5000
参数配置见config.py,例如MongoDB地址、并发数、爬取页数等。