可用于下载book118的PDF文档
- 爬虫爬取图片链接
- 下载图片
- 将图片拼合成pdf文件
| 参数 | 解释 | 必备参数 |
|---|---|---|
-h、--help |
显示帮助 | ❌ |
-u、--url |
要下载的文件的网页地址 | ✔ |
-o、--output |
文件保存名,默认是文档的标题.pdf | ❌ |
-p、--proxy |
设置要使用的代理地址(默认使用环境变量中HTTP_PROXY和HTTPS_PROXY设置的值),可以使用-p ''强制设置不走代理 |
❌ |
-f、--force |
强制重新下载,不使用缓存 | ❌ |
-t、--thread |
要使用的线程数,如不指定默认是10 | ❌ |
-s、--safe |
如果被服务器拒绝可以打开此选项,将强制单线程,并增加请求和下载的间隔时间 | ❌ |
python3 -m pip install documentDownloader安装完成后即可直接使用 documentDownloader 命令
如:documentDownloader -u https://max.book118.com/html/2020/0109/5301014320002213.shtm -o '单身人群专题研究报告-2019' -p http://127.0.0.1:1080 -f -t 20
克隆该项目,或在releases页面选择版本下载
- 安装Python3
- 安装依赖模块(Pillow、reportlab、requests)
python -m pip install -r requirements.txt - 使用
python3 main.py执行
如:python main.py -u https://max.book118.com/html/2020/0109/5301014320002213.shtm -o '单身人群专题研究报告-2019' -p http://127.0.0.1:1080 -f -t 20
仅供学习爬虫及相关知识,请支持正版图书
虽然book118上的好多pdf也是盗版吧