Skip to content

sese-engine是否完全遵守了robots协议以及配置.py里爬虫的名字是什么意思 #38

@mengguyi

Description

@mengguyi

我想问一下sese-engine是否完全遵守了robots协议
我在https://sese.yyj.moe 上搜索bilibili时得到如下结果
image
但是根据https://www.bilibili.com/robots.txt 来看,sese-engine里默认配置的loli_spider 显然不属于允许的UA
那么如果sese-engine完全遵守了robots协议,则不会爬到https://www.bilibili.com
所以是https://sese.yyj.moe 修改了爬虫的名字还是sese-engine不是完全遵守robots协议

另外
大部中国分网站的robots.txt喜在文件末尾写上

User-agent: *
Disallow: /

所以如果我希望能和正常的搜索引擎一样爬取是否需要修改 爬虫的名字

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions