Google推动将网络爬虫机器人规范标准化

网站用来告诉前来搜刮内容的爬虫机器人什么地方能去,什么不能去的“Robot Exclusion Protocol”(REP)协议虽然早在1994年就由荷兰软件工程师Martijn Koster提出,并由大部分的网站与机器人所遵守,但其实25年来它都不是一个真正的“标准”,因此在各家的解析器(Parser)在解译时可能会有所偏差,而且对于许多特殊的状况都没有个明确的规范。

举例来说,一般爬虫机器人都是去网站的根目录寻找robot.txt文件,来了解网站对于爬虫机器人活动范围与频度的规范,但如果因为任何原因(例如服务器停摆),使得原本找得到的robot.txt找不到了,这时候机器人应该视作无规范、还是照着最后一次读取的robot.txt内容进行?又或者,robot.txt应该多久去审查一次?太频繁的话,会增加服务器无谓的负担,不够频繁的话,新的配置可能要很久才会反应在爬虫机器人上。这些都是在标准规范出来前很难规定的事项。

作为网络爬虫机器人的大本营的Google,自然对于将这些事务规范化极为上心,除了将对Internet Engineering Task Force提出将REP协议标准化的提案之外,还加码把自家Googlebot机器人的REP解析器转为开放源码,以让标准有一个架构的基础。当然,这并不是说Google的版本会原封不动地成为新标准,在制定的过程中势必会有不同利益的折冲,但最终只要能有个标准出来,应该是能降低网站的维护成本及来自机器爬虫的流量,对网站管理者来说怎样都是个好消息吧。