Google推动将网络爬虫机器人规范标准化

网站用来告诉前来搜刮内容的爬虫机器人什么地方能去，什么不能去的“Robot Exclusion Protocol”（REP）协议虽然早在1994年就由荷兰软件工程师Martijn Koster提出，并由大部分的网站与机器人所遵守，但其实25年来它都不是一个真正的“标准”，因此在各家的解析器（Parser）在解译时可能会有所偏差，而且对于许多特殊的状况都没有个明确的规范。

举例来说，一般爬虫机器人都是去网站的根目录寻找robot.txt文件，来了解网站对于爬虫机器人活动范围与频度的规范，但如果因为任何原因（例如服务器停摆），使得原本找得到的robot.txt找不到了，这时候机器人应该视作无规范、还是照着最后一次读取的robot.txt内容进行？又或者，robot.txt应该多久去审查一次？太频繁的话，会增加服务器无谓的负担，不够频繁的话，新的配置可能要很久才会反应在爬虫机器人上。这些都是在标准规范出来前很难规定的事项。

作为网络爬虫机器人的大本营的Google，自然对于将这些事务规范化极为上心，除了将对Internet Engineering Task Force提出将REP协议标准化的提案之外，还加码把自家Googlebot机器人的REP解析器转为开放源码，以让标准有一个架构的基础。当然，这并不是说Google的版本会原封不动地成为新标准，在制定的过程中势必会有不同利益的折冲，但最终只要能有个标准出来，应该是能降低网站的维护成本及来自机器爬虫的流量，对网站管理者来说怎样都是个好消息吧。