内容详情
柳锦目律师团队
Tel:13952031715
网络爬虫与robots“君子协议”的恩恩怨怨(前序)
本文首次发表于“目哥说法”公众号
来源:原创 | 作者:柳锦目 | 发布时间: 2021-10-04 | 367 次浏览 | 分享到:

什么是robots协议?

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。——来自百度百科

 

robots协议是一个国际通行的协议,是一种行业规则,是行业内达成的需要遵守的道德义务也是法律义务。更形象的说就像是人家私人花园门口的一块告示牌,告诉客人这个花园能不能进去,以及如果可以进入这个花园应遵守的规则。但是从技术上讲robots协议是网站和搜索引擎之间达成的一个君子协议,他只是告诉搜索引擎的网络爬虫哪些可以哪些不可以,但是没有像口令保护一样的加密拦阻功能,robots不是一把锁,所以只对君子有用,对小偷强盗是没有办法的。

 

Robots协议是行业内长期达成的一种平衡,制约着双方的利益平衡,长期以来,总有逾越规则的案例发生。历史上围绕爬虫robots协议的纠纷案例有很多:

 

Facebook屏蔽谷歌搜索

  从前面的介绍知道,robots协议是个君子协议不是一把锁,所以FACEBOOK中的内容,只要谷歌想抓取,从技术角度来说是没有难度的。而且facebook用户生产的内容就像用户邮件内容一样是隐私,用户要想搜索好友不通过facebook搜索而是绕过facebook直接从谷歌所搜就可以,这对facebook来说就无法构成闭环,必将损失惨重。

默多克旗下新闻屏蔽谷歌搜索

  从传统媒体起家的默多克对网络爬虫技术相当不友善,他将搜索引擎都说成是网络寄生虫。对此,谷歌的回应很简单,如果不想让贵站的内容出现在搜索结果中,请使用robots协议禁止我们抓取即可(完美运用规则)。随后默多克在09年开始展开计划,对谷歌等搜索引擎展开行动,对旗下多家新闻网站屏蔽搜索爬虫。谷歌便不再抓取。这是一个双方运用并遵守robots协议的经典案例,谷歌遵守了,也直接堵住了默多克的嘴,而随后默多克也无话可说。

 

以上是爬虫违规爬取的例子,还有网站拒绝爬虫爬取的例子,比如

淘宝封杀百度和京东封杀一淘的例子。

2008年9月8日,淘宝网宣布封杀百度爬虫,百度忍痛遵守爬虫协议。因为一旦破坏协议,用户的隐私和利益就无法得到保障,搜索网站就谈不到人性关怀。

2011年10月25日,京东商城正式将一淘网的搜索爬虫屏蔽,以防止一淘网对其的内容抓取。

 

以上都是民事侵权和不正当竞争领域例子,说白了都是互联网大佬之间的权利游戏,与我们普通人有关系吗?答案是当然有的,这就涉及违规爬取网站数据涉及的法律风险,既包括民事侵权风险也包括刑事风险。——详情请关注公众号后续更新