网络爬虫与robots“君子协议”的恩恩怨怨（前序）

内容详情

柳锦目律师团队

Tel：13952031715

致邦达摩院刑辩扫地僧

社会问题法律化法律问题专业化

专业问题技术化技术问题细节化

提供专业计算机网络犯罪刑事辩护和电子证据专家质证法律服务

首页＞侵入破坏类＞网络爬虫与robots“君子协议”的恩恩怨怨（前序）

网络爬虫与robots“君子协议”的恩恩怨怨（前序）

本文首次发表于“目哥说法”公众号

什么是robots协议？

robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。——来自百度百科

robots协议是一个国际通行的协议，是一种行业规则，是行业内达成的需要遵守的道德义务也是法律义务。更形象的说就像是人家私人花园门口的一块告示牌，告诉客人这个花园能不能进去，以及如果可以进入这个花园应遵守的规则。但是从技术上讲robots协议是网站和搜索引擎之间达成的一个君子协议，他只是告诉搜索引擎的网络爬虫哪些可以哪些不可以，但是没有像口令保护一样的加密拦阻功能，robots不是一把锁，所以只对君子有用，对小偷强盗是没有办法的。

Robots协议是行业内长期达成的一种平衡，制约着双方的利益平衡，长期以来，总有逾越规则的案例发生。历史上围绕爬虫robots协议的纠纷案例有很多：

Facebook屏蔽谷歌搜索

　　从前面的介绍知道，robots协议是个君子协议不是一把锁，所以FACEBOOK中的内容，只要谷歌想抓取，从技术角度来说是没有难度的。而且facebook用户生产的内容就像用户邮件内容一样是隐私，用户要想搜索好友不通过facebook搜索而是绕过facebook直接从谷歌所搜就可以，这对facebook来说就无法构成闭环，必将损失惨重。

默多克旗下新闻屏蔽谷歌搜索

　　从传统媒体起家的默多克对网络爬虫技术相当不友善，他将搜索引擎都说成是网络寄生虫。对此，谷歌的回应很简单，如果不想让贵站的内容出现在搜索结果中，请使用robots协议禁止我们抓取即可（完美运用规则）。随后默多克在09年开始展开计划，对谷歌等搜索引擎展开行动，对旗下多家新闻网站屏蔽搜索爬虫。谷歌便不再抓取。这是一个双方运用并遵守robots协议的经典案例，谷歌遵守了，也直接堵住了默多克的嘴，而随后默多克也无话可说。

以上是爬虫违规爬取的例子，还有网站拒绝爬虫爬取的例子，比如

淘宝封杀百度和京东封杀一淘的例子。

2008年9月8日，淘宝网宣布封杀百度爬虫，百度忍痛遵守爬虫协议。因为一旦破坏协议，用户的隐私和利益就无法得到保障，搜索网站就谈不到人性关怀。

2011年10月25日，京东商城正式将一淘网的搜索爬虫屏蔽，以防止一淘网对其的内容抓取。

以上都是民事侵权和不正当竞争领域例子，说白了都是互联网大佬之间的权利游戏，与我们普通人有关系吗？答案是当然有的，这就涉及违规爬取网站数据涉及的法律风险，既包括民事侵权风险也包括刑事风险。——详情请关注公众号后续更新

上一篇：网络爬虫的“前世今生”

下一篇：双十一前夕，最高法作出首例恢复电商平台被诉侵权产品销售链接的行为保全裁定