内容详情
柳锦目律师团队
Tel:13952031715
网络爬虫之痛:合法爬取的危害
本文首次发表于“目哥说法”公众号
来源:原创 | 作者:柳锦目 | 发布时间: 2021-10-04 | 538 次浏览 | 分享到:

我们前面讲到网络爬虫的前世是个好人,最起码是个技术中立者,而且是互联网搜索引擎家族中不可或缺的角色。但是随着网络科技的发展,搜索引擎和网站之间的博弈引发出了许多利益冲突,搜索引擎想千方百计的抓取更多的信息,有价值的信息;而网站出于隐私保护或者商业秘密等原因,通过robots协议利用规则设置的爬虫的禁飞区,不让爬虫爬取。于是就出现了爬虫僭越robots协议的规则,偷偷爬取网站私密数据,这是一种超越授权的秘密窃取,我们称之为“小偷爬虫”。相对应的网站也千方百计通过技术措施对某些数据进行隐藏和保护,屏蔽爬虫的爬取。爬虫也不断改进,想方设法越过围栏,强行爬取,这里我称之为“强盗爬虫”。小偷也好,强盗也好,只是手段的粗暴程度不同而已,本质上都是非法获取网站数据。他们的危害有两方面,一方面是爬虫非法获取数据的行为本身的危害,另一方面是爬虫非法获取的数据,为下游形形色色的网络犯罪提供了无限可能,可以说是孕育和滋生网络犯罪的上游源头。今天开始科普网络爬虫的各种典型危害。

今天先说说爬虫合法爬取行为本身的危害性。
有人可能会纳闷,合法的爬虫怎么还有危害呢?我们这里讲的合法爬虫指的是爬取行为没有违反robots协议,或者网站本身没有设置robots协议的情况。这种情况下的爬取虽然没有超越授权,理论上讲也都是合法的,但是在某些情况下也会给网站带来危害。

第一种情况是爬虫超范围收集数据,搜集一些非必要的、无关的数据,还有就是没有加密的用户隐私数据。这里有个例子,X某某网上求职于某公司,由于该公司没有设置robots协议,以至于X某某的求职邮件被某聚合搜索引擎爬虫爬取,后该求职信被公开在X某某所就业的行业类论坛和各求职类论坛,给X某某造成了不小的麻烦。

第二种情况是多线程的爬虫大量爬取某一特定网站会实质性的占用网站的大量带宽资源,造成正常用户无法访问,这在实际效果上和DOS(拒绝服务)攻击没什么区别。这里最典型的一个例子就是审判文书网被某查查等网站爬虫占据带宽,正常用户经常无法访问,深受其害的律师人群曾经有人呐喊,要是裁判文书网告某查查,我愿意免费代理。可见肆意占用带宽影响到了公共利益。

所以,虽为合法,但是在一定程度上已经属于恶意爬虫了。合法的爬虫都有这么大的危害,那非法爬虫的危害是不是更大?那是必须的,所以呢,明天继续……