秦涛:爬虫技术的合法性探讨

Posted 网络空间治理思与行

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了秦涛:爬虫技术的合法性探讨相关的知识,希望对你有一定的参考价值。

全国律协信息委征文

爬虫技术的合法性探讨


秦涛  陕西永嘉信律师事务所

 

爬虫技术是某些网络公司将已经发布在网络上的信息经过系统整理,作为自己的产品向受众推广。这是一种新型的经营模式,也是一种特殊的网络衍生产品。基本特征是利用网络特殊搜索技术,深入各个网站将相关联的信息搜索出来,并呈现在受众的面前。这种做法可能涉及的法律问题主要包括个人信息保护、不正当竞争、商业秘密保护、著作权保护等。而研究爬虫技术使用的合法性问题的基础在于爬虫协议法律性质的研究。

一、爬虫协议法律性质研究

1.爬虫协议的含义

爬虫协议源于互联网从业人员的公开邮件组里的讨论。爬虫协议(也称为Robots协议、机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。通俗地讲,如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

2.司法实践中对爬虫协议法律性质的认定

(1)国外司法实践对爬虫协议法律性质的认定

在12年前,美国加州北部的联邦地方法院就在著名的eBayVS.Bidder's Edge案中(NO.C-99-21200RMW,2000U.S Dist. LEXI 7282),引用robots协议对案件进行裁定。Bidder's Edge(简称BE)成立于1997年,是专门提供拍卖信息的聚合网站。12年前,BE利用“蜘蛛”抓取来自eBay等各个大型拍卖网站的商品信息,放在自己的网站上供用户浏览,并获得可观的网站流量。

对于eBay来说,来自BE蜘蛛每天超过十万次的访问,给自己的服务器带来了巨大的压力。而虽然eBay早已设置了robots协议禁止BE蜘蛛的抓取,但BE却无视这个要求——原因很简单,据估算,BE网站69%的拍卖信息都来自eBay,如果停止抓取eBay内容,这意味着BE将损失至少三分之一的用户。

数次沟通交涉未果后,2000年2月,忍无可忍的eBay终于一纸诉状,将BE告上联邦法庭,要求禁止BE的违规抓取行为。3个月后,受理此案的美国联邦法官Ronald M. Whyte在经过多方调查取证后做出裁定,认定BE侵权成立,禁止了BE在未经eBay允许的情况下,通过任何自动查询程序、网络蜘蛛等设置抓取eBay的拍卖内容。

在当时的庭审中,双方争议的焦点主要集中在“网站是否有权设置robots协议屏蔽其他网站蜘蛛的抓取”。被告BE认为,eBay的网站内容属于网民自创,因此是公共资源,eBay无权设立robots协议进行限制。然而,法院对这一说辞却并不认同。在法官看来:“eBay的网站内容属于私有财产,eBay有权通过robots协议对其进行限制。”违规抓取的行为无异于“对于动产的非法侵入”。

也正是出于这一判断,即使当年BE还只是搜索了eBay计算机系统里的一小部分数据,其违反robots协议的抓取行为,仍然被判为侵犯了eBay将别人排除在其计算机系统以外的基本财产权。

作为美国历史上第一个保护互联网信息内容的法律裁定,eBay与BE的这起纠纷,成为网络侵权案的标志性案例,并在当时引发了美国互联网产业乃至社会的广泛讨论。SearchEngine Watch的知名专栏作家DannySullivan曾专门在文章中指出,robots协议是规范搜索引擎爬虫行为的极少数约定之一,理应遵守,它不仅仅让整个互联网的开放性变成可能,最终也让整个互联网用户受益。

(2)国内司法实践对爬虫协议法律性质的认定

2014年8月7日,围绕360搜索引擎是否违反Robots协议而引发的不正当竞争纠纷一案,北京一中院作出一审判决,认为被告北京奇虎科技有限公司(以下简称奇虎公司)的行为违反了《反不正当竞争法》相关规定,应赔偿原告北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司(以下简称百度公司)经济损失及合理支出共计70万元,同时驳回百度公司的其他诉讼请求。

被告奇虎公司当庭辩称:一、百度滥用Robots协议,以设置robots.txt文件为手段排斥同业竞争者,以达到限制同业竞争者正当竞争的目的;二、百度滥用Robots协议的行为如果被司法判决确认保护,将给中国互联网搜索引擎服务行业的发展带来极为不利的影响,并将严重损害互联网用户利益;三、360搜索以网页快照而非原始网页链接方式显示百度内容网站的内容是由于百度恶意技术干扰所致,且360搜索早已不再通过网页快照方式显示百度内容网站搜索结果,百度在本案中控诉的所谓相关不正当竞争行为已不存在;四、百度在本案中控诉的360搜索违反百度设置的robots.txt文件、抓取百度网站内容的行为不属于不正当竞争行为。综上,请求法院驳回原告北京百度公司和原告百度在线公司的诉讼请求。

北京市第一中级人民法院经审理认为,《反不正当竞争法》第二条规定,经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。

互联网行业的发展彻底改变了人们的生活,这种改变归根结底来自自由竞争环境下实现的创新。所以,互联网企业在经营过程中在法律准许的范围内的自由竞争应当得到坚决的维护。但是此种“自由”并非毫无约束的绝对自由,为了自身发展可以采用违背诚实信用及商业道德的方式攻击竞争者,那么创新就会被扼杀,市场就会停滞不前,因此必须重视和强调规则在自由竞争中的作用。

Robots协议被认定为搜索引擎行业内公认的、应当被遵守的商业道德,被告奇虎公司在推出搜索引擎的伊始阶段没有遵守百度网站的Robots协议,其行为明显不当,应当承担相应的不利后果。

市场竞争亦需要给予每一个竞争者公平的竞争环境,即使是后进入市场的竞争者,也应当获得公平的竞争机会。在本案中,原告网站在不知晓被告提供搜索引擎服务的前提下,没有将被告搜索引擎加入其Robots协议的白名单内并无不当。但是在被告推出搜索引擎之后,尤其是在双方争议短时间内快速升级,行政机关和行业协会已经积极介入调处,被告也明确表示希望抓取原告网站内容的前提下,原告既没有充分阐明如此设置Robots协议的理由,又拒绝修改其Robots协议,故而其请求法院判令禁止被告抓取原告网站的主张不应得到支持。

法院认为,市场经济的竞争,特别是在互联网行业的竞争,不应采取“以牙还牙”的方式解决纠纷,而是应当在法律框架内解决问题。此案中,虽然奇虎公司因百度公司设置Robots协议无法抓取百度网站内容,但奇虎公司通过搜索引擎,在网络用户点击原本链接到原告百度公司具体网页的搜索结果时,直接链接至奇虎公司网页快照界面,其行为明显已经超出网页快照的合理范围。故而法院判决认定被告将原告网站的搜索结果直接以网页快照的方式向网络用户提供的行为不当。

法院认为,有鉴于互联网行业,尤其是搜索引擎行业的现状,并考虑到互联网行业内已经建立了互联网协会这一成熟的行业自律组织,以及在行业内已经形成《自律公约》这样专门解决该类纠纷的自律性公约的事实,搜索引擎服务商与网站服务商或所有者关于Robots协议产生纠纷时,应当遵循如下“协商-通知”程序处理:即在搜索引擎服务商认为网站Robots协议设置不合理时,应当先向网站服务商或所有者提出书面修改Robots协议的请求,网站服务商或所有者不同意修改Robots协议的,应当在合理的期限内,书面、明确的提出其拒绝修改的合理理由,如搜索引擎服务商认为网站服务商或所有者提出的合理理由不成立的,双方可以由相关行业协会调解和裁决,紧急情况下可以采取诸如诉讼、申请行为保全等法律措施予以解决。

最终,北京市一中院一审判决认定,被告北京奇虎公司的行为违反了《反不正当竞争法》第二条的规定,应当承担相应的民事责任。被告自其搜索引擎推出伊始至《自律公约》签订之日期间的行为已经构成不正当竞争,应对原告予以赔偿。由于两原告并未指出被告的不当行为给两原告造成了何种商业信誉上的损失,故而两原告要求被告消除影响的诉讼请求缺乏事实和法律依据,法院也不予支持。

据此,法院一审判决奇虎公司赔偿百度公司经济损失及合理支出共计人民币70万元,驳回百度公司的其他诉讼请求。

(3)综合前述国外和国内两个案例,可以发现,不管是国内还是国外的法院对爬虫协议性质存在比较一致的认识,即在版权人角度而言,爬虫协议是网络环境下权利人依据robots协议采取的有效控制访问的技术手段,或者至少肯定了设置恰当的robots.txt可以向搜索引擎蜘蛛程序起到告知(是否允许复制)的作用;从搜索引擎蜘蛛程序角度而言,robots.txt应该得到尊重和遵守,忽略robots.txt的内容而违规抓取网站内容,则可能构成恶意行为。从这个意义来讲,中外法院认定robots协议构成搜索行业的惯例方面是比较一致的。

3.网络搜索行业对爬虫协议法律性质的认定

对爬虫协议的效力,爬虫协议创始人Martijn Koster曾经声明,该协议既不是一个强制性标准,也没有任何强制执行力,虽然现在爬虫协议被世界范围内的绝大多数搜索引擎服务商和互联网网站所公认并广泛执行,但该协议只是技术措施,并没有引入法律规范当中,因此违反该协议而强行提供被拒绝访问的网页的行为似乎只能放在商业道德的范畴来评价。

二、爬虫技术使用的合法性问题认定

基于前文中对爬虫协议法律性质的分析,爬虫协议是大多数网站普遍采取的技术手段,而且得到大多数搜索引擎的遵循,因此是惯行的、被反复实践的事实,不管在司法领域还是在行业领域,其合理性都得到普遍认可。对爬虫协议的尊重,体现了一种有序竞争的商业道德。在目前对爬虫协议、爬虫技术使用缺乏法律规范的环境下,结合前文中的案例及目前的法律实践,可以大致判断出违反爬虫协议、违法数据抓取行为包括三类,第一类是超出协议范围的数据抓取行为:平台与合作方(数据抓取方)签署了正式的合作协议或API协议,平台向合作方提供数据共享接口,但是合作方超出协议范围获取或利用非法技术手段抓取了平台的数据,该数据抓取行为可能构成不正当竞争行为(如北京淘友天下技术有限公司等与北京微梦创科网络技术有限公司的不正当竞争纠纷,(2016)京73民终588号);第二类是违背行业内公认准则的数据抓取行为,网站通过Robots协议可以告诉搜索引擎哪些内容可以抓取,哪些内容不能抓取。在法院已有的案例中,Robots协议被认为是互联网行业普遍遵守的规则,故搜索引擎违反Robots协议抓取网站的内容,可能会被认定为违背公认的商业道德,从而构成不正当竞争(如北京百度网讯科技有限公司与北京奇虎科技有限公司不正当竞争纠纷,(2013)一中民初第2668号);第三类是采用违法手段进行的数据抓取行为,如通过侵入或破坏计算机信息系统进行的数据抓取行为,在不考虑其刑事违法性的条件下,其数据抓取显然构成不正当竞争行为。

综上所述,根据我国的司法现状以及国外的裁判案例,可将爬虫协议视为双方的合意,或是一种有效的技术措施,或是公认的行业规范。故不管从哪个角度分析,恶意超过爬虫协议强行抓取网页或窥探隐私都应收到法律制裁,如前文所述案例,最终法律判决违反不正当竞争法。


(编辑  党玉洁)

以上是关于秦涛:爬虫技术的合法性探讨的主要内容,如果未能解决你的问题,请参考以下文章

爬虫技术的合法性,究竟如何辨别?

爬虫技术合法还是犯罪?

如何界定爬虫技术的合法性?

官方数据网站可以使用爬虫软件吗

案例评析姜金良张丹丹 | 网络爬虫技术使用过界的刑法规制 —— 基于案例的一个视角

程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?