如何界定爬虫技术的合法性?

Posted 消金界

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何界定爬虫技术的合法性?相关的知识,希望对你有一定的参考价值。


如何界定爬虫技术的合法性?


作者 | 庄燕君 刘超

来源 | 合规评论


随着大数据时代的到来,数据已经渗透到生活和工作的各个领域,成为重要的生产因素,“网络爬虫”作为高效获取海量数据的重要方式在促进数据共享和互联网生态繁荣的同时也引发了一系列涉及利益争端、合规运营方面的突出问题。


大数据公司业务开展过程中最有可能涉及的刑法罪名有侵犯公民个人信息罪、非法获取计算机信息系统数据罪、破坏计算机信息系统罪、侵犯商业秘密罪、侵犯著作权罪等。


如何界定爬虫技术的合法性?


 网络爬虫的利与弊 


网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。


通俗来讲,网络爬虫模仿人工访问操作进行信息读取和收集的工作,只是爬虫爬取信息效率更高,数据量更大。


网络爬虫在提升工作效率的同时,也会带来一些负面影响,比如侵占带宽资源,增加网站负荷量甚至会造成网站瘫痪,破坏计算信息系统,侵犯公民个人信息,侵犯商业秘密等。


如何界定爬虫技术的合法性?


 “爬虫”入罪路径选择之一:

 非法获取计算机信息系统数据罪 


非法获取计算机信息系统数据罪是《中华人民共和国刑法修正案(七)》增设的一个罪名,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。从以往的生效判例来看,涉案人员主要是通过木马、病毒等黑客渗透方式非法获取计算机系统数据。


近期,从司法实践来看使用爬虫程序爬取数据的方式亦存在成立此罪的较大风险。


如何界定爬虫技术的合法性?


 网络爬虫的入罪案例:

 绕过网站反爬措施获取公开信息入罪 


(1)基本案情

2018年,北京市海淀区人民法院对一起利用“爬虫技术”侵入计算机系统抓取数据案作出判决,该案被“互联网法律大会”列为全国首例利用“爬虫技术”侵入计算机系统抓取数据案。


据公开的判决信息显示,被告单位CEO、技术负责人等公司主管人员共谋,采用技术手段抓取被害单位北京某网络技术有限公司服务器中存储的视频数据,并破解被害单位的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位损失技术服务费人民币2万元。


经鉴定,“tt_spider”文件中包含通过分类视频列表、相关视频及评论等接口对被害单位服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。


法院经审理后认为,被告单位违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪;公司CEO、技术负责人等作为直接负责的主管人员及其他直接责任人员,分别被法院判处有期徒刑九个月至一年不等的刑罚及人民币三万元至五万元不等的罚金。

(2)释法说理

案件的认定在科技和法律界引起了一定争议,数据爬取行为的法律边界在哪?是否需要对其进行刑法规制?


据公开的信息可知,被告单位的犯罪行为主要是“破解北京某网络技术有限公司的防抓取措施,使用‘tt_spider’文件实施视频数据抓取行为,造成被害单位北京某网络技术有限公司损失技术服务费人民币2万元”,具体表现在“在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制”。主审法官在其撰写的文章中提及,被告单位及被告人在数据抓取过程中,采取了规避或突破被害单位反“爬虫”安防措施的技术手段,未经许可进入被害单位的计算机系统,属于非法获取计算机信息系统数据罪中“侵入”行为,从而构成非法获取计算机信息系统数据罪。

(3)风险评议

计算机信息系统权利人获取数据可能花费了较大成本,数据作为核心资源,其不乐见于他人“不劳而获”。因此,为维护个人利益,网站一般会设置相应的反爬虫的技术保护措施。例如识别User-Agent,运维人员对可疑用户直接拒绝访问;判断同一IP或同一设备在一段时间内访问量异常;通过验证码、滑动解锁的方式,甄别爬虫,封杀IP等。


透过上述判决书认定事实及主审法官的著述,我们理解绕过网站反爬虫措施获取数据属于违背权利人意愿读取、收集数据,将有较大可能被认定为对计算机信息系统的“侵入”,进而以非法获取计算机系统数据罪定罪处罚。

对于“侵入”的理解:在以往判例中,司法机关主要基于以下两种路径判定对计算机信息系统的“侵入”。一是无用户身份的侵入,即通过盗取、破解密码等方式进入系统;二是超权限访问的侵入,即具有合法用户身份,但超越自身授权范围访问信息资源。


本案中,涉案人员所实施的行为与前述两种“侵入”方式有所不同,其可以浏览被害单位网站提供视频,但不被允许使用爬虫技术对视频进行爬取,其实施绕过被害单位反爬虫安防措施的行为被评定为对计算机信息系统的“侵入”。


此外,还存在一种相对折中的观点,即认为爬取数据行为是否能够认定为“侵入”要看网页设置的防护措施是否复杂严密,如果防护措施较为复杂严密,使用技术手段绕过防护机制的行为可以认定为侵入计算机信息系统,侵入后爬取数据就符合非法获取计算机信息系统数据罪。

对于“公开信息”的理解:由于刑法条文及相关司法解释并未明确规定非法获取计算机信息系统数据罪所称的“数据”是否包含公开信息,理论界及司法实务界对此问题存有争议。


有的学者主张对于网页上公开的信息,任何人均可获取,只是权利人对获取方式进行了限制,禁止采取爬虫技术获取。应当理解为网页不排除行为人访问系统,获取信息,只是对访问的方式进行了限定(如对访问频率的限制),要将反爬防护措施与设定访问权限的安全保护措施区别开来,行为人绕开反爬防护措施不宜定性为非法获取计算机信息系统数据罪。


本案中,被害单位APP用户或视频APP用户可以观看被害单位网站上的视频信息,从一般意义上讲,我们可以将此类视频信息理解为公开信息,而判决认定采取绕开安全防护措施的方式爬取此类公开的视频信息构成非法获取计算机信息系统数据罪。


当然,主审法官在其撰写的文章中认为罪名所称的“数据”与“信息”不同,“数据”是信息化存储、处理和传输的客观表现形式,包含信息数据化后的数据和冗余数据,而非数据本身。[2]


信息公开不等同于数据公开。对于大数据公司来说,并不需要去厘清概念背后的区别与联系,只是在业务开展中需要树立风险防范意识,贸然爬取公开可见的信息存有一定刑事风险。


如何界定爬虫技术的合法性?


 网络爬虫的出罪案例:

 采用爬虫获取内部公开数据出罪 


(1)基本案情

犯罪嫌疑人于某系某互联网公司网络工程师,该公司内部使用一款企业即时聊天App作为内部人员沟通交流的办公软件,员工通过其个人账号、密码使用手机登陆后,如有工作需要,可与公司内任一员工即时聊天,并可点击查看公司员工备注的姓名、员工号、手机号码、职位职级以及公司组织架构等信息,App后台会将访问记录予以记录,公司内部制度规定非因工作需要不得随意查看其他员工的数据信息。


2018年2月,于某对该聊天软件的源代码进行反向编译,查找到该聊天工具传送员工信息数据的服务器接口,后编写了专门的爬虫程序,在其使用其账号密码登陆App后,该程序自动运行,向该接口循环发送访问请求,成功从该隐藏接口爬取到6万余名员工的姓名、员工号、手机号码、职位职级以及公司组织架构等信息。


海淀区人民检察院承办检察官认为,于某的行为不构成非法获取计算机信息系统数据罪。[3]

(2)释法说理

本案中,于某对公司聊天即时APP具有访问权限,可以使用点击查看的方式获取APP内数据,而于某通过对聊天软件的源代码进行反向编译,查找到该聊天工具传送员工信息数据的服务器接口,后采取编写爬虫程序方式获取批量数据。其行为从外观上来看,似乎也属违背了权利人的意愿收集数据,但承办检察官认为于某的行为既不符合“侵入+获取”,也不符合“利用其他技术手段+获取”,且其获取的数据属于其职权范围内可以知晓的内容,只是获取数据的表现形式及访问效率与在App内访问有所差别,但无本质不同。于某的行为不构成非法获取计算机信息系统数据罪。

(3)抗辩理由

通过上述不构罪案例,我们理解行为人如果能够主张其并未采取绕开权利人反爬安全措施的技术手段进入计算机系统,且获取的数据未超过权利人明确授权的范围,虽然其获取数据的方式违背了权利人意愿,但构成非法获取计算机信息系统数据罪的风险不高。


需要说明的是,司法人员基于对法律的认识和理解作出的认定并非就是对审理此种类型案件的指导做法,上述几个问题在司法实践中尚存有争议,不同层级、不同地区的法院可能对此问题存有不同认识,当遇到类似案件时还需区别对待,具体问题具体分析。



 大数据公司使用爬虫技术时注意事项 


虽然各界对于“爬虫入刑”问题尚存有争议,但已生效判决对于处理类似问题具有一定的参考价值。大数据公司在日常经营中要尽量避免因为爬虫技术的使用引发类似的争议问题,以免致使公司及其经营者陷入极为被动的境地。


我们也提醒公司在使用爬虫技术时做好以下三点:

(1)尽量避免违背计算机信息系统权利人的意愿爬取数据;

(2)尽量避免给目标服务器带来过大的负荷量,造成损害;

(3)仔细甄别获取数据类型,谨慎处理包含公民个人信息、商业秘密等内容的信息。

此类案件中,除了涉及非法获取计算机信息系统数据罪,还可能涉及到侵犯公民个人信息罪、侵犯商业秘密罪、破坏计算机信息系统罪、侵犯著作权罪等罪名,一般会依照想象竞合原则,择一重处罚。

据了解,此番多家大数据公司遭受调查涉案的多为特殊的数据,即公民个人信息,相应的刑事罪名为"侵犯公民个人信息罪"。关于非法获取、提供公民账号密码、财产状况、行踪轨迹等侵犯公民个人信息的问题,我们将在后续发布的文章中对此作深入分析。



文中观点系作者自身观点,不代表消金界平台观点。



  往期回顾  

算算持牌消费金融的罚息(附图表)

这么有深度的文章,点击在看分享出去!

以上是关于如何界定爬虫技术的合法性?的主要内容,如果未能解决你的问题,请参考以下文章

爬虫技术的合法性,究竟如何辨别?

秦涛:爬虫技术的合法性探讨

爬虫技术合法还是犯罪?

爬虫基础

案例评析姜金良张丹丹 | 网络爬虫技术使用过界的刑法规制 —— 基于案例的一个视角

程序人生 - 一文告诉你,爬虫技术到底违不违法,怎么用才合法?