爬虫玩得好，牢饭吃到饱？这3条底线千万不能碰！

Posted 2022-07-11 大数据v

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫玩得好，牢饭吃到饱？这3条底线千万不能碰！相关的知识，希望对你有一定的参考价值。

导读：合法合规、谨慎小心地应用爬虫技术。

作者：郭斌刘思聪於志文

来源：大数据DT（ID：hzdashuju）

数据爬取技术一向是数据公司获取数据的高效途径之一，但严格意义上爬取行为本身并不是完全合法合规的，按我国目前的法律法规及司法判例，爬虫技术可能会触犯以下几个维度的法律要求（仅列出相对重点的法律维度）。

01 反不正当竞争法维度

在未征得被爬取方授权的情况下，爬取数据的行为可能会违反Robots协议。Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。2012年11月1日，十二家企业共同发起了《互联网搜索引擎服务自律公约》，公约要求各签约方遵守Robots协议。

在司法实践中，即使爬取方不属于上述12家公司的范围内，Robots协议也已经被认定为互联网行业搜索领域内公认的商业道德：北京市第一中级人民法院在某互联网安全公司不正当竞争案件中，将行业内公认的Robots协议认定为互联网行业搜索领域公认的商业道德。

法院在判决中指出：

在被告推出搜索引擎伊始，其网站亦刊载了Robots协议的内容和设置方法，说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则，应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。

因此，爬取方违反Robots协议的行为可能会被认定为违反《反不正当竞争法》第2条，即违反诚实信用原则以及商业道德。

虽然网络上公开的信息较难构成商业秘密，但由于网络上的某些信息可以通过采取技术措施使得仅有特定的用户可以接触，因此网络上的信息仍有可能具备商业秘密要求的秘密性和保密性，构成商业秘密的可能。

如果爬虫控制者在抓取信息的过程中有意地规避了网站经营者设置的保护措施，接触、保存甚至披露了一般用户原本无法访问的信息，而该等信息又构成商业秘密，则爬虫控制者的该等行为存在侵犯他人商业秘密的可能，进而可能会违反《反不正当竞争法》第9条。

同时，因为爬虫会对被爬取方的网络系统等造成妨碍，所以此类行为可能会违反《反不正当竞争法》第12条。

02 著作权维度

无论是网络上的文章、图片、用户评论，还是网站自身的数据库，都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用有可能会构成对著作权的侵犯，特别是复制权和网络信息传播权。因为抓取数据的行为本质上是对数据的复制，因此该等行为有可能侵犯著作权人的复制权。

同时就数据提取和使用行为而言，如果爬虫控制者抓取信息后，在自己的网站上公开传播抓取到的信息，则还有可能进一步侵犯信息网络传播权。

例如，马某某等诉某网络科技公司著作权侵权纠纷案。

案情事实

被告某网络科技公司利用类似搜索引擎的计算机爬虫技术进行法语词条的收集与翻译释文的搜索，未支付相应报酬而大量使用原告享有著作权的《当代法汉科技词典》中的内容，马某某将该网络科技公司以侵犯著作权为由诉至法院。

判决结果

根据法律规定，除合理使用外，使用他人作品应当经著作权人同意，并支付相应报酬。被告称其通过爬虫技术收集了词汇词条及中文释义，该技术是被告收集并形成其网络词典词库的一种手段，而非在使用《法语助手》时，通过搜索链接直接指向其他目标网站，被告应该对其收集并使用的词汇及中文释义合法性负有较高的审核注意义务。

因此，被告制作的法语翻译软件内容，部分抄袭原告《当代法汉科技词典》的释义内容，侵犯了原告等人的著作权，应依法承担停止侵害、赔礼道歉、赔偿损失的民事责任。

03 《刑法》及《网络安全法》维度

从技术角度分析，爬虫可能会导致目标网站负荷过大，进而引起网站无法访问甚至瘫痪等不良后果，爬取方可能会违反《网络安全法》中关于网络运行安全方面的规定。但如果你还涉及侵入的情况，就可能会触犯《刑法》第285、286条的规定。

例如在某案例中，王某利用远程登录的方法，通过一个攻击指令侵入目标公司的计算机信息系统，将系统中公司员工的邮箱、通讯录导出来，再修改相应的密码，从而可以随意进入员工的邮箱，最后被判处非法获取计算机信息系统数据罪。

从爬取的内容角度分析，如果爬取的内容是个人信息，那么可能违反《网络安全法》关于收集个人信息合规性的要求，甚至可能触犯《刑法》中的侵犯公民个人信息罪。

小结

综上，数据爬取行为不但容易引起监管部门的重点关注，也易受到来自竞争对手的诉讼，建议企业在进行数据爬取行为时注意以下要点内容。

尽量避免爬取构成直接竞争关系的企业的平台数据，避免竞争对手依据《反不正当竞争法》提起诉讼的风险。
尽量爬取明确公开的数据，遵守Robots协议等网站明确公开的协议，避免爬取平台禁止爬取的数据。
根据《数据安全管理办法（征求意见稿）》第16条的要求，数据爬取收集流量不得超过网站日均流量的三分之一，避免造成目标网站崩溃、无法正常运营等情况。
对于目标网站已经明确采取技术手段阻止爬虫访问的，公司不应侵入、破坏其防护措施。
如目标网站明确发出停止数据爬取的相关通知说明，则应暂停数据爬取行为，及时采取对策。

本文摘编自《数据合规：入门、实战与进阶》（ISBN：978-7-111-70536-9），经出版方授权发布。

延伸阅读《数据合规：入门、实战与进阶》

点击上图了解及购买

转载请联系微信：DoctorData

推荐语：多年一线治理经验的系统总结！跟随主人公不断成长，快速掌握多元场景中的实务处理方案！企业数据合规治理的实用工作手册！数据合规专业人士成长晋阶的秘笈！

关于作者：孟洁，现任北京市环球律师事务所合伙人，主要执业领域为网络安全、个人信息与隐私保护。曾在多家知名企业担任法务负责人和数据保护官，任IAPP中国区知识社区主席，被钱伯斯、The Legal 500、LEGALBAND等知名法律评级机构评为 “TMT领域领军人物”“数据保护领域领军人物”“Fintech领域头部律师”等，被北京市律协评为全国千名涉外专家律师。

薛颖，长期在互联网集团担任数据合规与知识产权总监。在外企、世界五百强公司等从事过多年数据隐私合规工作，拥有丰富的互联网场景一线经验。持有CIPP/E、CIPP/U认证，当选ALB中国知识产权法务15强并带领团队获得过《商法》年度“数据合规”优秀团队等奖项。

朱玲凤，现任知名互联网公司隐私及数据合规专家，曾任小米安全与隐私委员会隐私副主席。多年从事数据隐私合规研究和实务工作，深入参与国内信息安全相关标准拟定和重要法律研讨等，在全球隐私法律研究、隐私保护设计、隐私安全技术应用与管理以及App、物联网、人工智能等领域有丰富的实践经验。