爬虫技术是把双刃剑，关键看你怎么用

Posted 2021-04-30 法里法外

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫技术是把双刃剑，关键看你怎么用相关的知识，希望对你有一定的参考价值。

对于企业而言，这个时代无疑是最好的时代，网络爬虫技术的广泛应用使商家获得了大量可客户数据信息，可以帮助他们预测发展趋势、把握市场动向、精准定位客户需求点，为他们的业务开拓提供了很大的便利。然而，2018年10月20日，一篇《独家|估值175亿的旅游独角兽，是一座僵尸和水军构成的鬼城？》的文章却将爬虫技术推向了舆论的风口浪尖。2019年9月份，大数据风控行业又迎来史上最严的查处，很多公司再次面临生存危机。原因是很多商家利用爬虫技术使用客户信息屡屡踩踏法律红线引起了社会和国家的高度重视。

网络爬虫技术本身中立，关键看商家怎么使用。使用不规范就有可能触犯法律，承担民事或者刑事责任。为了规范商家的使用行为，2019年5月28日国家互联网信息办公室发布的《数据安全管理办法（征求意见稿）》第十六条中首次出现了对网络爬虫规制的法律条文。今天，我们就来结合司法实践中出现的爬虫风波与大家一起聊聊对于企业而言，如何利用网络爬虫技术规范抓取数据、运用数据，避免踩踏法律红线。

一、什么是网络爬虫技术？

网络爬虫技术（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。[1]简单而言，所谓网络爬虫技术，就是通过一套能够实现高效下载的系统，按照企业指定的规则进入网络，从而为企业提取其所需的网页数据，并下载到本地形成互联网网页镜像备份的一套程序。比如，对于电商企业来说，既可以利用该项技术获取网上其他店家的价格、销量，从而通过数据分析系统实现产品的定价策略。也可以利用该项技术获取消费者的信息、购买记录、浏览记录等数据，通过推荐算法从而实现为用户精准推送商品，以此加大商品的销售量，扩大品牌的市场占有率、最终增强企业的竞争力。

二、哪些企业需要利用爬虫技术？

提到爬虫技术的应用，大家最先想到的也许是像google、百度这样的大搜索引擎企业，其实，除了搜索引擎企业会运用爬虫技术整合信息以外，爬虫技术早已遍布于我们解决衣食住行所依靠的各大平台了。在本节，我们就来梳理下“网络爬虫”大显身手的应用领域。

1.社交型平台：首例大数据不正当竞争案的被告方脉脉就是依靠抓取新浪微博的平台数据发家的。不过由于不尊重商业道德而败诉。

2. 聚合信息平台：国民新闻资讯app--今日头条就是利用爬虫技术整合新闻数据，从而实现为用户推送喜欢的新闻。

3. 电商平台：一款可以将各大平台商品价格进行比对的神奇网站--返利网，就是利用爬虫技术收集商品价格等信息。

4. 信息查询平台：企查查就是利用爬虫技术将数量庞大的企业工商信息进行整合从而实现用户快捷搜索企业信息。

三、网络爬虫技术对于企业存在哪些风险点？

在司法实践中，由于企业利用爬虫技术抓取数据的行为进而导致企业涉诉的案例不得不让我们重新审视企业的行为究竟存在哪些风险点。为了更直观的分析网络爬虫技术获取信息的法律风险点，我们将在这一部分讨论三个问题：第一，企业使用该项技术获取信息本身可能存在的法律风险；第二，企业将利用该项技术收集的数据自己使用可能带来的法律风险；第三，企业将利用该项技术获得的数据进行非法传播可能带来的风险点。下面我们将逐一进行分析。

第一，为获取信息，利用爬虫技术非法进入计算机信息系统内部，可能涉嫌非法侵入计算机信息系统罪、破坏计算机信息系统罪、侵犯公民个人信息罪。

根据《刑法》第二百五十三条的规定，如果企业获取公民个人信息后向他人出售，情节特别严重的则构成侵犯公民个人信息罪。

第二，企业使用利用网络爬虫技术获得的信息，可能涉嫌构成不正当竞争行为。

如果企业未经被爬企业许可，擅自进入对方的网络爬取信息且与被爬企业之间存在业务上的竞争关系的，企业利用这些数据对被爬企业的业务产生损害的，则法院会根据《反不正当竞争法》第二条的规定，判定企业具有“扰乱市场竞争秩序，损害其他经营者或者消费者的合法权益的行为”，违背了商业道德，构成不正当竞争行为。

第三，企业将数据非法提供给他人，可能涉嫌侵犯信息网络传播权。

企业通过爬虫技术在网页上爬取受著作权法保护的作品，然后储存在自己的网页上，并在网页上公开传播，则不仅有可能因为存储行为侵犯被爬作品权利人的复制权，更有可能因为供用户能在自己选定的时间和地点观看的提供浏览下载行为构成侵犯信息网络传播权。

四、如何规避风险点，规范抓取行为。

为规避使用爬虫过程中产生相关侵权风险，爬虫控制者使用爬虫时应:

1.为了避免爬取行为构成不正当竞争，企业在利用该项技术爬取他人平台上的信息时需要考虑，自己与被爬企业之间在业务上是否构成竞争关系，即使自身企业的业务范围与被爬企业之间不存在交叉或包含关系，也需要进一步考虑企业对于这些数据的使用会不会造成被爬平台用户分流等损失。

2. 为了避免对个人信息的爬取行为构成侵犯公民个人信息罪，企业在爬取数据时需要应当遵循合法、正当、必要的原则。其次应该在用户注册或登录网站时明示收集、使用信息的目的、方式和范围，避免使用“允许读取、收集个人信息等”模糊不清的语句。在收集信息后更要按照协议约定使用这些信息。

3.为了规范企业平台之间的数据共享行为，企业与企业之间应当遵守双方签订的合作协议以及行业自治规范条约。如《互联网搜索引擎服务自律公约》将机器人协议（robots协议）作为约束行业爬取行为的规范[2]。

随着数字经济的发展，大数据也越来越收到人们的重视。爬虫技术的技术出现，解决了企业在数据获得、数据使用、数据传播方面的难题。然而，很多技术都是一把双刃剑，用的好可以帮助企业快速发展，用不好就可能葬送企业前程。希望广大企业能规范使用爬虫技术，重视数据合规问题，使爬虫技术成为企业发展的一味催化剂，帮助企业快速发展！

[1]百度百科：https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin

以上是关于爬虫技术是把双刃剑，关键看你怎么用的主要内容，如果未能解决你的问题，请参考以下文章

做科研的也要学爬虫技术吗？

如何防止网站被爬虫爬取的几种办法

java代码如何在百度输入关键字查询，再提取搜索结果呢？

怎么利用爬虫技术抓取淘宝搜索页面的产品信息

程序人生 - 一文告诉你，爬虫技术到底违不违法，怎么用才合法？