数据合规之爬虫篇:什么是网络爬虫技术

Posted 理律丨TMT观察

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据合规之爬虫篇:什么是网络爬虫技术相关的知识,希望对你有一定的参考价值。


蒋晓焜  律师助理

jiangxiaokun@tenetlaw.com


从业领域:TMT行业法律服务、私募股权与投资基金、数据合规


数据合规之爬虫篇(一):什么是网络爬虫技术



李金招  合伙人、律师

lijinzhao@tenetlaw.com


从业领域:TMT行业法律服务、私募股权与投资基金、资本市场与金融、并购重组


随着“大数据时代”的来临,数据资源的价值日益凸显,很多互联网公司利用网络爬虫技术获取数据资源,开展商业模式创新。然而,随着网络爬虫技术的普及应用,潜藏其中的法律风险不断爆发。2019年被称为“爬虫入刑”元年,这一年摩羯科技、新颜科技、公信宝、同盾科技等诸多大数据公司因“爬虫业务”被查,公司高管纷纷被警方拘走;大量以爬虫为主营业务的公司倒闭,互联网企业闻“爬虫”色变,噤若寒蝉。


到底什么是网络爬虫技术?网络爬虫技术能不能使用?爬虫协议是否有法律效力?网络爬虫技术和数据安全的法律边界在哪里?使用网络爬虫技术会不会触发不正当竞争?如何做好网络爬虫技术的合规运营?为讨论上述问题,笔者将于近期推出系列文章,旨在回应社会关切,为读者解疑释惑,助力互联网企业合规运营。


本篇为系列文章第一篇什么是网络爬虫技术?


01

爬虫技术的概念和基本原理


网络爬虫技术(Web Crawler),也被称为网络蜘蛛,蜘蛛爬虫(Web Spider),其本质是一段编程程序,通过该段编程程序,可以将某个网站的信息,按照编程指定的规则提取对应的网页数据,并下载到本地形成互联网网页镜像备份。网络爬虫技术最早运用于搜索引擎,百度搜索、谷歌搜索的技术本质都是网络爬虫技术。


网络爬虫技术的基本原理是,首先设定需要爬取的目的,根据目的寻找对应爬虫网站的统一资源定位符(简称为“URL”),访问URL的对应网页并进行页面解析,提取该URL上所有的URL,进行二次访问和二次页面解析;如二次访问的URL网页还存在URL,再次提取所有的URL,并进行三次访问和三次页面解析。如此循环爬取,直至所有的URL队列全部爬取完毕或满足爬取目的为止。详见下图爬虫编程示例:



数据合规之爬虫篇(一):什么是网络爬虫技术

示例:爬取猫眼电影网上top100的电影


虽然网络爬虫技术起先运用于搜索引擎,但随着互联网生态的发展变化,搜索引擎爬虫技术无法满足人民多样化的检索需求,因此聚焦网络爬虫技术(Focused Web Crawler)、增量式网络爬虫技术(Incremental Web Crawler)和深层网络爬虫技术(Deep Web Crawler)应运而生。


聚焦网络爬虫技术(Focused Web Crawler)是在搜索引擎爬虫技术的基础上改进的技术。它主要在搜索引擎爬虫技术的基础上通过增加一段网页分析算法程序,过滤掉冗余无关的网页数据,只留存与爬取目的密切相关的数据,从而提高爬取数据的效率和质量。增量式网络爬虫技术(Incremental Web Crawler)是对已爬取的网页数据定期做增量更新的技术;深层网络爬虫技术(Deep Web Crawler)是能够对隐藏在搜索表单后网络页面进行深度爬取数据的技术。


02

反爬虫技术的使用


网络爬虫技术的广泛应用使得互联网流量剧增,互联网世界盛传“互联网流量中有50%的流量是爬虫流量,而非真实流量”。不可否认,虽然网络爬虫技术有利于减少互联网企业的人工成本,为互联网发展提供了极大的帮助,但海量的爬虫流量占用大量网络带宽,加剧被爬网站的服务器负担,网络爬虫技术甚至会变相对服务器发动Dos攻击。为此,被爬网站纷纷采取反制措施,利用robots协议,网络爬虫检测等手段,反向制止网络爬虫肆意爬取网站数据。


所谓的robots协议,是指网站在根目录下设置编程文本,规定外部爬虫爬取时,网站哪些内容可以爬取,哪些不行。由于外部爬虫访问网站首先需要访问根目录文件,因此外部爬虫都知道网站的robots协议。如果外部爬虫遵守网站的robots协议,此类爬虫被称为善意爬虫(Good Spider),如果外部爬虫不遵守网站的robots协议,此类爬虫被称为恶意爬虫(Bad Spider)。下图为百度robots协议示例:


数据合规之爬虫篇(一):什么是网络爬虫技术


示例:百度robots协议


所谓的网络爬虫检测手段,是指通过检测访问对象的身份是否是智能化的,以判断访客身份。最常见的检测手段主要有:访客访问网站时需要进行加减乘除计算、向右拖动滑块填充拼图、选中指定物品或验证字段等等。例如下图示例:

数据合规之爬虫篇(一):什么是网络爬虫技术

示例1:12306购票前需要选中指定物品

数据合规之爬虫篇(一):什么是网络爬虫技术

示例2:i厦门登陆需要向右拖动滑块填充拼图


03

爬虫技术的法律规定


经笔者检索,规范爬虫技术相关的法律法规主要分为:法律、司法解释、部门规章及行业自律公约。


(一)法律

数据合规之爬虫篇(一):什么是网络爬虫技术

(二)司法解释

数据合规之爬虫篇(一):什么是网络爬虫技术

(三)部门规章

数据合规之爬虫篇(一):什么是网络爬虫技术

(四)自律公约

数据合规之爬虫篇(一):什么是网络爬虫技术


参考文献:

(1)李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67.

(2)于娟、刘强,主题网络爬虫研究综述[J]. 计算机工程与科学,2015(2):231-237.


声明

本微信文章仅为交流之目的,任何仅仅依照本文的全文或者部分内容而作出的作为或者不作为决定及因此造成的后果由行为人自行负责。


数据合规往期文章





















李金招律师于厦门大学获法学硕士学位,现为福建天衡联合律师事务所合伙人,曾参与跨国并购、上市公司敌意收购、企业上市前重组、外商投资、私募基金等多项业务。同时,李金招律师在互联网金融、游戏、电商等TMT产业法律服务方面亦积累相当经验。团队曾经或正在的服务客户包括国贸集团、象屿集团、特房集团、银鹭集团、美图科技、飞鱼科技等大型国企或上市公司。


长按二维码,扫码加管理员进TMT法律观察群

以上是关于数据合规之爬虫篇:什么是网络爬虫技术的主要内容,如果未能解决你的问题,请参考以下文章

对于互联网爬虫技术的企业合规建议

互联网合规 | 利用网络爬虫技术抓取他人数据构成不正当竞争

资源篇你一直想要的网络爬虫技术视频资料

直击!搜索引擎技术之网络爬虫

国际快讯!搜索引擎技术之网络爬虫

爬虫学习 08.Python网络爬虫之图片懒加载技术selenium和PhantomJS