爬虫技术中性 “窃取”大数据有罪
Posted 大数据分析和应用
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫技术中性 “窃取”大数据有罪相关的知识,希望对你有一定的参考价值。
今年以来,大数据风控行业颇不平静,9月份以来,杭州的魔蝎科技和公信宝运营公司、杭州存信数据科技有限公司(以下简称“杭州存信”)以及贷款超市头部机构“信用管家”先后被杭州警方调查。
此外,还有多家大数据风控公司人士“协助调查”,涉及同盾科技等多家机构。一时风声鹤唳,大数据行业的从业者人人自危。多家大数据公司表态暂停爬虫业务。
笔者多方了解到,上述公司受调查均是与爬虫业务有关。
对此,同盾科技相关人士22日称,数聚魔盒产品是信川的产品之一,因为该服务对适用条件与场景有严格的授权要求与限制,为了更加严格的保护用户合法权益,避免个人信息被误用,同盾已经从去年开始逐步调整业务,目前已全部停止相关服务。除此之外,同盾的高管并没有接受警方调查,同时,同盾主营业务也没受到影响,没有相关调整。
爬虫“鼻祖”被查
10月21日上午,51信用卡位于杭州西湖区紫霞街80号西溪谷国际商务中心的办公地点遭遇杭州警方突击调查。引来业内一片哗然。
而51信用卡正是行业内最早开展爬虫的公司之一,这让不少业内人士猜测此次被警方调查即是利用爬虫技术非法获取用户个人信息,而这是近期公安部严厉打击的范畴。
51信用卡堪称业内爬虫行业的鼻祖,此次杭州被调查的数据公司魔蝎科技创始人周江翔是51信用卡的前高管。魔蝎科技是业内知名的大数据服务公司,合作机构范围较广,牵涉业内大量金融机构。
但杭州公安10月21日深夜发布的最新通报显示,51信用卡被调查的原因是其委托的外包催收机构涉嫌非法催收,涉嫌寻衅滋事等犯罪行为。
就在51在杭州被大批警察包围突击调查的同一天,10月21日,最高人民法院、最高人民检察院、公安部、司法部联合发布《关于办理非法放贷刑事案件若干问题的意见》。《意见》将打击目标锁定社会危害性最为突出的非法高利放贷,明确在定罪量刑时以单次实际年利率超过36%的非法放贷为基准。规定即日生效施行。
“刀怎么用才是问题”
所谓网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序与技术。如果通过爬虫抓取网络公开信息,并不违法;但如果抓取的是未公开、未授权的个人敏感信息,就属于违法行为,违反的是2017年6月1日实施的《网络安全法》以及“两高”相关司法解释。
爬虫技术的数据主要分为司法信息、电商信息、银行卡信息、运营商信息、社交信息、开放数据等几大类。在这些数据维度中,比较受欢迎的都是覆盖度高、标准化较强的通用类数据,比如身份验证、逾期黑名单信息等,一般是通过爬取淘宝、社交网络、网上银行等获取数据。
2017年6月1日,《网络安全法》正式施行,其中第四十一条规定,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意;第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。
一家杭州的大数据风控公司相关负责人对21世纪经济报道记者表示,“目前观测到的市场的一些动向和监管的尺度,更多是在于爬虫技术的非法使用。不注重个人隐私保护,泄露信息,甚至贩卖信息给涉黑暴力催收。所以卖刀没问题,刀怎么用才是问题。”
他认为,经过整肃之后存活的数据公司数量会大幅减少,同时对于数据使用的规范要求会更严格,这会让绝大部分的金融科技公司都或多或少受到冲击,因为大数据是整个金融科技行业的基础设施。
判断爬虫行为合法性, robot协议不可或缺
在最近的态势下,大数据行业如今面临强监管。
一位从业人员对此表示,公民个人信息是绝对不敢爬了,那么网上的公开非敏感个人信息能否收集,怎样的爬虫行为是合法的?
对此,中国银行法学研究会理事肖飒10月22日对21世纪经济报道记者表示,判断爬虫行为是否具有合法性,robot协议不可或缺。存在已有25年的robot协议是互联网搜索引擎与网页持有者之间达成的“行业规范”,该协议会告知网站的“访问权限”,如果设置了robot协议,大数据公司还要突破访问权限,那么就具有明显的主观恶性。
互联网行业里谷歌、百度、搜狗、ebay等,均设有该协议,这几乎是每一个互联网人都知道的常识,如果公司不想被爬取信息,只需要很轻松地安放robot协议表明不愿意被爬取和收录就可以了。
“也就是说,如果没有robot,应该就可以理解为可以合法爬取的公开信息。”肖飒称。
但是近期的案例有明显从严的趋势。以某直辖市某区判决一场刑事官司为例,被告人张某、宋某、侯某共谋用技术手段(爬虫)在某网站抓取视频,放入自己所在公司网站上,造成被害公司人民币2万元的经济损失。2017年9月提起公诉,后三人被判非法获取计算机信息系统数据罪,各自领刑。
以上是关于爬虫技术中性 “窃取”大数据有罪的主要内容,如果未能解决你的问题,请参考以下文章