解密游走于法律边缘的爬虫技术
Posted 中国新闻周刊
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了解密游走于法律边缘的爬虫技术相关的知识,希望对你有一定的参考价值。
一场席卷大数据风控行业的风暴仍在继续
2018年4月至5月,广东警方开展“净网安网”专案收网行动,共打掉团伙40余个,缴获非法买卖的公民个人信息1.2亿余条。摄影/本刊记者 陈骥旻
游走于法律边缘的爬虫业务
本刊记者/赵一苇
发于2019.10.21总第920期《中国新闻周刊》
一场席卷大数据风控行业的风暴仍在继续。
从9月下旬开始,多个业内闭门交流会紧急召开,每个会场都摆出严防死守的架势。“参会者中不乏近期被查或有关联的大数据公司高管。”一位接近会议的业内人士向《中国新闻周刊》透露,这些闭门会严格保密参会名单,拒绝外部报名,会场门口都会严格逐一核验参会者身份,尤其严禁媒体进入,“大家都是来讨论以后怎么办,能不能活下去都是个问题。”
这是一场针对大数据服务商的强监管风暴。自9月初起,多家杭州、上海的大数据风控公司被调查,业内知名的集奥聚合、新颜科技、公信宝等多家公司的核心高管被警方带走调查,连一些与这类数据公司有过交易经历的公司高管也被警方带走协助调查,其中包括中国电信旗下征信机构天翼征信的多位核心高管。但在消息传出后,天翼征信和新颜科技方面仍向《中国新闻周刊》表示,“公司业务一切正常。”
业内已风声鹤唳,尤其以惯用网络爬虫技术爬取并违规使用数据的公司最为恐慌。
所谓网络爬虫,即一种按照一定规则,自动抓取互联网信息的程序。在大数据风控行业中,以网络爬虫获取信息数据的做法盛行,而违规使用、买卖爬虫得来的数据则是导致数据泄露、隐私泄露等一系列问题的根源。
“爬虫技术本身是中性的,关键在于是否合规使用爬虫数据。”中关村大数据联盟副秘书长陈新河在接受《中国新闻周刊》采访时表示,如果通过爬虫抓取网络公开信息或授权信息,并不违规;但如果抓取的是未公开、未授权的个人敏感信息,且违规留存、使用、买卖这些隐私数据,就属于违规行为。
“真正合规的公司数据来源都是有官方授权的,能获得这类授权的公司少之又少。”一位长期与大数据公司打交道的甲方公司高管告诉《中国新闻周刊》,大数据风控行业门槛低,业内鱼龙混杂,且监管难度大,“行业混沌,监管层只能先一刀切”。
大数据公司被查的蝴蝶效应迅速传导至信贷市场。最近一个月里,多家中小银行和金融机构纷纷收紧信贷产品审批,多家网贷公司和贷款超市平台大面积下架借贷产品。
“许多中小银行和金融机构的风控模型对第三方数据有较大依赖性,自身风控体系不完善,依赖的外部数据被切断,风控势必会受到影响。”一家与持牌金融机构有多年合作经验的第三方风控公司高管告诉《中国新闻周刊》。
很快,监管层表明了督促银行加强自主风控的态度。10月12日,北京银保监局印发《关于规范银行与金融科技公司合作类业务及互联网保险业务的通知》,要求规范辖内银行与金融科技公司合作类业务及互联网保险业务,促进银行保险机构加强风险管控和合规管理,明确强调要严格落实自主风控原则。
“监管层对数据公司的整顿酝酿已久,但完备的数据安全法还暂时不会出台。”一位接近监管层的人士向《中国新闻周刊》透露,“如何界定个人数据的法律性质,仍然是一个需要探讨的问题。”
暂停爬虫业务
这一轮强监管从深圳、杭州、上海等地开始,已经迅速席卷了整个大数据风控行业。整顿力度之大,令业内和相关合作方人人自危。
“现在行业内基本暂停了爬虫业务,很多之前做爬虫的也都在清理数据库,就怕被查。”一位大数据金融业内人士告诉《中国新闻周刊》,不仅是互联网金融公司,连与大数据公司只有过零星合作的招聘公司、风控公司最近也纷纷切断了合作,“数据公司被查,相关行业都会受到波及。”
在大数据行业中盛行的爬虫技术,主要分为公开爬虫和授权爬虫两类。前者只能爬取机构或网站公开发布的信息数据,如工商信息等;而后者则需要取得用户的个人授权,以爬取个人通讯录、邮箱、网银、电商平台等个人隐私数据。
根据全国信息安全标准化技术委员会于今年6月发布的《个人信息安全规范》征求意见稿,个人信息控制者在收集个人敏感信息前,应征得个人信息主体的明示同意,并应确保个人信息主体的明示同意是其在完全知情的基础上自主给出的、具体的、清晰明确的意愿表示。
“所有数据授权都需要明显明确地告知消费者,授权获取数据是关键。”深圳中兴飞贷金融科技公司副总裁孟庆丰在接受《中国新闻周刊》采访时表示,“不可否认的是,数据行业内确实存在许多不合规的做法,尤其是未经授权的爬取数据。”
“这次事件之前,正常情况下,即使是已获得用户授权的爬虫,在爬取数据并合规使用后,数据就消失了。”中关村大数据联盟副秘书长陈新河向《中国新闻周刊》举了个例子,“譬如你申请A银行的一项贷款产品,就需要授权A银行去查询获取你的社保、公积金、航班出行等数据,银行可能通过一个中间数据服务商去授权爬虫,爬虫得到的信息提供给A银行,在双方约定的规则上,这些数据的使用就到此为止,不得留存或卖给第三方”。这次事件之后,以北京银保监局2019年10月12日公布的《关于规范银行与金融科技公司合作类业务及互联网保险业务的通知》为代表,其明确规定“严禁与以‘大数据’为名窃取、滥用、非法买卖或泄露客户信息的企业开展合作。”中间服务商的合规评估、认证需要时间,为降低风险,A银行将多采用“断代购直”,采用直连数据源的模式,中间数据服务商的模式将大大受到限制。
值得注意的是,正是一些大数据服务商获取了未经授权的数据或授权后擅自留存的数据,才滋生出游走于灰色地带的数据生意。
有互联网金融公司人士向《中国新闻周刊》提供的一份数据服务商报价单显示,常规数据服务一般分为身份验证类、联系人验证类、位置验证类、基础属性标签类等,既有身份证号、手机号、姓名等信息,也含有近三个月联系人活跃度排名、通讯录名单、常用位置信息等隐私数据。所有服务均按次收费,单次有效查询的价格在0.38元~0.98元不等。“在数据行业,每条信息都是明码标价,如果包年还有额外折扣。
业内人士介绍,许多数据公司既提供信息查询服务,宣称“毫秒级响应”,也支持数据输出打包买卖。除了通讯类个人信息数据,在互联网金融公司日常接触的各数据公司报价单中,关于个人社保、公积金、司法信息、网银支付宝账号密码、淘宝京东等电商平台交易记录、社交平台信息等重要隐私数据,也赫然在列。
“许多数据公司对数据来源避而不谈,只强调数据本身的价值。”上述互联网金融公司人士向《中国新闻周刊》表示,“很难说他们是通过什么渠道获取这些数据的,也很难去验证数据来源。”
2017年6月1日开始施行的《网络安全法》中已明确规定,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意;网络运营者不得收集与其提供的服务无关的个人信息;未经被收集者同意,不得向他人提供个人信息。
同时,《个人信息安全规范》中也明确提出,个人信息控制者在共享、转让个人敏感信息前,应向个人信息主体告知涉及的个人敏感信息类型、数据接收方的身份和数据安全能力,并事先征得个人信息主体的明示同意。
“未经授权的爬取、使用、贩卖数据相当于偷窃。”深圳中兴飞贷金融科技公司副总裁孟庆丰向《中国新闻周刊》直言,“一些数据公司既没有获得授权,又擅自利用爬虫技术去违规采取外部数据,这就是不被允许、不合规的。”
“爬虫技术好比是一把刀,刀本身没有错,关键看用刀的人是谁,用刀的目的是什么,不能因为一个罪犯用菜刀杀了人,便判定所有菜刀都是杀人工具而被全部禁止使用。”陈新河在一个涵盖目前主流金融科技公司的362人“01数据爬虫危机讨论群”抛出这个观点得到大家的一致认可。陈新河对《中国新闻周刊》强调,“这次所谓的“爬虫危机”,罪名就有问题,爬虫与危机没有直接的逻辑关系,真正的问题不在于爬虫技术,而在于数据的合规获取和合规使用。”
在10月12日举行的2019中国普惠金融国际论坛上,Visa大中华区首席风险官杨景香提出:“数据即是问题也是解决方案。不需要存储的数据一定不要存储,敏感数据一定不要存储。”
大数据风控之兴
回溯大数据风控行业的兴起路径,不难发现其与互联网金融的爆发关系密切,两个行业的发展也亦步亦趋。
自2013年起,各种消费金融机构、互联网贷款平台迅速兴起,依靠互联网大数据的风控与获客体系,迅速成为消费金融市场的主力军,同时倒逼传统银行加快互联网转型。在抢夺市场的战争中,金融机构纷纷加快脚步,线上获客与风控的需求暴增。
“中小型银行和各类金融机构、网贷公司都是大数据风控的需求方。”一位资深城商行高管告诉《中国新闻周刊》,大银行一般拥有坚实的数据基础和较强的数据下沉能力,而对于基础和能力都较薄弱的中小银行和网贷公司来说,第三方数据服务则可以作为提升风控能力、提高信贷效率的重要帮手,“有的机构会从第三方购买数据来完善自己的风控模型,有的小机构会直接购买第三方的数据模型或评估结果。”
需求刺激之下,大数据风控行业应运而生。根据亿欧智库2018年11月发布的《2018中国智能风控研究报告》(下称《报告》)显示,截至当时,金融风控企业已经达到573家,其中超过六成企业成立于2014~2016年。
行业的迅速崛起离不开风投的助推。根据上述《报告》数据,在当时的573家金融风控企业中,有192家企业获得投资,投资金额超过1000亿元,其中三成企业获得三次及以上的投资。
野蛮生长的浪潮中,依靠爬虫技术违规爬取和使用数据的公司迅速壮大,凭借丰富的数据来源和极低的操作成本,跻身行业前列,市场份额甚至大大超过合规数据公司。
“真正合规的公司数据来源都是有官方授权的,有严格的官方指定,本身数量占比小,市场份额也占比小。”一位长期与大数据公司打交道的甲方公司高管向《中国新闻周刊》透露,“那些做非授权数据的公司,一般成本和价格都较低,但核心数据一旦出问题就非常麻烦。”
鉴于大数据风控公司良莠不齐的现状,金融机构与大数据公司实际业务合作往往采用“一对多”的模式,以期获得尽可能丰富的数据源,尽可能加强大数据风控的可靠性。
“大部分合作的金融机构都会同时和十几家第三方数据风控公司有业务往来,会购买多家公司的数据产品来交叉验证,以求更有保障的风控。”一位互联网金融公司人士向《中国新闻周刊》表示,“越大的金融机构愿意购买更多数据源来完善自己的风控模型,有些自身就不规范的小型网贷公司甚至只会直接买评估结果。”
“有实力的金融机构会强调大数据的全流程应用,贯穿获客、风控、反欺诈、催收等多个环节。”苏宁金融研究院院长助理薛洪言在接受《中国新闻周刊》采访时谈到,对大机构而言,有些环节是需要买一些原始的数据来完善已有的模型,补齐用户画像,起到辅助风控作用;但对小公司而言,奉行“拿来主义”的成本更低,更倾向于直接采用第三方的解决方案,比如黑名单、智能营销策略等。
随着监管层对大数据行业的监管收紧,既无官方授权,也无完善用户授权的大数据公司面临生存危机,这类大数据公司大多已开始尝试转型。
有业内人士向《中国新闻周刊》透露,目前业内以未授权爬虫的数据源为主要业务的公司基本已经停摆,都在尽可能地做合规业务。相关合作方也都在清查合作数据公司的数据源合规性,对于数据源授权语焉不详的都会主动切断联系。
“能获取的数据源变少后,公司的风控模型一定会变。”深圳中兴飞贷金融科技公司副总裁孟庆丰告诉《中国新闻周刊》,“任何一个风控模型都是基于一定的数据源而建立,且需要一定时间来进行完善和验证效果,数据源的更改尤其是变少,会显著影响模型的精准度。”
苏宁金融研究院院长助理薛洪言认为,这一轮对大数据公司的整顿无疑是一次行业洗牌。“不合规公司的客户必然流失,实力不足的公司也会因数据源的减少引起模型预期准确率的下降,同样面临客户流失的困境。”
“强监管的效果一直持续到明年,大数据行业一定会有一次彻底的洗牌,该退场的不合规公司都会退场。”孟庆丰直言,“随着监管层对数据安全的持续发力,以后数据行业内能活下来的必定只有获取了官方授权的合规公司。”
银行堵漏洞
10月上旬,多位业内人士向《中国新闻周刊》确认,最近央行已将《个人金融信息(数据)保护试行办法(初稿)》下发到各家银行,目前正在征求意见中。根据今年4月发布的《中国人民银行2019年规章制定工作计划》,该《办法》是中国金融领域落实《网络安全法》确立的网络信息安全和网络运行安全两大制度的最高位阶部门规章。
10月12日,北京银保监局印发《关于规范银行与金融科技公司合作类业务及互联网保险业务的通知》(以下简称《规范通知》),明确提出银行需要加强合作机构管理,严禁与以“大数据”为名窃取、滥用、非法买卖或泄露客户信息的企业开展合作。
实际上,自9月初开始的大数据公司被查风波后,已有多家中小银行主动切断了与涉嫌不合规的大数据公司的合作,但随之而来的是银行信贷审批的收紧。
“现在中小银行和金融机构都不太敢去买第三方的数据产品了,开始强调用自己的风控部门获取用户授权后爬,业务规模和审批效率都受到了很大影响。”一家与持牌金融机构有多年合作经验的第三方风控公司高管告诉《中国新闻周刊》。
“不可否认,这几年城商行、农商行的迅速发展,离不开线上大数据公司的帮助。”前述高管表示,“许多中小银行和金融机构的风控模型对第三方数据有较大依赖性,自身风控体系不完善,依赖的外部数据被切断,风控势必会受到影响”。
值得明确的是,一些大数据风控公司的确对中小银行完善风控体系起到了一定积极作用。以最近被调查的知名数据公司同盾科技为例,其官网上展示的客户案例仅有一则与渤海银行的合作,称为渤海银行量身定制了覆盖业务全流程的风控体系,其信用评分模型的KS值达到40%,比行业平均水平提升10%。
在10月11日召开的中国普惠金融国际论坛上,方付通董事长兼CEO孙宏宇提出,大数据不决定一切。在缺乏线上数据的时候,可以通过线下数据补充,再结合线上的科技手段验证,从而提高中小银行客户数据的完整度。
“值得肯定的是,近年来大数据公司对金融机构提高风控能力、提升效率确实起到了积极作用。”浙江泰隆银行首席经济学家郑勇军在接受《中国新闻周刊》采访时表示,大数据等金融科技广泛应用于小微金融、普惠金融领域,有助于解决小微客户信用数据不完整的问题,“对于中小金融机构而言,大数据的应用多体现在风控环节”。
郑勇军认为,大数据的应用一般可贯穿金融机构贷前、贷中、贷后三个环节。其中,贷前环节包括审核、反欺诈、征信等信息验证,贷中环节可以起到辅助信用评分、风险定价、加快审批等作用,贷后环节可以起到监控资金去向、管理存量客户等效果。
“需要注意的是,如今主流的风控模式仍然需要线上加线下共同组成,不能完全单纯依靠线上的大数据风控模型。”郑勇军强调,“在现阶段,线下审查仍然具有必要性。”
在方付通董事长兼CEO孙宏宇看来,在很长一段时间内,线上、线下相结合仍然是主流风控模式。“所谓纯大数据风控,中国可能还需要时间,可能得百行征信再丰满以后才能实现。”
对此,监管层的态度与业界一致。北京银保监局印发的《规范通知》中也明确提出,银行要严格落实自主风控原则,不得将贷款“三查”、风险控制等核心业务环节外包给合作机构,不得仅根据合作机构提供的数据或信用评分直接作出授信决策。
个人金融信息隐忧
早在这一轮大数据行业清洗前,监管层在2017年5月、2018年11月,已针对电信诈骗、爬虫导致的个人信息泄露有过两轮整治。其间,《网络安全法》在2016年11月公布,并于2017年6月1日正式实施,并查处了多个非法获取数据的案例。
2017年,曾号称“数据第一股”的北京数据堂被警方调查,也成了大数据爬虫公司中第一个入刑案例。这家在2014年就挂牌新三板的科技公司,经查涉嫌利用网络爬虫技术违规获取、倒卖个人信息数据,在8个月时间内日均传输公民个人信息1.3亿多条,其中包括重要隐私数据。2018年8月,山东省费县人民法院一审判处数据堂首席运营官柴银辉、营销产品部副总裁胡晓敏有期徒刑三年。
中关村大数据联盟副秘书长陈新河向《中国新闻周刊》直言,在监管进一步收紧前,国内游走于灰色地带的数据买卖体量不可小觑,“最常见的有买房后被装修公司营销、买车后被保险公司营销等。随着大数据的覆盖越来越广、应用场景越来越多,数据合规使用和个人数据隐私保护更加迫在眉睫。
今年以来,关于加强个人金融信息立法保护的监管信号密集释放,有关部门正在抓紧推进数据保护方面的规章制度、标准等的制定工作。
截至10月,国家互联网信息办公室已经会同各行业主管部门研究起草了《数据安全管理办法(征求意见稿)》《网络安全审查办法(征求意见稿)》《个人信息出境安全评估办法(征求意见稿)》《儿童个人信息网络保护规定(征求意见稿)》《App违法违规收集使用个人信息行为认定方法(征求意见稿)》,并面向社会公开征求意见。此外,工业和信息化部也会同有关部门起草了规范性文件《网络安全漏洞管理规定(征求意见稿)》,正在向社会公开征求意见。
值得一提的是,央行于10月下发到各银行的《个人金融信息(数据)保护试行办法(初稿)》(以下简称《办法》)正是近几年业界一直呼吁出台的统一的个人信息保护法规。
早在4月发布的《中国人民银行2019年规章制定工作计划》中,就已经包括制定该《办法》。6月14日,央行副行长朱鹤新也表示,要研究推动个人金融信息保护立法,明确各方的权益义务,使个人金融信息保护取得实效。
“监管并不意味着要取缔或禁止大数据行业,让行业规范化发展才是监管的本意。”苏宁金融研究院院长助理薛洪言向《中国新闻周刊》表示,金融行业离不开数据的支持,数据可以作为一种资产去促进金融科技的发展,促进金融业的转型,促进金融业更好地服务实体经济、普惠金融的发展,“不能偏激地理解成要为了数据保护牺牲金融科技,监管的真正意义在于规范发展”。
在监管层面之外,个人金融知识教育则是数据保护的基石。亚洲开发银行研究院(ADBI)研究经济学家黄必红提议,可以借鉴日本的经验,从学生、工作人口、老年人口三个角度分别推进金融知识教育。“近年来,金融科技发展非常迅速,也代表着未来的产业发展方向。除了传统金融知识的教育,金融科技知识教育也应该纳入国民教育体系,包括一些新的金融产品,新的金融科技风险的防范。如果受到欺诈,消费者知道通过什么样的渠道保护自己。”
“从过往经验看,数据灰色交易其实已存在三十多年甚至更长的时间,只是在我们步入大数据时代后,问题会被进一步放大。”中关村大数据联盟副秘书长陈新河对《中国新闻周刊》说,“目前大数据行业存在的问题仍属于发展中的问题,行业整体仍在向积极的方向前进,应该保持信心。”
值班编辑:罗晓兰
推荐阅读
▼
以上是关于解密游走于法律边缘的爬虫技术的主要内容,如果未能解决你的问题,请参考以下文章
5000张高清壁纸大图(手机用),用Python在法律的边缘又试探了一把