让数字说话之二:网络爬虫技术

Posted 内控之道

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了让数字说话之二:网络爬虫技术相关的知识,希望对你有一定的参考价值。

       在内部审计领域,网络爬虫大有可为。这是因为,随着互联网技术的发展和数据爆炸,网络爬虫技术为银行数据采集和信息整合应用提供了全新的技术路径。     

      随着互联网的发展,网络资源有大量信息的载体,如何更好更有效地提取并利用它,爬虫技术起到关键作用。爬虫技术在信息定位方面也比较准确,可以根据客户的搜索需求爬取最合适的数据推送出去。而且现在大数据处理方面,爬虫技术可以对爬取的数据进行分析从而得出比较准确的数据。法院淘宝拍卖信息、房产交易信息、商铺租赁数据、各类电商平台上的商品交易信息、工商注册信息、司法执行信息等等,爬取后,可以作为交叉核验的参考。

       

让数字说话之二:网络爬虫技术

    下面简单介绍下什么叫网络爬虫:

       网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是是一种“自动化浏览网络”的程序,按照一定的规则,模拟人工点击,自动地抓取互联网信息,自动地抓取互联网信息,比如网页、文档、图片、音频、视频等。简单来说,这种程序的运行可以实现自动的、高效的读取、收集网络数据等。   

     

让数字说话之二:网络爬虫技术

     对银行而言,网络爬虫技术不仅可以为信贷相关数据的核验提供方便,更可以在网络舆情监测、竞争对手分析、行业垂直搜索、风险控制等诸多领域进行深度应用,助力银行转型成为了解自身、了解客户、了解竞争对手、了解经营环境的“智慧银行”。  

      我主要介绍下在审计部门的运用:

      审计数据分析时,仅依赖自有数据进行分析是不够的,而在现场审计实施时,外部数据获取也比较困难,以对公客户信贷信息真实性审查工作为例,企业信息主要来自于客户自己报送,以及行内累计交易历史。内部审计部门在材料真实性审查中,经常面临着企业客户的财务信息、非财务信息搜索整合困难,真实性难以判定,尤其是中小微企业的财务信息更是难以核实,难以识别,甚至对客户资料信息造假、客户经理粉饰客户信息等一系列问题也难以找到相应的佐证材料。这时,就要借助外部的应用系统了。

       

让数字说话之二:网络爬虫技术

  

        爬虫技术,作为大数据前端的数据采集技术,可以很好地解决这一系列问题。利用网络爬虫技术,配合图像识别、语音识别、语义理解等大数据技术,可以实现外部海量高价值数据收集,包括人民银行征信系统、招标网、政务服务网、银监客户风险监测预警系统、失信被执行人信息系统等,此外,还可以用企业官网数据、社交数据、GPS定位数据等等。

       如在法院执行网上查询企业的失信曝光信息,筛选已失信曝光企业名称,通过与期末贷款的匹配,除了可以分析比较期末贷款五级分类是否准确,还可以掌握企业的偿债能力、纳税情况等,进而分析判断企业的经营状况,以及是否符合贷款条件等。

        又如,2010年,我被抽调去核查某行的“虚假汽车按揭贷款”案件时,我们还用过GPS定位的数据,这数据看似与信贷风险不直接相关,但我们确实是通过位置来判断申贷用户是否真实存在,运营车辆是否与按揭贷款的借款主体一致。

        可见,在具体审计时,通过对客户外部动态数据的获取,可以对客户进行全面视角的分析核验,有效拓展和改善内部审计的审计范围、时效性、前瞻性。  

       大家知道,如果逐笔登录人民银行企业征信系统、人民银行个人征信系统、国家企业信用信息公示系统等多个外部系统,以及相关行内系统,逐一查询并下载客户信息进行交叉比对验证,日常单笔办理时,那问题不是很大,如果审计时,面对海量数据,那就相当耗费时间及精力,是很难完成现场审计任务的。

         如果利用爬虫技术来收集政府网站、企业官网、社交媒体网站等渠道中跟企业相关的信息,形成了外部数据集市,集中进行匹配分析,那内部审计的效率可以成倍提高。

        完成外部数据采集的基础上,通过对内、外部多来源数据的智能化重组和核验,一是可以切实解决信息不对称的难题;二是可以利用这些数据执行关联分析,交叉验证,发现异常数据;三是通过上述数据,可以形成客户关联关系、资金交易、真实资信情况等数据表,实现“识别单业务条线风险”向“全面识别关联风险”转变。

       举个最简单的例子,工商数据是允许我们查的,但一笔笔查,确实费时费力。如何利用工商的数据,筛选已吊、注销企业,在行内有贷款的数据,进而发现并揭示向已注销企业发放的贷款仍列为正常的数据,并形成现场核对表,进行核实。

    SQL语句(简略:省略了部分核心语句,隐藏了部分表名):
       1、提取该行贷款客户的工商信息,以此筛选已吊、注销企业在行内的贷款明细数据。
select * from 贷款明细2018 where 客户名称 in (select 客户名称 from 企业营业状态 where 营业状态 like '注销' or 营业状态 like '吊销') and (五级形态 like '%关注%' or 五级形态 like '%正常%')
2.提取该行贷款客户的工商信息,以此筛选企业注册时间180天内的贷款明细数据。
select a.* from 贷款明细2018 a,企业营业状态 b where a.客户名称=b.客户名称 and datediff(day,b.注册日期,a.贷款发放日期)<=180)

        略

        ……

       

       总结: 爬虫技术为内部审计部门带来了丰富的外部数据。对内部审计发现异常数据、关联数据等功不可没。当然,如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。这个是必须要注意的。此外,根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,窃取或者以其他方法非法获取公民个人信息的,均可构成成“侵犯公民个人信息罪”,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。


       重点提示:做好数据采集的前提是合法合规。

     中关村大数据联盟副秘书长陈新河在接受《中国新闻周刊》采访时表示,“爬虫技术本身是中性的,关键在于是否合规使用爬虫数据”,如果通过爬虫抓取网络公开信息或授权信息,并不违规;但如果抓取的是未公开、未授权的个人敏感信息,且违规留存、使用、买卖这些隐私数据,就属于违规行为。为了审计工作,我们违法违规的事可不能做的。

      

              

        

       

        

以上是关于让数字说话之二:网络爬虫技术的主要内容,如果未能解决你的问题,请参考以下文章

4.Python爬虫入门之二之爬虫基础了解

零基础快速入门Python网络爬虫技术@今晚云技术社区千聊分享

网络爬虫之网页排重:语义指纹

Python爬虫入门之二HTTP/HTTPS请求与响应

Tomcat和搜索引擎网络爬虫的攻防

什么是网络爬虫技术?