经验分享自然语言技术的内部审计风险预警框架构建与应用

Posted 风控在线

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了经验分享自然语言技术的内部审计风险预警框架构建与应用相关的知识,希望对你有一定的参考价值。

【经验分享】自然语言技术的内部审计风险预警框架构建与应用

风控摘要:本文是中国内部审计协会2018年优秀论文一等奖的文章,作者系南京银行股份有限公司审计部的李猛、朱迎际、庄轶。文章原文包含较多的图表。因为推文篇幅受限,故对原文内容进行了删减。


全文约:7864字

阅读时长:28分钟

自然语言技术的内部审计风险预警框架构建与应用

——以NJ银行授信业务为例


南京银行股份有限公司审计部

李猛 朱迎际 庄轶


摘要:本文结合内部审计工作实践,以基于自然语言处理技术的授信业务非结构化数据智能挖掘为应用,构建了一种基于自然语言处理技术的内部审计风险预警(NAR)框架,为内部审计人员多维度进行非现场监控内部审计发现分析提供有益参考。本框架以NJ银行授信业务中的非结构化数据(审批意见或调查报告等)为数据来源,应用自然语言技术进行解析与核验,输出授信业务风险记录,经非现场监控内部审计核实后,进一步进行风险预警。


关键词:自然语言处理 内部审计 非结构化数据 风险预警 授信业务


引言


风险审计是现代内部审计的重大使命,而风险预警是其重要的一重境界。风险预警基于企业盈利的稳定性要求,在风险与价值间进行平衡判断,并以风险与盈利的平衡点为基础,对直接影响企业盈利稳定性的重大或重要风险做出审计预警,在实践上具有重要意义。这种情境下的内部审计风险预警实际上是一种大数据智能审计预警,它需要在风险防范的基础上,科学把握企业的稳定盈利能力,并据此提出风险预警的审计意见 。作为公司治理目标实现的重要基石之一,做好授信等资产的风险分析与预警研究是内部审计职责所在。


本文所述的基于自然语言处理技术的风险预警机制运用了人工智能的自然语言处理技术,将非结构化数据纳入内部审计分析范围,具体对应到商业银行的风险管理工作中,具体运用场景为授信业务的全流程风险控制,致力于克服传统方法的若干局限性。一是检查不能全覆盖。授信客户众多,然而落实审批意见等贷后管理检查中每笔评级、授信、授信调整和用信等环节是否合法合规只能依靠人工抽查,不能做到贷后管理检查全覆盖。二是解析与核验不够智能化。授信业务系统中存在大量的审批意见、扫描件图片等非结构化数据,但是对这些非结构化数据的解析与核验方面需要人工处理,效率低下,费工费时,缺乏运用自然语言处理等新技术的智能化应用。


本文通过构建基于自然语言技术的内部审计风险预警(NAR)框架,N即Natural language processing technology(自然语言处理技术),A即internal Audit(内部审计),R即Risk warning(风险预警),以金融行业授信业务非结构化数据分析为具体运用场景,尝试阐明自然语言处理技术在克服传统技术局限、优化审计技术、扩大审计范围和提高审计效率上的先进之处。重点关注商业银行审计风险预警机制的构建,即风险预警机制的微观层面模型方法选择。


框架构建


随着我国市场经济的不断发展,商业银行中的授信业务已经成为主要的资产业务,授信业务的发展是商业银行发展的重要基础,也是商业银行利益增长的重要途径。而其中的授信风险管理和控制就成为了重要的问题,如果授信风险管理和控制不到位很可能影响到商业银行自身的发展,甚至会威胁到市场经济的稳定。在我国商业银行授信风险管理的过程中存在的问题有不良贷款率较高、授信风险管理内部控制机制不健全等。所以说,新常态下加强对商业银行的授信风险管理和控制非常重要,对我国商业银行发展乃至经济金融的稳定都具有重要意义,而商业银行也可以利用对授信风险的合理控制,实现商业银行的利益的增长,从而提高其在市场经济中的核心竞争力。


当前,国内外尚无将自然语言处理技术成功用于授信业务内部审计风险预警、落实授信业务规定、防范授信业务风险的框架,因此本文构建了基于自然语言处理技术的内部审计风险预警(NAR)框架,如图1所示。本文所提出的商业银行风险预警框架,目的是借助内部审计部门构建的自然语言处理项目,以评估商业银行授信业务相关风险水平,输出商业银行授信业务风险预警信息,明确授信风险来源,提供风险处理非现场监控意见,从而达到降低甚至清除风险状态,或者应对风险、降低风险损失的目标。

 

【经验分享】自然语言技术的内部审计风险预警框架构建与应用


图1  基于自然语言处理技术的内部审计风险预警框架


本框架以授信业务中的审批意见或调查报告为数据,应用自然语言技术解析与核验后,输出授信业务风险记录,进一步进行风险预警。本框架主要处理步骤如下:


1.资料准备。通过跑批脚本从商业银行大数据平台批量自动提取来源于授信业务系统中各环节(评级、授信、授信调整、用信、放款等环节)的非结构化数据(审批意见、调查报告等)和结构化数据等资料,实现数据的每日自动更新。


2.数据要素解析。数据资料准备完成后,由计算机系统自动运用自然语言技术智能解析授信业务各环节的非结构化数据(审批意见、调查报告等)中的业务要素和关注点,作为步骤3要素核验的要素数据来源。


3.要素核验。由计算机系统自动将授信业务各环节的非结构化数据(审批意见、调查报告等)解析出的要素与授信业务各环节内授信业务结构化数据核验,某一环节的解析出的要素与后续环节解析出的要素或授信业务结构化数据核验,并基于相似度或概率算法判定授信业务各环节中的各要素是否存在不一致的情况,形成授信业务疑似风险线索清单。


4.数据输出。将步骤2数据要素解析中形成的非结构化数据(审批意见、调查报告等)要素解析结果、要素核验步骤中形成的要素核验结果等输出数据形成关系数据库可存储的二维化关系表,每日自动传送至操作型数据存储(Operational Data Store),并可在商业银行审计系统中查看分析,作为审计模型编写人员编制非现场核查审计模型的数据基础。


5.非现场内部审计核实。采用初核-下发核实-复核的作业流程,把步骤4数据输出中形成的授信业务疑似风险清单,经总部内部审计人员初次复核后,通过商业银行审计系统的非现场监控模块下发给各分支机构,由各分支机构内部审计人员专人进行核实是否属实,并由总部内部审计人员进行再次复核。


6.风险预警。在非现场内部审计核实中已查证属实的风险记录,通过非现场监控报告定期通报,并作进一步处理,作为今后现场审计发现问题的重要线索,充分发挥内部审计三道防线的作用。


框架解析算法与流程


基于自然语言处理技术的内部审计风险预警(NAR)框架主要通过自然语言处理技术中的语义分析算法来实现解析授信业务系统非结构化数据的业务要素。


(一)自然语言处理解析算法


为了对非结构化数据进行有效地处理,需要对其进行统一的描述。在技术层面,采用自然语言处理技术中的语义分析算法来处理非结构化数据中的文本信息较为合适,引入中文核心语义库,划分出积极、中性、消极三个不同词性的词库,然后解析句子结构并根据文字倾向性进行拆分,进而对整篇文档进行语境解析,生成自动摘要,并抽取关键信息;然后将多份相同类型文档进行横向比较,从而挖掘出信息间的关联关系,最后对海量信息进行挖掘,解析出关注热点,发掘潜在价值。非结构化数据主要挖掘流程如下:

1.词语。语别与词汇的意义。

2.句子。解析句子结构,解析文字倾向性。

3.篇章。解析篇章语境,自动进行摘要,抽取关键信息。

4.多文档。事件发现与跟踪,解析信息关联性。

5.海量信息。解析热点,价值发现。


语义分析是指在分解辨析句子的语法构成和词义之上,推演出可以反映该语句含义的形式化表达,从而让计算机解析出人类自然语言,并进行深层次的知识获取,抽取出句子背后的语义信息,其处理流程如图2所示。即对于待处理的文本数据,通过语义分析技术解析出其中包含的语义信息,并建立索引;而对于使用者的查询数据,采用相同的方法以备查询时所用。通过计算关键字和语义片段的相似度,将各个语义的相似程度进行融合,最终得到查询语句的相似度,从数据源中找出对应文本信息。

 

【经验分享】自然语言技术的内部审计风险预警框架构建与应用

图2  语义分析处理流程


语义分析技术目前已广泛运用于语义检索和查询结果优化的研究中,审计底稿中绝大部分的材料是非结构化的文字描述构成,有很多底稿还包含审计人员主观评价的观点和看法,因此可以通过语义分析技术挖掘出文本中的主客观性、观点、审批意见等,对其情感倾向做出判断。


(二)解析算法实现流程


自然语言处理解析算法实现语义信息提取的全流程,主要环节包括:语法处理、语句过滤、主干提取、句型解析、修饰词提取和信息生成。


1.语法处理。在传统自然语言处理算法的基础上,引入了深度学习领域中先进的算法,主要做法是对文本中的语句进行切分词语、标注词性,并确定词性间的语法关系,如主谓、动宾、定中等关系。


2.语句过滤。由于后一阶段的需要,对于语法处理中某些无意义的信息或者获取不到正常语义信息的句子,本阶段会将其过滤。


3.主干提取。通过分析主干句子的词性来明确语句所属的句型,如在语句中出现状中关系和定中关系时,即可以去掉其中表示状语和定语的词。


4.句型解析。根据提取的句子主干成分,分析词性来明确该句子的句型,如某一语句结构为“代词-动词-名词”时,即可明确该语句符合陈述句的句型。


5.修饰词获取。在最终确定语义信息之前,需要分析语句中的修饰词,抽取其中修饰性词语包含的信息,如定语、补语等。


6.信息生成。根据上一阶段的处理结果,提取出语义片段,通过结构化信息的形式表现出来。


框架应用——以NJ银行授信业务为例


NJ银行授信业务流程中产生了大量非结构化文本数据,比如各类审批意见和调查报告等,而现有的非现场监控模型是由人工基于结构化二维数据进行构建,缺少对审批意见等数据的分析应用。本文提出的基于自然语言处理技术的内部审计风险预警(NAR)框架的目的是结合实践经验,运用自然语言处理技术对此类非结构化文本信息进行解析和挖掘,将文本中的关键信息数据化,与传统结构化数据结合分析,做出具有前瞻性、实用性的成果。利用大数据和人工智能与银行业务相结合的应用,提高非现场审计中风险预警工作效率和业务洞察力。


本次项目需运用自然语言处理技术对客户评级环节的审批意见、授信环节的审批意见和调查报告、授信环节额度或利率历次调整(要素调整,个别的业务会有)的会签意见和调查报告、用信环节的审批意见和调查报告进行解析,从而进一步落实审批意见。


(一)业务需求


1.授信审批意见和调查报告语义解析


解析NJ银行授信业务流程,自动批量采集并展现NJ银行尚未结清的所有授信业务每个环节的审批意见和调查报告等。


运用自然语言处理技术解析在客户评级环节的审批意见、授信环节的审批意见和调查报告、授信环节额度或利率历次调整(要素调整,极个别的业务会有)的会签意见和调查报告,用信环节的审批意见和调查报告,解析出业务要素等关注点(如:业务品种、申请金额等),详见表1。

2.语义解析后对比和核验


利用丰富的语料库,结合深度学习平台,从NJ银行存量及新增审批意见和调查报告中解析出重点关注点,进一步结构化,提供与授信业务中的业务要素进行对比、核验的依据,对比与核验的要素主要包括但不限于业务品种、额度等,具体详见表1。


【经验分享】自然语言技术的内部审计风险预警框架构建与应用


对比与核验主要包括三部分:一是用信环节是否突破授信环节(如有授信额度的要素调整环节,以调整后的为准)的限制。二是用信环节解析出的要素与信贷系统中记录的实际发生的放款环节结构化数据进行对比和核验。三是客户评级环节、授信环节、授信要素调整环节、用信环节等环节内解析出的业务要素等关注点与各自环节内信贷系统存在的结构化数据进行对比和核验。


将上述解析出的业务要素等关注点,形成结构化数据传送至操作型数据存储,辅助完成对审批意见和调查报告落实情况的检查,进一步拓展应用范围。通过整合NJ银行内外部数据,构建支撑各类应用的语义实体库,提供智能、灵活的交互式图谱分析解决方案。在解析过程中帮助NJ银行授信业务语料库(业务要素等关注点)的智能积累,实现系统深度学习,不断调优,推动授信风险管理的智能化。


(二)系统实现


基于自然语言处理技术的内部审计风险预警(NAR)框架所开发的应用系统采用B/S架构(即Browser/Server,浏览器/服务器),兼容性强。软件方面采用主流语言和数据库Java,Hadoop,ArangoDB,mysql,Elastic Search等,硬件方面采用3台数据库服务器,1台Web服务器,1台自然语言解析与核验服务器。系统每日从操作型数据存储中提取数据,经自然语言处理要素解析与核验后,形成授信业务风险记录输出,详细系统架构如图3所示。


【经验分享】自然语言技术的内部审计风险预警框架构建与应用

图3  NJ银行授信业务自然语言处理应用系统架构图


系统解析与核验在浏览器中展示,界面如图4(略)所示。


(三)应用成效


NJ银行运用基于自然语言处理技术,每日处理公司客户约10000户,未结清授信业务约50000笔,在授信环节内核验方面发现风险记录约300条,在授信调整环节内核验方面发现风险记录约50条,在用信环节内核验方面发现风险记录约3500条,用信环节是否突存授信环节核验方面发现风险记录约830条,放款环节与用信环节核验方面发现风险记录约3600条,可见授信业务用信环节是内部审计需重点关注的方向,是贷后管理的重要参考。


本文采用简单随机抽样方法,共抽取5类业务要素,合计314笔业务,其中担保人业务244笔,利率业务30笔,币种业务4笔,手续费业务3笔,支付方式业务33笔。其中经核验112笔业务与实际情况一致,其中担保人业务91笔,利率业务11笔,手续费业务1笔,支付方式业务9笔。进一步经初步排查65等业务为疑似不合规操作,其中担保人业务45笔,利率业务10笔,手续费业务1笔,支付方式业务9笔。


通过智能审计系统分发给各分行进行非现场审计核实查证,经内部审计人员比对授信业务系统中的审批意见与执行信息,核实确认两者不一致的16条风险记录,充分发挥了运用自然语言处理技术进行内部审计风险预警的效果,包括三类问题:一是系统内用信审批意见填写有误,主要是部分分行填写部分授信业务用信审批意见时,部分利率、担保人等关键信息填写错误,共发生5条风险记录。二是系统内执行信息登记不完整,主要是少数经营机构线下签订部分授信业务的担保合同,未将相应担保信息登记在授信业务系统中,总行相关部门对该情况也没有提出相关的管理要求,共发生8条风险记录。三是系统内未登记线下审批意见。目前,本行项目型专项额度授信要素变更不能在线上审批,相应审批意见未登记在系统内审批流程中,共发生3条风险记录。


图5  NJ银行授信业务风险记录分类


下一步工作和研究方向


通过应用本文提出的基于自然语言处理技术的内部审计风险预警(NAR)框架,突破了传统手段效率低、对内部审计人员能力依赖性强的局限,取得明显效果,不仅可以用于授信业务,还可以进一步用于其它类型业务,初步打造了基于自然语言处理技术的审计利器,然而尚存在一定的不足之处,在以下方面还有待改进:


一是解析内容丰富化。目前此项目做到了对信贷系统各环节非结构化审批意见数据的解析,但尚未做到对各环节非结构化审批调查报告等数据的解析。因报告存在格式复杂多样,存在表格图片等非结构化内容,对其解析还存在一定的困难。


二是自然语言解析精度有待提高。因信贷审批意见撰写不严谨,如错别字、公司名称简称等,加之汉语语言文字的博大精深,现有的解析算法还需要利用人工智能、大数据等前沿技术作进一步研究,从而进一步提高解析精度。


三是风险预警智能化。目前此项目只能对授信业务系统中已存在的非结构化审批意见数据进行解析与核验,进而通过非现场内部审计核实做出风险预警,即可以对已存在不合规风险点进行预警,尚不能对可能发生的风险做出预警,需通过人工智能等技术进一步研究探讨。


参考文献:


1.李生.自然语言处理的研究与发展[J].燕山大学学报.2013(5):377-384


2.林奕欧,雷航,李晓瑜,等.自然语言处理中的深度学习:方法及应用[J].电子科技大学学报.2017(6):913-919


3.微软亚洲研究院

[EB/OL].2017-03-06.https://www.zhihu.com/question/19895141/answer/149475410


4.生丽英.企业风险的内部审计预警机制研究——基于大数据与ANN模型的应用[J].中国内部审计.2017(09):12-18


5.鲁爱民,盂志青.审计预警系统的构建研究[J].会计之友.2012(29):91-98


6.包商银行股份有限公司审计部.连续实时的常态化非现场审计预警监测体系[J].中国内部审计.2017(12):44-47


7.武慕汐,冯淑霞.关于构建政府审计预警机制的思考[J].经济师.2017(8):160-161


8.谭红艳.试析金融审计预警体系构建[J].财经界.2015(15):319-319


9.中国建设银行审计部.数据兴审促转型 风险前瞻添助力——基于非现场技术的对公客户信贷风险分析与预警方法体系[J].中国内部审计.2017(1):49-53


10.侯景波,王李.银行集团信贷业务的内部审计探讨——以民生银行集团内部审计为例[J].中国内部审计.2015(6):74-76


11.中国农业银行审计局成都分局课题组.关于商业银行信贷业务审计抽样问题的研究[J].农村金融研究.2013(4):45-48


12.甘肃银行股份有限公司.构建群组化模型开展信贷类业务审计[J].中国内部审计.2017(11):60-64


13.李烨,徐润,陈媛.基于内部审计视角的农商行信贷风险管理研究[J].中国市场.2013(33):138-139


14.Russell S J,Norvig P.Artificial Intelligence:A Modern Approach[M].POSTS&TELECOM PRESS,2002


15.PF Brown,VJD Pietra,SAD Pietra,RL Mercer.The mathematics of statistical machine translation:parameter estimation[J].Computational Linguistics,1993,19(2):263-311


16.Su P H,Gasic M,Mrkšić N,et al.On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems[C].Meeting of the Association for Computational Linguistics.2016:2431-2441


17.Bill Manaris.Natural language processing:A human-computer interaction perspective[J].Advances in Computers.1998,47(8):1-66


18.SC Chen,MY Huang.Constructing credit auditing and control & management model with data mining technique[J].Expert Systems with Applications,2011,38(5):5359-5365



文章来源网络,除我们确实无法确认作者外,我们都会注明作者和来源。如果您认为我们有问题,请告知我们,我们会立即修改或删除。谢谢!

以上是关于经验分享自然语言技术的内部审计风险预警框架构建与应用的主要内容,如果未能解决你的问题,请参考以下文章

AI人工智能识别技术如何助力构建风险监测预警系统?

智能风控决策引擎系统架构设计与开发实践

案例分享 | 氪信科技基于 TensorFlow 的营销风险识别方案

智能财务风险预警方法—支持向量机

R语言survival包的coxph函数构建cox回归模型ggrisk包的ggrisk函数可视化Cox回归的风险评分图基于业务经验指定经验cutoff值(基于LIRI基因数据集)

技术分享| 快对讲综合调度系统