审计思考 | 大数据分析技术在内部审计循环中的应用

Posted 数据化审计

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了审计思考 | 大数据分析技术在内部审计循环中的应用相关的知识,希望对你有一定的参考价值。

点击蓝字关注  ↑↑↑
数据化审计:问题导向、应用至上、解决痛点

原文刊发于《新会计》(2011.3)。现在看,一些概念升级换代了,比如现在一般不说数据挖掘了,而是讲大数据、机器学习、人工智能,但应用的思路和逻辑路径其实没有太大的变化,文章仍有一定的参考意义。文章改成现在的标题看上去也毫不违和。对内审人而言,数据化审计探索应用之路依旧任重道远。

[摘要] 数据挖掘技术就是要从数据中挖掘出靠直觉或经验不能发现的信息或知识的过程。在商业银行业务电子化、虚拟化,数据海量化的背景下,在商业银行内部审计计划、准备、实施和报告等阶段应用数据挖掘技术,可促进审计资源的优化和降低审计风险;数据挖掘技术应用于内部审计主要通过聚类分析、决策分类、关联规则、孤立点检测等方法判断总体风险、精准抽样和发现问题。

背景

1.审计面临瓶颈

近年来,商业银行内部审计部门大力推行数据审计技术,极大地提高了现场审计效率,发现和揭示了很多重大问题或风险隐患。随着数据审计技术应用的深入,商业银行内部审计人员感觉可发现的审计线索少了,问题越来越隐蔽。而现有的查询式数据分析技术更易于发现个案的存在,对审计对象整体的风险情况缺乏全面的把握。在审计报告阶段,由于评价指标主观化、权重选择经验化,对审计对象的评价有失偏颇。

2.数据挖掘技术的研究和应用

商业银行内部审计部门面临的问题,一方面是由于商业银行业务处理高度电子化、控制隐形化、数据集中化海量化、产品衍生化,审计环境发生重大变化;另一方面,目前应用的工具和审计程序多是利用审计人员的经验和计算机查询技术相结合的方法进行处理,但是审计人员的经验和知识是“有限的”,随着业务流程、产品和技术的创新,审计人员的经验和业务技能进入“尾随”状态,审计模型相对于数据滞后,审计经验无法运用,面对海量数据无从下手。

商业银行内部审计面临的这些问题,业务经营和管理部门在信息化过程中也曾经遇到过。从数据挖掘发展的历程看,这些问题都随着数据挖掘技术的研究和应用逐步得到了解决。

数据挖掘(Data Mining,DM)的目标就是在海量的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息并且加以分析,进而获得有意义的信息为管理和决策提供依据。

本文通过数据挖掘技术在内部审计循环中各个环节的应用,对目前商业银行内部审计面临的一些问题的应对之道进行探索。

数据挖掘技术概述

数据挖掘一个比较公认的定义是:

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘和当前商业银行内部审计中利用SQL语句、ACL软件、IDEA软件等进行数据分析的方法是截然不同的。

SQL语句、ACL软件、IDEA软件在进行数据分析时,也涉及使用复杂的算法和数据结构,但它们主要还是依赖传统的数据库技术、审计经验和电子数据的明显特征来创建索引结构,从而有效地组织和检索信息,提取有效的数据。

而数据挖掘技术则是从数据库中提取隐含的、未知的和潜在的有用信息,帮助审计人员进行数据分析,对审计对象的总体风险进行评价,在实质性测试中发现异常信息。

数据挖掘技术在商业银行内部审计过程中的应用

商业银行内部审计过程一般包括计划、准备、实施和报告四个阶段。在不同的审计阶段,由于具体审计目标不同,选择的数据挖掘模型或算法也不同。

1.审计计划阶段

审计计划阶段就是审计部门对辖区内哪些分行、部门进行审计监督的统筹安排阶段。需要根据审计对象的内外部情况,建立评估模型,分析审计对象的的总体情况和风险分布,并确定审计事项。

在此阶段,一般选用聚类分析、回归分析来对审计对象进行预测和分类,降低评价者主观因素对模型评估结果的影响。

如商业银行在制定审计总体方案和规划时,基于风险导向审计,建立CLAST模型对各分行进行风险评估,根据内部控制的中得分,选择审计的目标对象。

得分公式为:CLAST 模型公式

内部控制总得分=Σ 单位业务内部控制最终得分i × 业务权数i(注:业务权数按照该业务对被稽核单位总资产或总负债的影响程度以及形成的风险承担水平确定i- 第几项业务)。

实施该模型时,对业务权数的选择依赖于审计人员的经验,并没有考虑到权数指标所有相关信息量,权数的设置缺乏科学性,隐含模型风险,需要对CLAST模型进行进一步修正。

由于不同分行的内外部情况不同,分行可以按照不同聚合成几个类,同一类别中分行总体情况和风险分布类似,不同类别间的分行总体情况和风险分布差别较大,对权重的影响也不同。

对CLAST模型进行修正,首先需要对分行进行聚类分析,计算权数调整因子fi,对不同的类设置不同的权数调整因子。对n家分行选择p个不同的属性作为聚类依据,如所在地经济总量、新增投资或项目、分行客户数、新增贷款数据、不良指标、授信从业人员数量等,生成一个数据矩阵:

再对分行在属性上的亲疏程度按照距离进行分类,可采用在聚类分析中应用最广的欧式距离法,其表达式如下:

审计思考 | 大数据分析技术在内部审计循环中的应用

其中Xik表示第i个分行的第k个指标的观测值,Xjk表示第j个分行的第k个指标的观测值,dij为第i个分行与第j个分行之间的欧氏距离。dij越小,第i与j两个分行之间的总体情况就越接近,总体情况接近的分行就可以划为一类。

最后将分行分成K类,类N按照内部控制状况由到差排序,一般情况下内部控制状况好的分行权数低,内部控制状况差的分行权数高,内控权数调整因子fi的计算如下:

审计思考 | 大数据分析技术在内部审计循环中的应用

修正后的CLAST模型公式3:

内部控制总得分=Σ 单项业务内部控制最终得分i ×业务权数i × N × 1 (注:K- 聚类生成的分类个数,N-分类序号,N 在1 和K 之间)。

2.审计准备阶段

审计准备阶段最重要的工作就是编制审计方案,审计方案应当围绕审计目标,根据重要性原则,确定审计的范围、重点。

在商业银行内部审计实务中,确定审计的范围和重点的重要方法是审计抽样。通过采用适当的抽样方法,内部审计人员在内部审计活动中,可从被审查和评价的审计总体中抽取一定数量有代表性的样本进行测试,以样本审查结果推断总体特征并作出相应结论。

从审计的质量控制角度看,通过审计抽样发现的审计证据对审计风险也将产生相同的结论。传统的审计抽样方法或者是非概率抽样,或者侧重于从单个维度进行度量,如果审计对象提供的数据的代表性比较差,即便是审计经验丰富的内部审计人员在使用传统审计抽样方法的情况下,也很难降低抽取样本的数量,导致样本规模太大,审计抽样也就失去了意义。

在实务中,可以将数据挖掘技术引入审计抽样算法中,利用数据挖掘技术改进审计抽样算法,增加审计抽样算法的实用性和效率性。比如通过聚类分析,找出特征数据,缩小抽取样本的数量;利用关联规则分析,判断被审计单位重点业务间的关联情况,帮助审计人员确定审计重点。

比如,审计人员拟对某分行的银行卡业务循环进行检查,银行卡是商业银行私金业务主要的交易载体,与银行卡相关的业务有很多,可以通过数据挖掘的关联规则分析,找到银行卡业务模块之间存在的潜在规则,选择关系最紧密的相关业务模块作为审计重点。

使用SQL语句从该行的交易数据库中抽取一段时间内所有以银行卡为载体的交易(银行卡业务主交易类型代码为20),数据挖掘的目的是分析同一个客户在使用银行卡上的潜在规律,只需要客户号(cust)、交易类别(type)和交易笔数(total)字段。

由于关联规则分析是基于发生频数的挖掘,与交易发生的笔数无关,共有n个客户和k种交易类型参与分析,需要将查询结果做如下转换:

审计思考 | 大数据分析技术在内部审计循环中的应用

使用RapidMiner软件,选择FP一Growth算法进行数据挖掘,挖掘的结果可视化展现如下图:

审计思考 | 大数据分析技术在内部审计循环中的应用

从结果可以看出47类、15类交易与20类交易存在关系:

即在所有包含银行卡20类主交易的交易记录中,至少有97.5%的客户会同时进行47类交易、92.1%的客户会同时进行15类交易。在对银行卡业务进行检查时,除了20类主业务,47类业务和15类业务也应作为扩展和延伸检查的重点。

3.审计实施阶段

审计实施阶段是将审计工作方案付诸实施、取得审计证据的阶段,是审计全过程的最主要阶段。内部审计人员在被审计对象现场采取实质性测试、面谈等方式,审查与审计事项有关的文件、资料、数据。

商业银行内部审计人员面对复杂的业务组合、海量的数据、高度集中的系统,如何从审计重点中分析和识别出可疑交易,并在有效控制审计风险的基础上实现审计目标是一个亟待解决的问题。从金融领域类似情况如反洗钱的成功经验看,可通过数据挖掘技术中的孤立点检测、Benford定律应用等发现审计线索,进行实质性测试和检查。

如,对某行的特约商户交易流水数据分析发现,特约商户的交易金额基本符合Benford定律的适用条件,不同商户的交易金额在与Benford定律的相关程度上存在差异,越是存在问题的商户相关度越低。可以利用Benford定律对商户交易金额进行数据挖掘,筛选非法商户。

Benford定律含义是:以1为第一位数的随机数要比以2为第一位数的随机数出现的概率要大,而以2为第一位数的随机数要比以3为第一位数的随机数出现的概率要大,依此类推。

对所有的特约商户交易流水,按照商户分组,利用SQL实现Benford定律的实际值计算,将明显偏离理论值的交易分布批量筛选出来,异常交易对应的商户就是重点检查的对象。作筛选后,可对这些商户进行现场检查,发现部分特约商户存在提供信用卡养卡、套现服务的非法业务。参见。

4.审计报告阶段

审计报告阶段审计人员除了对审计证据和工作底稿进行分析、归纳和总结,撰写审计报告,督促问题的整改落实外,一项重要的工作就是对现场检查的思路和方法进行总结,建立同类问题的检查模型,并应用于同类型的审计对象。

数据挖掘中的一些技术应用了机器学习的思想,即以实例为基础,模拟或实现人类的学习行为,获取新的知识或技能。

比较常用的决策树方法就是一种以实例为基础的归纳学习方法,它着眼于从一组无次序、无规则的实例中推出决策树表示形式的分类规则。它采用自顶向下的递归方式在决策树的内部结点进行属性的比较,并根据不同属性值判断从该结点向下的分枝,在决策树的叶结点得到结论。

在商业银行内部审计中,利用有问题的个人消费贷款数据,应用决策树方法进行挖掘,按照贷款客户的重要属性,生成分类规则,作为对同类问题检查的指引。从个人消费贷款的数据中选取年龄、所在地区、收入、婚姻状况、住房情况、是否违约等重要属性,使用RapidMiner软件进行决策树挖掘,生成客户贷款违约路径规则。

通过对历史数据的挖掘,可以很直观地显示客户因年龄(age)、所在地区(zip code)、收入(earnings)等属性不同而发生违约的条件。通过对已有检查情况的总结,生成这个模型,可以在对其他审计对象的检查中,按照客户的重点属性,抽取最有违约可能的客户进行重点检查。

通过对历史数据的挖掘,可以很直观地显示客户因年龄(age)、所在地区(zip code)、收入(earnings)等属性不同而发生违约的条件。通过对已有检查情况的总结,生成这个模型,可以在对其他审计对象的检查中,按照客户的重点属性,抽取最有违约可能的客户进行重点检查。

数据挖掘技术在商业银行内部审计中的应用建议

1.基于商业银行数据仓库,进一步规范和完善审计数据源。

数据挖掘技术的应用对被审计单位的数据数量和质量要求较高,在内部审计中实施数据挖掘的前提和基础是拥有大量、真实的数据。数据不足,导致无法有效开展数据挖掘;而数据欠缺准确性,则会严重影响数据挖掘结果的可靠性。当前可在完善商业银行数据仓库的基础上,进一步规范和完善审计数据,为应用数据挖掘技术提供可靠的数据源。

2.内部审计人员数据审计技术和专业审计能力的协同提高。

在内部审计中应用数据挖掘技术,不仅要求内部审计人员精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求,而且需要内部审计人员对数据挖掘技术和工具有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作。

3.借鉴反洗钱、信用卡风控等领域的成功应用经验。

当前商业银行数据挖掘应用主要集中在客户分析、信用卡欺诈、风险评估等方面,但在内部审计领域中的应用无论是研究的对象还是研究的深度都比较缺乏。可以通过借鉴反洗钱、信用卡风控等领域的成功应用经验,推动数据挖掘技术在内部审计中的实证研究和应用。

参考文献

[1] Jiawei Han,Micheline Kamber.数据挖掘:概念和技术.范明,孟小峰(译).北京:机械工业出版社,2008.

[2] 程广华. 利用Benford定律在海量数据中筛选非法商户研究[J]. 新会计,2010(4).

[3] 机器学习[EB/OL]. [2009-12-29]. http://baike.baidu.com/view/7956.html?tp=0_00


以上是关于审计思考 | 大数据分析技术在内部审计循环中的应用的主要内容,如果未能解决你的问题,请参考以下文章

基于网络爬虫技术的大数据审计方法研究

爬虫技术在税务稽查中的应用与思考

基于大数据审计的信息安全日志分析法

浅谈内部审计中的“大数据审计”————数据分析及规则模型

韩城市审计局组织召开财政预算执行审计大数据分析培训会

谁来再讲讲神经元网络模型下的大数据审计