大数据环境下基于文本挖掘的审计数据分析框架

Posted 自然资源审计

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据环境下基于文本挖掘的审计数据分析框架相关的知识,希望对你有一定的参考价值。

点击上方“自然资源审计”,看看有多少位朋友关注

参与自然资源资产审计  服务生态文明建设



  大数据引发了审计领域的创新和变革,海量的数据中结构化数据难以代表整体,非结构化数据已经成为大数据的关键组成部分。如何对这些非结构化数据进行分析是推动大数据审计开展的重要内容。我国当前在审计领域对非结构化数据还未形成全面系统研究。以文本挖掘为代表的数据挖掘技术在大数据审计中占有举足轻重的地位,它不再仅仅以结构化的审计数据为分析对象,可以深入地对大量非结构化数据进行挖掘分析和利用。所以本文提出了基于文本挖掘的审计数据分析框架,这将为大数据审计研究提供全新的分析思路。 

一、传统的审计数据分析 
  审计人员如何将采集的原始数据转化为审计证据,这将直接影响到审计目标的实现。从采集到获取证据的过程中,审计人员最应该关注的问题是能否挖掘出有价值的数据进行审计数据分析,这对审计项目的质量和审计成果的体现都起着重要的作用。所以,在审计工作中最关键的步骤是进行审计数据分析。 
  目前,审计人员在审计工作中经常采用的审计数据分析方法以及计算机辅助审计工具(CAATS)有账户分析、经济指标比率分析、趋势分析、统计分析、Excel数据分析、AccessSQLAO审计软件等。Excel数据分析和针对会计账表的审计软件被事务所熟用;SQL语句查询、AO审计以及审计数据采集与分析等审计软件常常被用于政府部门和事业单位的内部审计工作中;对于企业的内部审计,大型企业采用专门的审计平台或在ERP中嵌入内部审计模块,中小企业比较依赖ExcelAccess进行审计数据分析。但大数据时代的来临,使得海量和多元异构的数据极大地拓展了大数据审计的范围,传统的审计方法和辅助审计工具已显得力不从心,无法对非结构化数据进行采集和分析。 

二、大数据环境下的审计数据分析 
  在国际数据公司(IDC)发布的一项报告中显示,企业中最多只有5%的数据为结构化数据,其余大都是非结构化数据,并且88%的企业管理者认为这些存储在数据库以外的非结构化数据,才是他们接触和了解企业的最佳选择目标。数据是审计分析的核心,采用文本挖掘技术对非结构化审计数据进行挖掘分析,将会给审计领域带来一个新的技术应用潮流。这将有助于审计人员在大数据模式下对被审计单位进行内部控制、舞弊识别、违法违规等方面的评估。 
(一)非结构化数据 
  顾名思义,非结构化数据没有固定的结构,不能通过一般的数据库二维逻辑表结构来表达,也不能将其标准化和完全数字化。按照格式可以分为文本文档、图片、音视频等。 
(二)审计数据分析范围 
  随着云计算物联网大数据智慧城市的快速发展,数据信息将实现共享,数据量将以难以想象的速度爆发式增长。一方面,审计数据分析的对象将发生变化,审计对象不再局限于和被审计单位财务相关的信息,而被审计单位内部的规章制度、会议记录、合同、通知等非财务信息也将是审计的重点对象。与被审计单位相关的外部数据也显得尤为重要,比如新闻文章、股吧评论、论坛发布等。另一方面,海量的数据必然会产生多样的数据格式,审计数据类型从传统的结构化数据转向多元异构的大数据。审计范围的重点转为对非结构化的数据进行分析,可以全面有效地对被审计单位的内部控制、违法违规行为、重大经济决策等内容进行评估。 
(三)审计数据分析思维 
  审计数据分析思维由单一的因果分析模式向因果分析与关联分析共存的思维模式发生转变。因果分析是分析事件因和果这两者之间存在的必然关系,据因找果或者溯果撷因。然而,在海量的数据中,数据之间可能存在一因多果,或是一果多因的复杂关系,如果深入分析因果关系为什么是什么需要耗费审计人员大量的时间和精力。所以,为了高效地开展审计工作,审计人员应该更加注重数据间的相关关系。若一种现象的发生通常伴随另一现象的出现,那么可以推断AB经常是一起发生的,进一步对两者之间的相关关系进行仔细的研究,从而确定关联规则。经济学中最成功的营销案例——啤酒与尿布,就是把关联分析思想运用到大数据分析中的典型例子。同样在审计数据分析中运用相关关系分析的思维,挖掘审计数据之间的潜在关系,建立明确的关联规则,可以增加审计证据的效力。

编辑:娄青

《审计人》交流群 

本群为审计技术人员开设的交流平台,聚集“专业”“社交”两大功能,有感兴趣的小伙伴们可以扫描添加编辑微信编辑拉您进群(添加编辑微信时请备注姓名和单位名称)!

 【推荐阅读】              






『自然资源审计』:参与自然资源资产审计,服务生态文明建设。


请把『自然资源审计』推荐给你的朋友


投稿咨询娄工:18513230552   010-81387080  chinaarcgis@vip.163.com

以上是关于大数据环境下基于文本挖掘的审计数据分析框架的主要内容,如果未能解决你的问题,请参考以下文章

谁来再讲讲神经元网络模型下的大数据审计

审计思考 | 大数据分析技术在内部审计循环中的应用

IMF基于文本挖掘对各国税收措施进行研究

基于网络爬虫技术的大数据审计方法研究

☞PPT 基于移动大数据挖掘的外地进京旅客轨迹分析

基于大数据审计的信息安全日志分析法