内审实务文本挖掘在串通投标行为识别中的应用
Posted 中国内部审计协会
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了内审实务文本挖掘在串通投标行为识别中的应用相关的知识,希望对你有一定的参考价值。
朗读原文 来自中国内部审计协会 00:00 04:06
文本分词是文本处理的一个基础步骤。采用Jieba分词组件,开发相应的程序,程序具有简单易用等特点。加载相应的文本文件,即可对投标文件进行文本处理,输出字数、分词词语量、关键词和高频词等信息。文本分词主要是对文本进行预处理以及统一文本的基准和范围。商务文件内容以资质证明等图片为主,开标文件和报价文件等内容单一,因此,将技术文件作为主要分析对象。应采用程序中的精确模式对文本进行分词,将文本内容中影响分析结果的噪声词语(如“的、是、了”)过滤,并针对招投标行业特别增加招标人、投标人、标书、合同等停用词。获得分词结果后,统计词频和关键词(TF-IDF)等信息。
某设备类招标项目共有4家投标商,分别为A、B、C、D。通过程序对技术文件进行分析,获得了分词量、部分高频词和部分关键词等信息。对分词结果分析后可得,投标商A、B、C三家文件字数均在3万—4万,投标商D文件字数略多,5万字以上;分词获得词语量为3000左右。对比关键词表,投标商A、B、C关键词基本相同,关键词内容符合本次招标采购范围,而投标商D则明显不同,标书质量表现存疑。通过查看投标文件,投标商D投标文件质量明显不高,仅将招标文件技术规范书内容复制,并注明理解并响应。投标商D的陪标行为明显,陪标行为的出现,说明整个标段存在异常。对比高频词表,发现投标商A、B、C三家文件中冲洗、试验、机器人、提供等词语个数相近或相同,明显涉嫌串通投标。后经证实,本标段投标人标书由同一人编制,为典型的串通投标行为。
某服务类招标项目共有3家投标商,分别为A、B、C。通过程序对技术文件进行分析,获得了分词量、部分高频词和部分关键词等信息。结果表明,投标商A和投标商C文件字数在1万左右,而投标商B文件字数略少,在6000左右。对比高频词表的分词后,投标商A、B、C关键词基本相同,关键词内容符合本次招标采购范围。对比投标商A和C高频词表,发现工作、人员、处置、领导等词语出现次数相近或完全相同。对比投标商A和B高频词表,佩戴、书报、小说、游戏机、临阵脱逃等词语出现次数完全相同。“临阵脱逃”之类较少在投标文件中使用的词语同时出现在了投标商A和B文件中,明显涉嫌串通投标。后经证实,本标段投标人标书由同一人编制,为典型的串通投标行为。
招投标是审计工作重点关注的领域之一,在投标文件中引入文本挖掘,能够从文本信息的角度进行串通投标行为的识别,更好地助推相关审计工作的取证和开展。预防和遏制串通投标行为是一项系统工程,需要各环节的共同努力,才能确保招投标市场规范有序。
(作者单位:中国华电集团有限公司)
以上是关于内审实务文本挖掘在串通投标行为识别中的应用的主要内容,如果未能解决你的问题,请参考以下文章
如何将机器学习技术应用到文本挖掘中
词中窥意:采用文本挖掘研究资源保护与管理中的环境行为
基于文本挖掘的学习分析应用研究
达观数据NLP技术的应用实践和案例分析
又双叒叕重磅推出!DMC第四讲:文本挖掘
智能时代的教育文本挖掘模型与应用