基于文本挖掘技术的理赔原因分类方法(上篇)

Posted 中再寿险

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于文本挖掘技术的理赔原因分类方法(上篇)相关的知识,希望对你有一定的参考价值。

摘要

理赔数据是寿险业的核心数据,是进行各项经验发生率分析、赔付率分析、医疗成本分析等最为关键的信息。死亡(发病)原因则是则是上述分析的重要组成部分。现有死亡原因的分析主要基于公司结构化的事故原因代码进行,其数据质量和分析粒度均有待提高。


对于非结构化数据的处理和挖掘,是大数据分析技术的一个重要发展领域。我们以理赔文字记录信息这一非结构化数据为分析对象,利用对包括分词、聚类、TF-IDF值和朴素贝叶斯分类等文本挖掘技术,形成了一套基于文本挖掘技术的理赔原因分类方法,并研发了相关的软件工具。


利用这一工具,可以对理赔事故原因进行更加详细的分析。目前,我们已经将事故原因细分为5级320个细类。同时,这个工具具有良好的可扩展性,具有一定的“机器学习”的功能,可以满足对于更多类型赔案的事故原因分类的要求。


一、 研究背景

能否获得更详细的死亡(发病)原因分类信息,很大程度上是保险公司数据分析能力的反映。


死亡(发病)原因相关信息一般以两种形式存储:


一种是直保公司编制的事故原因代码,另一种是详细的赔案文本描述。


前者属于结构化信息,即按照标准的数据库格式存储,关联事故原因映射维度表后即可直接获知具体事故原因,但一般最大缺点是分类粒度不够,完全依赖于直保公司事故原因的最初编码。


后者属于非结构化信息,以一段文本的非规范形式存储,最大缺点是无法基于该字段直接进行分析,但其优点是完整地记录了出险经过和理赔依据,若所有足够的时间和人力我们可以从每个赔案描述中获得任何与赔案相关的信息或分类维度(一般赔案数量较多时是不可能的)。


本文主要讨论如何利用文本挖掘技术,从理赔文本描述这种非结构化信息中,挖掘形成内容更加丰富的、结构化的理赔原因分类信息,以提高保险公司理赔数据分析工作的深度和广度。


二、 理赔原因分类


2.1 理赔原因分类体系


传统的理赔原因分类相对简单,最初只能根据产品责任区分死亡赔案、高残赔案、重疾赔案、伤残赔案等。对于死亡赔案,一般只能区分意外死亡或者疾病死亡。对于重疾赔案,往往是按照疾病代码(例如ICD-10或者公司自有编码)对疾病进行分类。随着公司数据分析等工作的精细化要求越来越高,上述分类已经越来越不能满足实际工作的需要。


2.2 理赔原因分类的历史方法


过去几年,我们在利用公司现有事故原因代码进行分析的基础上,已经尝试着通过利用“关键词”和“正则表达式”技术提炼赔案分类信息。该方法在一定程度上解决了完全依赖人力逐条判断的效率问题,但其核心事实上就是把人为判断过程和思考逻辑程序化,虽然精度上和效率上都可以满足分析需求,但由于其非常依赖与人为经验总结,其可拓展性较差,实现周期较长(主要指人为总结其判断逻辑的过程)。比如说,目前的程序仅支持重疾和寿险产品对死亡和重疾原因的分类,对于医疗险、自驾险等基本无法支持(需要人为针对这些特定险种赔案描述特征,总结判断逻辑和不断调整优化之后方可实现程序化)。


基于文本挖掘技术的理赔原因分类方法(上篇)

(点击图片查看大图)


三、 基于文本挖掘技术的理赔原因分类方法


3.1 文本挖掘技术简介


文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣的信息,或者说从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程。其主要用途是从原本未经处理的文本中提取出未知的知识。


文本挖掘是从数据挖掘发展而来的,但与传统的数据挖掘相比,文本挖掘有其独特之处。主要表现在:文档本身是半结构化或非结构化的、无确定形式、缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理(文本分类、信息抽取等)的基础之上。


3.1.1 基于语义分析的文本挖掘过程

文本原始的自然形态是计算机无法识别的语言形式,需要对其进行预处理和加工,核心思想是把一段文本切分成语言可理解的最小单位,再结合中文语法结构、词性修饰关系理解语义,示意图如下,即:首先通过分句把一段文本切分成句子序列,再对句子序列做分词把句子切分成词序列,同时对切分出的每个词做词性(动词、名词、代词、连词等)标注,通过分析词性序列理解短语结构,再通过短语结构间表述关系理解句法结构进行句法分析(状语、修饰定语、主体等),从而进行语义分析和语篇理解。该方法的核心是分词技术,以及语法树基础库。


基于文本挖掘技术的理赔原因分类方法(上篇)

(点击图片查看大图)


3.1.2基于特征词和机器学习的文本挖掘过程

基本思路是通过分词技术把文本切分成词序列,提炼特征词,把文本表述转换成计算机可理解的向量(或矩阵)形式,从而就可以采用常规数据挖掘的各种算法进行文本挖掘。

基于文本挖掘技术的理赔原因分类方法(上篇)

(点击图片查看大图)


四、 文本挖掘工具研发

将上述文本挖掘技术,应用到理赔文本信息中,通过数据挖掘形成了更加丰富的理赔原因5级信息体系,包括5级320个细类。同时,我们将这项技术研发形成了理赔原因挖掘软件,以方便精算、理赔等专业人员使用。


中篇预告:针对文本挖掘的核心技术,分词、特征词、TFIDF值、朴素贝叶斯分类等技术细节,我们将在中篇展开介绍,欲进一步了解文本挖掘过程和理赔文本挖掘工具的技术细节,敬请关注《基于文本挖掘技术的理赔原因分类方法(中篇)》!

 

以上是关于基于文本挖掘技术的理赔原因分类方法(上篇)的主要内容,如果未能解决你的问题,请参考以下文章

8种流失原因分析法:文本挖掘法

基于知识图谱的文本挖掘 - 超越文本挖掘

基于R语言的文本挖掘——朴素贝叶斯分类器

专业解读 | 什么是文本挖掘?

你所不知道的文本挖掘

小白入门文本挖掘之基础篇