大数据文本挖掘在医学中的应用
Posted 病案管理那些事儿
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据文本挖掘在医学中的应用相关的知识,希望对你有一定的参考价值。
1
医学自然文本挖掘的应用
医学自然文本数据库中的数据形式非常丰富,可包含有关临床病历的各种信息,例如病案首页信息、病程记录信息,各种物理检查结果、病理参数信息、化验与实验结果、医生诊断记录以及相关的病人症状、主诉等数据。这些海量的医学自然文本数据具有几个主要特征:
(1)医学自然文本数据的多样性。由于临床医学的复杂性,导致了描述疾病相关现象、特征的手段和形式多种多样,必然导致医学描述文本数据的多样性,这种数据多样性大大增加了医学自然文本挖掘的难度。
(2)医学自然文本数据的不完整性。临床病例和病案的有限性,使医学信息数据库不可能对任何一种疾病特征都能作出全面地反映,疾病信息体现出的客观不完整性和疾病描述的主观不确切性,都是导致医学信息不完整性的因素。
(3)医学自然文本数据的实时性。医学自然文本中有一些医学物理检测的波形、图像等,这些都是时间的函数,它们是随着时间的变化不断更新的,具有很强的时效性。
医学自然文本挖掘在信息化医疗活动中有着广泛的应用,例如在疾病智能辅助诊断和决策方面,医学自然文本挖掘发挥着独特的作用。 举几个例子。
(1) 医学自然文本挖掘发现各疾病之间内在联系。疾病的发生往往是由多种因素作用的结果,弄清各因素间相互关系和在疾病发病中的作用,对于疾病的治疗和预防是至关重要的。医学自然文本挖掘的任务之一就是对复杂医学变量间的关系探索。
(2) 医学自然文本挖掘对疾病进行分类。对疾病进行分类、分清疾病的严重程度以及疾病的发展过程,对于临床治疗方案的选择具有重要的意义。如采用文本分类技术对良性肿瘤和恶性肿瘤进行分类、运用文本聚类技术对复杂的代谢病进行亚型分组,这些应用都展示了医学自然文本挖掘技术用于疾病的评估和分类方面具有广阔的应用前景。
(3) 医学自然文本挖掘用于指导临床用药。临床用药既要考虑疗效和药物的成本,同时也要考虑药物的毒副作用以及药物配伍等问题。采用医学自然文本挖掘的方法可进行用药效益分析和各种药物治疗方案的选型,如利用文本挖掘对药物治疗方案进行评估,找出最佳的治疗方案指导临床;利用医学自然文本挖掘方法进行中医药方剂配伍规律进行研究,找出最佳的药物配伍方案,为临床提供科学的最优处方等。
2
医学自然文本挖掘的方法
医学自然文本挖掘的流程和方法,与基于结构化数据的挖掘工作有着一定的相似性,但又有自己独特的一些过程和方法。医学自然文本挖掘的一般流程主要包括如下几个步骤。
(1)确定文本挖掘目标。
理解医学领域问题的知识和确定医学自然文本挖掘过程的目标,要明确数据挖掘的医学自然文本数据和专业上期望得到的相关结果。
(2)基础数据准备。为了后续开展医学自然文本的挖掘和分析,需生成一个完整的记录病人临床信息的数据库,各个临床业务系统根据不同的目标来组织其数据模型,然后重构成可分析的数据模型,并需要配备相应的、专业的的医学分词库,用于后续的医学文本分词和分析。
(3)数据预处理。很多病历信息是以XML的形式存放的,必须从XML数据中抽取出符合条件的基础数据,再以纯文本的形式存放在中间表中,然后采用结构数据挖掘类似的一些数据预处理方法对医学文本进行清洗、变换等处理,为将采用的挖掘算法分析做好预处理和准备工作。
(4)试验和选择数据挖掘算法。通过尝试各种不同的数据挖掘算法,最终选择几种更能适合文本数据探索模式的数据挖掘模型,确定使用何种数据挖掘算法与挖掘过程与医学自然文本挖掘的目标相适应。然后提取文本数据中的知识,使用数据挖掘算法从目标数据中提取知识和规律,例如提取描述疾病的重要类别或提取疾病描述的主题特征等。
(5)解释和评估挖掘到的知识和规律。很多数据挖掘算法都会自动挖掘出许多模式,用户应该根据自己的需要并结合专业知识来识别真正有用的模式,并使用可视化工具和知识表技术提供这些有用模式,并应用于临床,为临床提供科学依据和智能化辅助决策。
3
医学自然文本挖掘的相关技术
医学自然文本挖掘是一个极富诱惑又极富技术挑战性的领域。一方面,在该领域从事工作的数据科学家面临着医学科学家对医学文本数据分析的强烈需求与渴望,另一方,又不得不面对医学文本数据的复杂性和诸多挖掘的困难、以及当前相关技术的瓶颈。另外,由于医学文本数据必定是基于某一特定的自然语言环境的,如基于英语的医学文本数据、基于法语的医学文本数据、基于汉语的医学文本数据等等,不同自然语言环境的医学文本数据又有不同的特点,医学自然文本挖掘的相关技术既有相似之处又有不同之处,给业界专家带来了不少挑战。
我们这里,简单谈论一点基于汉语的医学文本数据挖掘的有关技术。基于医学文本数据的挖掘技术主要包括文本聚类、文本分类、文本特征提取、文本特征选择、文本关联分析等文本挖掘算法。例如,文本特征选择算法大多采用特征评估函数的方法,各种评估函数根据它们使用的是词频数据还是文挡频数据有所不同。有算法利用最小词频阈值的文档频方法进行特征选择,可运用互信息、信息增益、x~2统计等多种特征评估函数来进行运算。有实验表明最小词频阈值可有效地减少特征集中噪声特征所占的比例,并且发现随着阈值的提高不同评估函数得到的特征集趋于一致。在文本关联分析中,频繁项集挖掘是重要的环节,但在频繁项集挖掘过程中,用户定义合适的最小支持度阈值比较困难。例如,有基于最小支持度阈值动态调整策略的N个最频繁项集挖掘算法,该算法通过指定需要产生的频繁项集的数量N来控制频繁项集的规模。挖掘过程中,不断根据已有结果调高最小支持度阈值,从而达到降低搜索空间、改善挖掘性能的目的。
在学术界的文献中,我们可以发现大量的有关医学自然文本挖掘的相关技术论文,很多是基于理论上的和实验上的,正真成熟的、能有效应用于工作实践中的技术和方法其实很有限,这恰恰反映了医学文本数据的复杂性和诸多挖掘的困难、以及当前相关技术的瓶颈现状。我们团队在医学自然文本挖掘领域的长年探索与实践中,总结和积累了不少的方法经验,也研发了一些我们独创的文本挖掘算法,在实践应用中取得了良好的效果。下面,我们就简单介绍一点有关医学自然文本挖掘系统应用方面的内容。
4
医学自然文本挖掘系统的实现
我们以福安易医学文本数据挖掘系统为例,简单说明医学自然文本挖掘系统的实现。福安易医学文本数据挖掘系统是以临床大数据为分析对象,因此,也称为临床文本挖掘系统。我们在临床文本数据挖掘系统中,将数据挖掘的多种技术如特征抽取、文本分类、文本聚类等结合起来,应用到描述型的临床文本数据中及医学影像报告等资料中,从而挖掘大量有医学价值的规律。这个以描述型群组医学数据为研究对象的分析系统可以挖掘某疾病的医学自然文本中诊断描述特征,以及各种检查指标与疾病间的潜在影响,还可以挖掘某疾病的影像检查中诊断模式,挖掘不同症状大概率同时出现的规律等。文本数据挖掘系统还可以对医学自然文本、住院病案等文字信息进行文本分类分析(有监督学习)和文本聚类分析(无监督学习)。
临床文本挖掘系统概括起来,可以分为四种临床文本挖掘探索功能类型,如:
(1) 医学自然文本聚类探索
(2) 医学自然文本分类探索
(3) 医学自然文本特征探索
(4) 医学自然文本相似探索
例如,医学自然文本聚类探索功能可以将大量的医学自然文本数据按照文本整体描述的相异性自动分成不同的文本组或文本类,而分类的组数是算法根据实际数据自然划分的,而不是人为给定的,分类的精度可以变化,系统给用户一个灵活设定的参数称为聚合系数,用户可以自行设定聚合系数的大小,不同的聚合系数划分的文本精度和组数都不相同。如下图1所示,是某类疾病人群的临床主诉数据,聚类探索功能将按照用户指定的聚合系数(如0.3)自动将文本数据进行分类,类别号一样的数据被划分为一类,分类结果反映出类别间具有一定的相异性。
以上是关于大数据文本挖掘在医学中的应用的主要内容,如果未能解决你的问题,请参考以下文章