NLP技术医疗单据信息智能提取
Posted 泰岳语义工厂
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP技术医疗单据信息智能提取相关的知识,希望对你有一定的参考价值。
我们日常生产、生活、工作当中,会遇到大量的票据资料,如:发票、检查单、体检报告、收费单据等。这些单据一般以印刷体、打印体、手写体的形式出现,在不同个人、单位之间流转,然后经过不同的信息系统进行处理,造成重复性的录入工作,影响工作效率,极易产生错误。
神州泰岳语义工厂基于人工智能技术提供了基于NLP技术的医疗单据的智能识别和信息提取服务,可以帮助解决医疗单据的自动录入和信息提取问题。同时该技术也可应用于类似场景的其它应用,如报销单据、体检报告、简历的信息识别和提取工作。
本服务针对医疗报销指定类型的单据图片,预训练文本检测与文本识别,提供图片中文本内容信息的自动获取和识别功能。
本服务的工作流程大致如下图:
本服务实现的主要功能如下:
文字检测:对图片中的文字边框进行检测;
文本识别:对检测出的文字边框中文本内容的自动识别;
内容重组:图片文本数据内容自动重组,生成信息完整的单据文本数据内容;
内容提取:对于文本拆分后的文本块进行关键性标签、标签值的提取。
本服务采用了深度学习技术来进行图片的OCR识别,针对OCR识别中的问题,提出了基于深度学习技术的处理办法,如倾斜、阴影、重影等。
在识别文本内容之前,对检测结果数据集,加入了倾斜矫正、降噪等技术手段,实现对待识别文本内容数据的预处理,提高了对倾斜文字的识别效果。
采用ImageNet比较流行的深层网络残差网络RESNET和VGG作为图片特征的提取,对文字边框的坐标进行了回归处理;字符识别部分采用卷积神经网络CNN的深层网络提取图片特征,并使用Seq2Seq和注意力机制进行编码和解码。
利用文字边框位置信息,实现对图片文字内容的整合,形成具有完整语义信息的单据文本内容。检测的文字边框实现图块检测,按行重组文本内容,提取图块位置信息位置特征,精准定位识别文字内容原始排版,保证单据数据单行信息多元素构成独立语义单元的特点。
结合概念归一化、概念计算、实体识别,及信息抽取等NLP关键技术,实现单据重组文本内容块自动提取与归类。针对不同内容块的数据特点,实现对应内容块中关键性信息标签识别,并自动提取标签对应的值内容。
针对指定类型范围的医疗单据数据,保证图片质量较高的情况,文本检测能够达到90%的精准度,文本识别最高能达到95%的精准度。
不需拥有专业的NLP技术,让您的单据轻松变数据。
以上是关于NLP技术医疗单据信息智能提取的主要内容,如果未能解决你的问题,请参考以下文章
使用NeMo快速完成NLP中的信息抽取任务 | 英伟达NLP公开课