NLP技术医疗单据信息智能提取

Posted 2021-04-28 泰岳语义工厂

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NLP技术医疗单据信息智能提取相关的知识，希望对你有一定的参考价值。

我们日常生产、生活、工作当中，会遇到大量的票据资料，如：发票、检查单、体检报告、收费单据等。这些单据一般以印刷体、打印体、手写体的形式出现，在不同个人、单位之间流转，然后经过不同的信息系统进行处理，造成重复性的录入工作,影响工作效率，极易产生错误。

神州泰岳语义工厂基于人工智能技术提供了基于NLP技术的医疗单据的智能识别和信息提取服务，可以帮助解决医疗单据的自动录入和信息提取问题。同时该技术也可应用于类似场景的其它应用，如报销单据、体检报告、简历的信息识别和提取工作。

功能介绍

本服务针对医疗报销指定类型的单据图片，预训练文本检测与文本识别，提供图片中文本内容信息的自动获取和识别功能。

本服务的工作流程大致如下图：

1、医疗单据原始图片

NLP技术医疗单据信息智能提取

2、文字检测

NLP技术医疗单据信息智能提取

3、文字识别

本服务实现的主要功能如下：

服务特色

本服务采用了深度学习技术来进行图片的OCR识别，针对OCR识别中的问题，提出了基于深度学习技术的处理办法，如倾斜、阴影、重影等。

图片文本检测处理

在识别文本内容之前，对检测结果数据集，加入了倾斜矫正、降噪等技术手段，实现对待识别文本内容数据的预处理，提高了对倾斜文字的识别效果。

深度学习技术

采用ImageNet比较流行的深层网络残差网络RESNET和VGG作为图片特征的提取，对文字边框的坐标进行了回归处理；字符识别部分采用卷积神经网络CNN的深层网络提取图片特征，并使用Seq2Seq和注意力机制进行编码和解码。

医疗图片文字资料的重构

利用文字边框位置信息，实现对图片文字内容的整合，形成具有完整语义信息的单据文本内容。检测的文字边框实现图块检测，按行重组文本内容，提取图块位置信息位置特征，精准定位识别文字内容原始排版，保证单据数据单行信息多元素构成独立语义单元的特点。

文本信息的语义提取

结合概念归一化、概念计算、实体识别，及信息抽取等NLP关键技术，实现单据重组文本内容块自动提取与归类。针对不同内容块的数据特点，实现对应内容块中关键性信息标签识别，并自动提取标签对应的值内容。

服务效果

针对指定类型范围的医疗单据数据，保证图片质量较高的情况，文本检测能够达到90%的精准度，文本识别最高能达到95%的精准度。

不需拥有专业的NLP技术，让您的单据轻松变数据。

以上是关于NLP技术医疗单据信息智能提取的主要内容，如果未能解决你的问题，请参考以下文章