通过字段识别和光学字符识别(OCR)进行数据输入自动化,用于预定义表格上的手写
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了通过字段识别和光学字符识别(OCR)进行数据输入自动化,用于预定义表格上的手写相关的知识,希望对你有一定的参考价值。
我希望从已经手动填写的预定义表单中自动输入数据。字符不是分开的,但字段可以通过下面的行或作为表的一部分来识别。我知道手写OCR仍然是一个活跃的研究领域,我可以包括操作员审查功能,所以我不希望准确率超过90%。
我想到的第一个解决方案是OpenCV用于字段识别(http://answers.opencv.org/question/63847/how-to-extract-tables-from-an-image/)和Tesseract识别手写(https://github.com/openpaperwork/pyocr)的组合。
另一种可能更简单和更有效的具有预定形式的场识别方法是以某种方式从填充形式中减去空白形式。由于将扫描表格,这可能需要一些位置容差,降噪和特征识别。
任何建议或意见将不胜感激。
正如Tesseract FAQ所述,如果您正在寻找成功的手写识别,则不建议使用。我建议你更多地关注像Microsoft OCR API这样的商业项目(向下滚动到从图像中读取手写文本),你可以在线试用它并在你的应用程序中使用它们的API。
另一个选项是ABBYY OCR,它具有很多有用的功能来识别表格,复杂的文档等。你可以阅读更多here
至于免费替代品 - 唯一想到的是qazxsw poi
至于字母的检测 - 它实际上取决于输入,一般来说,如果您的表单每次都或多或少相同 - 最好只是测量您的表单并使用您需要搜索文本的预定义位置。否则OpenCV是寻找文本的正确技术,有大量的在线教程和有关stackoverflow的好答案,例如你可以看一下Silencer的Lipi toolkit答案。
以上是关于通过字段识别和光学字符识别(OCR)进行数据输入自动化,用于预定义表格上的手写的主要内容,如果未能解决你的问题,请参考以下文章