从深度学习的表单中提取文本的最佳方法?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从深度学习的表单中提取文本的最佳方法?相关的知识,希望对你有一定的参考价值。

我有一个表格作为下面的图像,我想提取所有信息,包括印刷文本(书籍,ID)和数字手写文本(订单数量)作为txt文件。有谁能建议我什么是最好的解决方案?我目前的想法是:

  1. 使用深度学习从每列获取对象的位置。
  2. 应用Tesseract从这些对象中提取文本。 (有没有更好的lib?)
  3. 使用深度学习识别手写文本

enter image description here

答案

您可以使用名为EAST的文本本地化模型从图像中获取提取文本。 https://github.com/argman/EAST

然后您可以使用其中一个OCR模型来转录文本。

以上是关于从深度学习的表单中提取文本的最佳方法?的主要内容,如果未能解决你的问题,请参考以下文章

当深度学习遇见自动文本摘要

看过来,这里有最前沿的开源深度学习框架

深度学习框架的前世今生

用深度学习解决自然语言处理中的7大问题,文本分类语言建模机器翻译

[年前福利]送10本自然语言处理与深度学习相关书籍

深度学习最佳实践