OCR 项目记录

Posted 2020-09-14

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了OCR 项目记录相关的知识，希望对你有一定的参考价值。

应用场景：

用户在朋友圈中会上传许多图片，而我们希望从用户上传的这些图片中识别出那些关于证件的照片（比如：身份证，驾驶证，护照等），因为这些证件的照片会含有一些个人敏感信息。我们希望通过OCR识别出照片中的文字，然后判断这些文字中有没有诸如：passport，name，nationality等字段来判断这张图片是不是一张证件相关的照片，为此我们会维护一个关键字的wordlist。

问题解决：

首先要进行OCR，我们选择了tesseract。tesseract是一个开源的OCR引擎，最初有HP开发，后来贡献给开源社区，现由谷歌维护。tesseract识别能力和一些付费OCR软件相比还是差一些，但是对于这个项目也差不多够用了。

以上是关于OCR 项目记录的主要内容，如果未能解决你的问题，请参考以下文章

记录一下OCR常用的数据集

记录自己OCR的一点小笔记，慢慢摸索中

OCR/GPU: PaddleServing部署流程记录（cuda10.1）

验证码识别工具GraphicsMagick1.3.25和Tesseract-OCR4.0.0 Linux安装部署过程记录

使用弹簧批处理读取一个记录/项目并写入多个记录/项目