OCR的理想字体是什么?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了OCR的理想字体是什么?相关的知识,希望对你有一定的参考价值。

有没有人有OCR不同字体的经验?我正在生成一个ID,然后尝试用tesseract扫描它。目前我只是T&E'n不同的字体,但这似乎效率很低。我尝试过OCR *系列字体,以及Arial和Georgia等其他各种字体。 tesseract往往与OCR *字体混淆。

是否有专门为tesseract设计的字体,或任何适合它的系统字体?

答案

好的,谷歌搜索出现了这个特定的OCR字体:OCR Font

看起来它是1973年采用的标准。

另一答案

尝试了很多不同的字体和OCR引擎后,我倾向于使用Consolas获得最佳效果。它是一种类似OCR-A的等宽字体,但更容易为人类阅读。 Consolas包含在几个Microsoft产品中。

还有一个开源字体Inconsolata,受Consolas的影响。 Inconsolata是Consolas的良好替代品,特别是考虑到许可细节。

在我的测试中,Calibri字体中的数字和空格并不总是被正确识别。 OCR-A给出了很多读数错误。我没有尝试过MIRC,因为它对大多数人来说都不容易阅读。

注意:tesseract在可靠之前需要进行大量的测试和微调。在我们的案例中,我们切换到商业许可的OCR引擎(ABBYY),特别是因为可靠性非常重要,我们需要支持多种(欧洲)语言。

更新时间:2017年1月31日 - 由于潜在的版权问题,将“基于Consolas”更改为“受Consolas影响”。

另一答案

我发现Calibri对我来说是最好的。我们每天在自动化系统中使用OCR软件,在测试了几十种字体(包括一些特定于OCR的字体)之后,Calibri始终是最好的。

祝好运。

另一答案

我可能会使用银行用于检查底部的路由号码的相同字体:

http://morovia.com/font/micr.asp

它专门设计为明确的机器可读性。

另一答案

我总是通过简单地使用新罗马时代来取得成功。

另一答案

我最近在一个名为Laserfiche的ECM中进行了广泛的测试,它使用Nuance OmniPage,我发现等宽字体与动态间隔字体相比表现不佳。那些旧的OCR字体的表现不如更“正常”的字体。特别是对于较小字体大小的数字串,如第12点。

很奇怪其他人在Calibri上取得了成功。它在我的测试中表现非常差,经常得到相似的看起来相互混淆的字母和数字。最好的字体(安装了Office的Windows计算机上的字体)是Consolas,Verdana和Book Antiqua。所有动态衬线字体,字母和数字看起来不同。康索拉斯是冠军。

另一答案

目前正在使用Monospace。尝试了很多字体,但这对我来说是最准确的。

以上是关于OCR的理想字体是什么?的主要内容,如果未能解决你的问题,请参考以下文章

使用特定字体进行 OCR 扫描

显式设置用于 Tesseract-OCR 识别的字体

使用 Tesseract-OCR 获取已识别字符的字体

位图字体 OCR 库

从文本图像生成字体

爬虫日记(71):用OCR来对抗字体反爬