已知字体的 OCR

Posted

技术标签:

【中文标题】已知字体的 OCR【英文标题】:OCR for known font 【发布时间】:2011-04-07 10:31:17 【问题描述】:

我正在搜索一个可以用字体参数化的 OCR 库, 因为我一直都知道,我相信这样识别结果会好很多。

有人知道吗?

【问题讨论】:

您是在问OCR 使用什么字体或OCR 库来识别已知字体? @tommieb75:我认为他明确表示他正在寻找图书馆...... @Matti:好的......这是我不明白的“用字体参数化”问题的措辞...... 我也对此感兴趣。有一种名为 OCR-A 的字体,我想在过滤掉扫描区域中可能存在的任何其他文本时识别它。 【参考方案1】:

大多数 OCR 引擎都能很好地处理这种情况。事实上,如果页面上只有一种字体需要识别,OCR 引擎就不会感到困惑。奇怪但在我的经验中是真实的。

如果 OCR 引擎一开始就可以读取您的字体,那么我会直接使用它而不用担心它。有更好的选择来提高识别度。

许多 OCR 引擎允许您设置一些识别参数来帮助改进识别,例如固定宽度或比例、衬线或非衬线、机器或手印。您还可以选择字符子集,例如大写或数字,以显着改善结果。 IE。如果您只有数字字符,那么 0(零)字符永远不会与“O”或“o”或“Ø”混淆。您会发现这些提示比选择 OCR 的确切字体类型更有效。

其他引擎将允许您训练 OCR 引擎以处理新字体,如果您有奇怪的字体,这将有很大帮助。

如果您的图像质量良好并且字体干净且大小合适,那么我建议您使用来自 Google 的 Tesseract OCR 和 OCROpus 作为suggested by Michael Mior。它是免费的,并且在干净清晰的文本上效果很好。如果文本有点难,那么肯定有更好的 OCR 引擎,例如 ABBYY、Prime Recognition、Omnipage 和许多其他引擎,尽管它们会花钱。

【讨论】:

【参考方案2】:

查看OCRopus。它是开源的,由 Google 赞助 :) 我不确定它是否允许选择特定的字体,但无论如何它似乎都能产生良好的效果。

【讨论】:

【参考方案3】:

显然它只适用于 Windows,并不主要关注 OCR,但 Simba 的 OCR 具有需要了解所使用字体的方法。

见http://docs.villavu.com/simba/scriptref/ocr.html

【讨论】:

以上是关于已知字体的 OCR的主要内容,如果未能解决你的问题,请参考以下文章

使用特定字体进行 OCR 扫描

显式设置用于 Tesseract-OCR 识别的字体

位图字体 OCR 库

使用 Tesseract-OCR 获取已识别字符的字体

sh Tesseract OCR培训新字体

我可以使用 OCR 检测字体样式(粗体、斜体)吗? [关闭]