Tesseract OCR 培训的替代方案?

Posted

技术标签:

【中文标题】Tesseract OCR 培训的替代方案?【英文标题】:Alternative to Tesseract OCR Training? 【发布时间】:2011-07-27 10:53:15 【问题描述】:

在过去的 3 个月里,我一直在尝试训练 Tesseract 通过识别我拥有的图像集合,由于真正的缺乏 正确的文档,以及非常高的复杂性,我开始 放弃将 Tesseract 作为解决方案。

我正在寻找一种相对无痛的替代方法 为了训练,我不想在这里重新发现***。

如果没有免费的东西,我想付费解决方案会 必须做的(不超过 200 美元)

【问题讨论】:

您能描述一下您的任务吗?商业 OCR 的价格可能会因数量、功能等而有很大差异。 扫描大约 200-300 份类似格式的文档,并且需要手动训练 OCR 引擎以使识别准确率尽可能接近 100% 【参考方案1】:

根据您的评论,您只需要以几乎 100% 的准确率扫描相对少量的文档,并且您的预算约为 200 美元

那么,答案很简单。您不需要任何编程解决方案。只需购买优质的商业 OCR 产品,例如ABBYY FineReader(免责声明:我为 ABBYY 工作)。它在不同地区有不同的价格,但我想它在您的预算范围内。

商用桌面 OCR 产品将为您提供开箱即用的典型语言几乎 100% 的准确性。他们还拥有方便的手动验证工具来修复所有剩余的错误。通常,它们支持各种现代字体,但如果你的字体不是微不足道的,它们确实有字体训练实用程序。

我确实认为这对你来说是最佳解决方案。

更新:Linux 平台。 不幸的是,对于 Linux,几乎没有高质量的 OCR 产品可供选择,抱歉。我知道的唯一一个来自 ABBYY:http://ocr4linux.com/en:start,但它没有 UI、验证和字体训练。但至少你可以试一试,看看它是否能给你提供足够好的准确性,这可能恰好是这种情况。

【讨论】:

我家的操作系统是 Ubuntu,这可能是 FineReader 的问题吗? Tesseract 在“典型语言”上工作得很好,训练的重点几乎总是要处理非典型语言......【参考方案2】:

您可以使用jTessBoxEditor 来编辑您生成的box 文件。与它捆绑的是一个 PowerShell 脚本,用于自动生成 box 文件和最终的 .traineddata 文件。

【讨论】:

我试过了,但没有用。我相信这是因为 tesseract 现在需要一个以前不需要的 font_properties 文件。

以上是关于Tesseract OCR 培训的替代方案?的主要内容,如果未能解决你的问题,请参考以下文章

OCR Tesseract 只设置数字

JAVA验证码识别:基于jTessBoxEditorFX和Tesseract-OCR训练样本

如何提高tesseract的OCR结果

如何使用 tesseract 对文档中的多个列进行 OCR

Tesseract 或任何其他 OCR 库

Tesseract OCR 上的数字数字