Tesseract OCR 培训的替代方案？

Posted 2023-04-17

技术标签:

【中文标题】Tesseract OCR 培训的替代方案？【英文标题】：Alternative to Tesseract OCR Training? 【发布时间】：2011-07-27 10:53:15 【问题描述】：

在过去的 3 个月里，我一直在尝试训练 Tesseract 通过识别我拥有的图像集合，由于真正的缺乏正确的文档，以及非常高的复杂性，我开始放弃将 Tesseract 作为解决方案。

我正在寻找一种相对无痛的替代方法为了训练，我不想在这里重新发现***。

如果没有免费的东西，我想付费解决方案会必须做的（不超过 200 美元）

【问题讨论】：

您能描述一下您的任务吗？商业 OCR 的价格可能会因数量、功能等而有很大差异。扫描大约 200-300 份类似格式的文档，并且需要手动训练 OCR 引擎以使识别准确率尽可能接近 100% 【参考方案1】：

根据您的评论，您只需要以几乎 100% 的准确率扫描相对少量的文档，并且您的预算约为 200 美元

那么，答案很简单。您不需要任何编程解决方案。只需购买优质的商业 OCR 产品，例如ABBYY FineReader（免责声明：我为 ABBYY 工作）。它在不同地区有不同的价格，但我想它在您的预算范围内。

商用桌面 OCR 产品将为您提供开箱即用的典型语言几乎 100% 的准确性。他们还拥有方便的手动验证工具来修复所有剩余的错误。通常，它们支持各种现代字体，但如果你的字体不是微不足道的，它们确实有字体训练实用程序。

我确实认为这对你来说是最佳解决方案。

更新：Linux 平台。不幸的是，对于 Linux，几乎没有高质量的 OCR 产品可供选择，抱歉。我知道的唯一一个来自 ABBYY：http://ocr4linux.com/en:start，但它没有 UI、验证和字体训练。但至少你可以试一试，看看它是否能给你提供足够好的准确性，这可能恰好是这种情况。

【讨论】：

我家的操作系统是 Ubuntu，这可能是 FineReader 的问题吗？ Tesseract 在“典型语言”上工作得很好，训练的重点几乎总是要处理非典型语言......【参考方案2】：

您可以使用jTessBoxEditor 来编辑您生成的box 文件。与它捆绑的是一个 PowerShell 脚本，用于自动生成 box 文件和最终的 .traineddata 文件。

【讨论】：

我试过了，但没有用。我相信这是因为 tesseract 现在需要一个以前不需要的 font_properties 文件。

以上是关于Tesseract OCR 培训的替代方案？的主要内容，如果未能解决你的问题，请参考以下文章

OCR Tesseract 只设置数字

JAVA验证码识别：基于jTessBoxEditorFX和Tesseract-OCR训练样本

如何提高tesseract的OCR结果

如何使用 tesseract 对文档中的多个列进行 OCR

Tesseract 或任何其他 OCR 库

Tesseract OCR 上的数字数字