如何训练 tesseract 识别低 DPI 下的小数字？

Posted 2023-04-17

技术标签:

【中文标题】如何训练 tesseract 识别低 DPI 下的小数字？【英文标题】：How to train tesseract to recognize small numbers in low DPI? 【发布时间】：2012-01-05 21:33:20 【问题描述】：

我从视频中获取数据，因此我无法重新扫描图像，但我可以在必要时对其进行缩放。

我只有有限数量的字符，1234567890:，但我无法控制原始图像的 dpi 或字体。

我尝试训练tesseract但没有任何明显效果，测试项目位于https://github.com/ssbarnea/tesseract-sample但目前的结果非常糟糕。

捕获的原始图像示例：

OCR 后处理图像示例：

在这种情况下如何改进 OCR 流程？

【问题讨论】：

【参考方案1】：

您可以尝试在图像边缘添加一些额外的空间，有时这有助于 tesseract。但是，开源 OCR 引擎对源图像 DPI 非常敏感。

【讨论】：

谢谢，诺科莱。事实上，我正在尝试 tesseract，因为此时我们正在使用基于 Abbyy 的第三方解决方案，但他们不提供培训，在这种情况下，为了获得良好的结果，培训将是强制性的 - 对于我需要的柜台100% 准确度，考虑到只有 11 个可能的字符，这应该是可能的。我刚刚尝试在 ABBYY FineReader 10 中对您的图像进行 OCR 处理，结果 100% 准确。也许这个第 3 方解决方案是基于旧版本的 ABBYY 产品？你能告诉我你正在使用什么吗？是的，它在 90% 的情况下都有效，并且通过手动修复输出，我可以获得高达 98% 的准确度。我仍然需要一个 100% 的解决方案。 @sorin，其实是abby provides training @nikolay 我通过实现自己的 OCR 解决了这个问题，该 OCR 使用 scipy 进行图像比较。它能够获得 100% 的数字准确率。

以上是关于如何训练 tesseract 识别低 DPI 下的小数字？的主要内容，如果未能解决你的问题，请参考以下文章

如何训练 tesseract 只识别 20 到 30 位数字？

如何定义 tesseract 用于识别（而不是训练）的字体类型？

通过训练 tesseract 获得更好的识别结果

tesseract 安装与训练(图像识别)

图像识别—基于样本训练的tesseract

Windows下Tesseract训练音符识别