tesseract 在同一图像上的不同结果

Posted

技术标签:

【中文标题】tesseract 在同一图像上的不同结果【英文标题】:Different Results with tesseract on same image 【发布时间】:2015-03-01 00:58:52 【问题描述】:

您好,我正在尝试对图像进行 ocr。

这是经过一些预处理后的原始图像 (跳过预处理部分,因为它与我的问题并不真正相关,但如果有人需要它会分享)

我有这张图片

当我尝试使用 tesseract 对该图像进行 ocr 处理时

我得到的结果是

HN'

2809

但是,当我在 photoshop 上手动裁剪图像的一半时

我收到了

HN'

Z8

结果。

我想知道这两张图片有什么区别,因为一张给出的是 2 而不是 Z,而另一张给出的是 Z

我知道我必须平滑边缘以获得更准确的结果,但运动模糊、高斯模糊或普通模糊滤镜确实改变了我得到的结果。

【问题讨论】:

【参考方案1】:

Tesseract 实现了一种算法,该算法根据邻域中数字的数量和类型从字母 Z 中选择数字 2

在第一张图片中,它猜测 2 而不是 Z,因为它的邻居都是数字 (809),所以它假设第一个数字也必须是数字。

我以前遇到过这个问题。 :(

顺便说一句,我认为你应该翻转图像的第一部分,使 HN' 变为 .NH

【讨论】:

以上是关于tesseract 在同一图像上的不同结果的主要内容,如果未能解决你的问题,请参考以下文章

Tesseract - 错误 net.sourceforge.tess4j.Tesseract - null

Tesseract 加载语言失败 (Tess4j / Java / Netbeans)

Tesseract:如何导出文本和边界框?

Android OCR 使用 tess-two 一个 tesseract 的分支

在进行字符识别之前使用 OpenCV 进行图像预处理(tesseract)

android怎么调用tesseract实现OCR功能?