tesseract 在同一图像上的不同结果
Posted
技术标签:
【中文标题】tesseract 在同一图像上的不同结果【英文标题】:Different Results with tesseract on same image 【发布时间】:2015-03-01 00:58:52 【问题描述】:您好,我正在尝试对图像进行 ocr。
这是经过一些预处理后的原始图像 (跳过预处理部分,因为它与我的问题并不真正相关,但如果有人需要它会分享)
我有这张图片
当我尝试使用 tesseract 对该图像进行 ocr 处理时
我得到的结果是
HN'
2809
但是,当我在 photoshop 上手动裁剪图像的一半时
我收到了
HN'
Z8
结果。
我想知道这两张图片有什么区别,因为一张给出的是 2 而不是 Z,而另一张给出的是 Z。
我知道我必须平滑边缘以获得更准确的结果,但运动模糊、高斯模糊或普通模糊滤镜确实改变了我得到的结果。
【问题讨论】:
【参考方案1】:Tesseract 实现了一种算法,该算法根据邻域中数字的数量和类型从字母 Z 中选择数字 2:
在第一张图片中,它猜测 2 而不是 Z,因为它的邻居都是数字 (809),所以它假设第一个数字也必须是数字。我以前遇到过这个问题。 :(
顺便说一句,我认为你应该翻转图像的第一部分,使 HN'
变为 .NH
。
【讨论】:
以上是关于tesseract 在同一图像上的不同结果的主要内容,如果未能解决你的问题,请参考以下文章
Tesseract - 错误 net.sourceforge.tess4j.Tesseract - null
Tesseract 加载语言失败 (Tess4j / Java / Netbeans)
Android OCR 使用 tess-two 一个 tesseract 的分支