有没有办法用小字体改进 tesseract OCR？

Posted 2023-04-17

技术标签:

【中文标题】有没有办法用小字体改进 tesseract OCR？【英文标题】：Is there any way to improve tesseract OCR with small fonts? 【发布时间】：2011-06-22 00:25:27 【问题描述】：

我正在尝试通过 python-tesseract 使用 tesseract-OCR 来读取如下所示的低分辨率字体：

不幸的是，图像返回

ZIJZHZI

我认为分辨率太低会导致问题。我尝试放大图像，并将其裁剪为单个字符，但这些都没有提供太大的改进。还有什么我应该考虑做的事情，最好是可以使用 Python Imaging Library 完成的事情？或者我应该放弃/训练 tesseract。

不管怎样，PIL 有以下内置过滤器：

模糊、轮廓、细节、EDGE_ENHANCE、 EDGE_ENHANCE_MORE、浮雕、FIND_EDGES、 SMOOTH、SMOOTH_MORE 和 SHARPEN

【问题讨论】：

尝试使用抗锯齿调整 x6 大小。我在截图上试过了，效果不错。 【参考方案1】：

我尝试使用以下方法放大图像：

  convert -resize 400% in.bmp out.bmp

然后阅读：

  tesseract out.bmp res

结果正确：

【讨论】：

convert 是 ImageMagick 的一部分，它只是调整图像大小它在正常分辨率下对我有帮助，结果是“mm readmxs”，在调整输出文件大小后显示“你能读懂这个吗？” @RobertMihaiIonas，你能提供图片吗？ convert 完成这项工作，但 tesseract out.bmp stdout -psm 12 psm 12 是必需的

以上是关于有没有办法用小字体改进 tesseract OCR？的主要内容，如果未能解决你的问题，请参考以下文章

通过删除特殊字符改进 Tesseract OCR 结果

Windows上使用Tesseract-ocr识别藏文天城体梵文

Tesseract-OCR 安装中文识别与训练字库

Tesseract ocr PDF 作为输入

7段显示OCR

Tesseract OCR：如何找到每个返回字符的读取错误大小？