Tesseract：线检测太敏感

Posted 2023-04-17

技术标签:

【中文标题】Tesseract：线检测太敏感【英文标题】：Tesseract : Line detection too sensitive 【发布时间】：2021-08-08 10:13:14 【问题描述】：

我正在尝试检测 .pdf 文件文本。它们首先被转换为图像，然后被提供给 Tesseract。检测很好，但它们造成了太多的换行符。例如，如果文件右侧有点变形，则句子： “我喜欢 Tesseract 来阅读文本” 成为： “像我一样为 Tesseract 阅读文本” 这已经是经过处理了，因为原始文本是： “文本阅读Tesseract喜欢我” 由于源 .pdf 为 300DPI，因此出现该错误，我知道问题出在分辨率上，但我找不到解决方法。这是我的 Tesseract cmd Tesseract.exe dummy.pdf dumy-ocr.pdf --psm 12 --dpi 300 -l bvr+fra+eng+deu hocr pdf 首先，我想解决行数过多的问题，然后我会找出如何使图像完全笔直提前感谢您的帮助

https://i.stack.imgur.com/crmdO.jpg

【问题讨论】：

【参考方案1】：

你似乎在倒退。 “许多”行和因此单词反转是由于逆时针旋转。

                              text"
                      reading 
                  for 
        Tesseract 
   like 
"I

先解决这个问题，然后单词自然会全部放在同一行。

如果将 Leptonica 与 Tesseract 结合使用，它应该有助于进行预处理，包括去偏斜。

但是，有一个非常小但功能强大的开源 GUI 和命令行工具，您可以在 shell 中使用，请参阅https://galfar.vevb.net/wp/projects/deskew/，它也可以在 GitHub 上作为一个 appveyor CI 工件，因此对于最新版本（当前 5 天前），请关注https://github.com/galfar/deskew的绿色勾号

【讨论】：

是的，这也是我发现的解决问题的简单方法，但我希望找到一种方法来扩展或忽略由 Tesseract 创建的确认块，使其只有行。我发现了一个碰巧自动拉直图像的 python 脚本，但我不是这个解决方案的粉丝，但它的工作。

以上是关于Tesseract：线检测太敏感的主要内容，如果未能解决你的问题，请参考以下文章

Tesseract 检测线

难以用 tesseract 检测数字

Tesseract hOCR：如何检测倒置？

Tesseract - 检测图像的小字体大小并转换为文本

使用 OpenCV 检测文本块以发送到 Tesseract iOS

提高 Tesseract 检测质量