Tesseract:线检测太敏感
Posted
技术标签:
【中文标题】Tesseract:线检测太敏感【英文标题】:Tesseract : Line detection too sensitive 【发布时间】:2021-08-08 10:13:14 【问题描述】:我正在尝试检测 .pdf 文件文本。
它们首先被转换为图像,然后被提供给 Tesseract。
检测很好,但它们造成了太多的换行符。
例如,如果文件右侧有点变形,则句子:
“我喜欢 Tesseract 来阅读文本”
成为:
“像我一样为 Tesseract 阅读文本”
这已经是经过处理了,因为原始文本是:
“文本阅读Tesseract喜欢我”
由于源 .pdf 为 300DPI,因此出现该错误,我知道问题出在分辨率上,但我找不到解决方法。
这是我的 Tesseract cmd Tesseract.exe dummy.pdf dumy-ocr.pdf --psm 12 --dpi 300 -l bvr+fra+eng+deu hocr pdf
首先,我想解决行数过多的问题,
然后我会找出如何使图像完全笔直
提前感谢您的帮助
https://i.stack.imgur.com/crmdO.jpg
【问题讨论】:
【参考方案1】:你似乎在倒退。 “许多”行和因此单词反转是由于逆时针旋转。
text"
reading
for
Tesseract
like
"I
先解决这个问题,然后单词自然会全部放在同一行。
如果将 Leptonica 与 Tesseract 结合使用,它应该有助于进行预处理,包括去偏斜。
但是,有一个非常小但功能强大的开源 GUI 和命令行工具,您可以在 shell 中使用,请参阅https://galfar.vevb.net/wp/projects/deskew/,它也可以在 GitHub 上作为一个 appveyor CI 工件,因此对于最新版本(当前 5 天前),请关注https://github.com/galfar/deskew的绿色勾号
【讨论】:
是的,这也是我发现的解决问题的简单方法,但我希望找到一种方法来扩展或忽略由 Tesseract 创建的确认块,使其只有行。我发现了一个碰巧自动拉直图像的 python 脚本,但我不是这个解决方案的粉丝,但它的工作。以上是关于Tesseract:线检测太敏感的主要内容,如果未能解决你的问题,请参考以下文章