Tesseract hOCR:如何检测倒置?
Posted
技术标签:
【中文标题】Tesseract hOCR:如何检测倒置?【英文标题】:Tesseract hOCR: How to detect upside down? 【发布时间】:2014-01-21 13:30:13 【问题描述】:(我将在这里回答我自己的问题以获取一般知识)
在 Tesseract OCR 中,如何检测倒置的图像? 使用过 Tesseract 的人可能知道,也可能不知道,Tesseract可以读取倒置的图像。 然而,问题在于,如果您使用 hOCR 输出,您不知道它是颠倒的,因为文档中没有提到它。
那么如何检测呢?
【问题讨论】:
【参考方案1】:经过仔细检查,我注意到它确实不是直接在 hOCR 输出中,我希望 ocr_page
div
中的某些属性表示方向。
我发现你可以读取每页所有ocr_carea
s 的边界框的 y 值:
这对于 90 度和 270 度旋转可能有效,也可能无效,但很可能您会看到 x 值的类似模式。
【讨论】:
以上是关于Tesseract hOCR:如何检测倒置?的主要内容,如果未能解决你的问题,请参考以下文章
Tesseract 的 hOCR 输出是不是真的包含每个字符的边界框和置信度?