一个扫描的页面如何像 reCaptcha 项目那样分成单词?
Posted
技术标签:
【中文标题】一个扫描的页面如何像 reCaptcha 项目那样分成单词?【英文标题】:How can a scanned page be divided into words like the reCaptcha project? 【发布时间】:2015-12-24 18:44:08 【问题描述】:我想以与 reCaptcha 项目类似的方式数字化一本书。是否已经有一个输入图像然后输出围绕单词裁剪的小图像的系统?关于如何做到这一点的任何想法?
【问题讨论】:
【参考方案1】:您应该查看 reCaptcha 可能基于的 Tesseract OCR 项目。它具有输出识别单词坐标的能力。然后将页面裁剪到这些坐标,就完成了。
【讨论】:
【参考方案2】:如果您只想将图像拆分为多个图像,每个图像一个单词,您可以尝试找到单词边界框,然后获取这些坐标进行拆分。这可以通过在水平方向上获取文档的直方图/投影然后在垂直方向上获取每一行来完成。可以在本文中找到一个带有一些描述该想法的图片的示例算法:“通过边界框投影技术进行文档页面分解”(http://haralick.org/conferences/71281119.pdf)。你可以在 OpenCV 中实现它。
或者,您可以使用 beppe9000 提到的 Tessaract。也许这有帮助:Getting the bounding box of the recognized words using python-tesseract
但是,即使您只需要边界框,您也会得到训练 OCR 的全部复杂性。
【讨论】:
以上是关于一个扫描的页面如何像 reCaptcha 项目那样分成单词?的主要内容,如果未能解决你的问题,请参考以下文章
如何创建一个像 Apple Music 艺术家页面上那样的融合导航栏