一个扫描的页面如何像 reCaptcha 项目那样分成单词?

Posted

技术标签:

【中文标题】一个扫描的页面如何像 reCaptcha 项目那样分成单词?【英文标题】:How can a scanned page be divided into words like the reCaptcha project? 【发布时间】:2015-12-24 18:44:08 【问题描述】:

我想以与 reCaptcha 项目类似的方式数字化一本书。是否已经有一个输入图像然后输出围绕单词裁剪的小图像的系统?关于如何做到这一点的任何想法?

【问题讨论】:

【参考方案1】:

您应该查看 reCaptcha 可能基于的 Tesseract OCR 项目。它具有输出识别单词坐标的能力。然后将页面裁剪到这些坐标,就完成了。

【讨论】:

【参考方案2】:

如果您只想将图像拆分为多个图像,每个图像一个单词,您可以尝试找到单词边界框,然后获取这些坐标进行拆分。这可以通过在水平方向上获取文档的直方图/投影然后在垂直方向上获取每一行来完成。可以在本文中找到一个带有一些描述该想法的图片的示例算法:“通过边界框投影技术进行文档页面分解”(http://haralick.org/conferences/71281119.pdf)。你可以在 OpenCV 中实现它。

或者,您可以使用 beppe9000 提到的 Tessaract。也许这有帮助:Getting the bounding box of the recognized words using python-tesseract

但是,即使您只需要边界框,您也会得到训练 OCR 的全部复杂性。

【讨论】:

以上是关于一个扫描的页面如何像 reCaptcha 项目那样分成单词?的主要内容,如果未能解决你的问题,请参考以下文章

如何在单个页面上显示多个recaptchas?

如何解决 Google v3 reCaptcha 超时?

如何创建一个像 Apple Music 艺术家页面上那样的融合导航栏

提交按钮后如何重新加载谷歌recaptcha而不刷新页面? [复制]

在同一页面上验证多个 recaptcha (V2)

当单个页面上存在 2 个表单时,如何使用 jQuery 表单验证插件验证 reCaptcha?