一个扫描的页面如何像 reCaptcha 项目那样分成单词？

Posted 2023-04-17

技术标签:

【中文标题】一个扫描的页面如何像 reCaptcha 项目那样分成单词？【英文标题】：How can a scanned page be divided into words like the reCaptcha project? 【发布时间】：2015-12-24 18:44:08 【问题描述】：

我想以与 reCaptcha 项目类似的方式数字化一本书。是否已经有一个输入图像然后输出围绕单词裁剪的小图像的系统？关于如何做到这一点的任何想法？

【问题讨论】：

【参考方案1】：

您应该查看 reCaptcha 可能基于的 Tesseract OCR 项目。它具有输出识别单词坐标的能力。然后将页面裁剪到这些坐标，就完成了。

【讨论】：

【参考方案2】：

如果您只想将图像拆分为多个图像，每个图像一个单词，您可以尝试找到单词边界框，然后获取这些坐标进行拆分。这可以通过在水平方向上获取文档的直方图/投影然后在垂直方向上获取每一行来完成。可以在本文中找到一个带有一些描述该想法的图片的示例算法：“通过边界框投影技术进行文档页面分解”（http://haralick.org/conferences/71281119.pdf）。你可以在 OpenCV 中实现它。

或者，您可以使用 beppe9000 提到的 Tessaract。也许这有帮助：Getting the bounding box of the recognized words using python-tesseract

但是，即使您只需要边界框，您也会得到训练 OCR 的全部复杂性。

【讨论】：

以上是关于一个扫描的页面如何像 reCaptcha 项目那样分成单词？的主要内容，如果未能解决你的问题，请参考以下文章

如何在单个页面上显示多个recaptchas？

如何解决 Google v3 reCaptcha 超时？

如何创建一个像 Apple Music 艺术家页面上那样的融合导航栏

提交按钮后如何重新加载谷歌recaptcha而不刷新页面？ [复制]

在同一页面上验证多个 recaptcha (V2)

当单个页面上存在 2 个表单时，如何使用 jQuery 表单验证插件验证 reCaptcha？