将覆盖 HTML 传递到图像的 OCR?
Posted
技术标签:
【中文标题】将覆盖 HTML 传递到图像的 OCR?【英文标题】:OCR that delivers overlay HTML to an Image? 【发布时间】:2013-05-06 17:33:13 【问题描述】:我正在寻找一种将覆盖 html 渲染到图像的 OCR 软件。我目前正在使用一些未命名的产品。它具有 OCR 功能,可以对带有图像的 PDF 文档进行内联 OCR。
内联 OCR 非常方便,它允许在带有图像的 PDF 文档中搜索文本。也可以直接在文档中突出显示文本,OCR 文本与底层图像对齐。不幸的是,我不能从未命名的产品中导出或存储内联 OCR。
是否有其他软件可以执行和导出内联 OCR?我对导出到由与底层图像对齐的定位段落组成的 HTML 尤其感兴趣。
另请参阅:https://***.com/questions/11404805/ocr-and-the-location-of-the-image-where-the-scanned-document-came-from
【问题讨论】:
我也对这个问题感兴趣。 (我假设“未命名”意味着它是专有的,而不是你不知道它是什么)。您是在训练 OCR 还是假设它会根据给定的字符集进行解释。 shapecatcher.com 会帮助您吗 - 它针对标准 Unicode 字形集运行位图? 谢谢。我正在制作一个完全开源的解决方案来提取信息(bitbucket.org/petermr/pdf2svg-dev 和 bitbucket.org/petermr/svg2xml-dev from PDF,但在图像/OCR 部分还没有做太多。我希望先解决 ANSI,但不要屏住呼吸。 【参考方案1】:我发现 Google Drive API 在需要 OCR 时很有帮助。它试图保留文档的格式,当然可以导出为 HTML。
看看以下链接:
https://support.google.com/drive/answer/176692?hl=en https://developers.google.com/drive/v2/reference/files/insert?hl=en【讨论】:
【参考方案2】:我有一个可能的解决方案给你。但是,这个特殊的解决方案有一些缺点,可能会阻碍你的最终目标。
首先将图像文件转换为pdf:http://finereader.abbyyonline.com 然后在http://document.online-convert.com/convert-to-html将pdf转换为html
这个解决方案适用于纸张大小的东西,最终结果是带有图像叠加层的 html,如果你想要的只是带有图像格式的 html,只需使图像完全透明。
【讨论】:
以上是关于将覆盖 HTML 传递到图像的 OCR?的主要内容,如果未能解决你的问题,请参考以下文章