使用 Google Cloud Vision 的 OCR PDF 文件?

Posted

技术标签:

【中文标题】使用 Google Cloud Vision 的 OCR PDF 文件?【英文标题】:OCR PDF Files Using Google Cloud Vision? 【发布时间】:2019-02-19 23:19:04 【问题描述】:

目前是否有任何服务或软件工具使用 Google Cloud Vision 作为 OCRing 扫描的 PDF 文件的后端?

如果不是,如何使用 Google Cloud Vision 将 PDF 转换为 OCRed PDF?据我所知,Cloud Vision 目前支持 PDF 文件,但它只会将识别的文本输出为 JSON 文件。因此,似乎需要在单独的步骤中执行额外的步骤,将转换后的文本放置在 Google Cloud Vision 之外的 PDF 内的图像顶部。

背景:

我经常需要将扫描的 PDF 文件转换为包含 OCRed 文本层的 PDF 文件。到目前为止,我一直在使用 OCRKit 或 ABBYY FineReader 等软件。我根据 Google Cloud Vision 的文本识别能力测试了这些解决方案的准确性,后者遥遥领先。

【问题讨论】:

OCR.space freemium OCR API 支持 PDF 输入并从中创建 searchable PDF。 ocr 质量非常好,虽然不如谷歌云视觉。但它是免费的。 【参考方案1】:

正如其他人所提到的,您需要使用第三方工具来执行此操作。

首先使用gcv2hocr将google cloud vision响应json转换成hocr文件:

gcv2hocr test.jpg.json output.hocr

然后使用hocr-tools将hocr数据拼接到pdf文件中。下面的命令将在“imgdir”文件夹中查找,并将具有相同名称的 .hocr 和 .jpg 合并到 out.pdf 中的页面中。

hocr-pdf --savefile out.pdf <imgdir>

【讨论】:

【参考方案2】:

正如您所提到的,responses retrieved by Vision API 仅适用于 JSON 格式;因此,需要在您的解决方案中包含一个额外的步骤,使用third-party libraries,以便根据响应的内容创建 PDF 文件。

如果此功能不能满足您当前的需求,您可以使用位于service public documentation 左下角和右上角的发送反馈按钮,以及采取查看Issue Tracker 工具以raise a Vision API feature request 并向Google 通知此所需功能。

【讨论】:

Here 是功能请求。如果您希望谷歌添加它,请投票。

以上是关于使用 Google Cloud Vision 的 OCR PDF 文件?的主要内容,如果未能解决你的问题,请参考以下文章

Google Cloud Vision API PDF 文本提取

如何通过HTTP请求验证Google Cloud Vision

IndexError:带有 Google Cloud Vision API 的字节数组

Google Cloud Vision Document OCR - 在结果文本中保留布局

使用 Google Cloud Vision 的 OCR PDF 文件?

如何提高google cloud vision api的处理速度?