使用 Google Cloud Vision 的 OCR PDF 文件？

Posted 2023-04-17

技术标签:

【中文标题】使用 Google Cloud Vision 的 OCR PDF 文件？【英文标题】：OCR PDF Files Using Google Cloud Vision? 【发布时间】：2019-02-19 23:19:04 【问题描述】：

目前是否有任何服务或软件工具使用 Google Cloud Vision 作为 OCRing 扫描的 PDF 文件的后端？

如果不是，如何使用 Google Cloud Vision 将 PDF 转换为 OCRed PDF？据我所知，Cloud Vision 目前支持 PDF 文件，但它只会将识别的文本输出为 JSON 文件。因此，似乎需要在单独的步骤中执行额外的步骤，将转换后的文本放置在 Google Cloud Vision 之外的 PDF 内的图像顶部。

背景：

我经常需要将扫描的 PDF 文件转换为包含 OCRed 文本层的 PDF 文件。到目前为止，我一直在使用 OCRKit 或 ABBYY FineReader 等软件。我根据 Google Cloud Vision 的文本识别能力测试了这些解决方案的准确性，后者遥遥领先。

【问题讨论】：

OCR.space freemium OCR API 支持 PDF 输入并从中创建 searchable PDF。 ocr 质量非常好，虽然不如谷歌云视觉。但它是免费的。 【参考方案1】：

正如其他人所提到的，您需要使用第三方工具来执行此操作。

首先使用gcv2hocr将google cloud vision响应json转换成hocr文件：

gcv2hocr test.jpg.json output.hocr

然后使用hocr-tools将hocr数据拼接到pdf文件中。下面的命令将在“imgdir”文件夹中查找，并将具有相同名称的 .hocr 和 .jpg 合并到 out.pdf 中的页面中。

hocr-pdf --savefile out.pdf <imgdir>

【讨论】：

【参考方案2】：

正如您所提到的，responses retrieved by Vision API 仅适用于 JSON 格式；因此，需要在您的解决方案中包含一个额外的步骤，使用third-party libraries，以便根据响应的内容创建 PDF 文件。

如果此功能不能满足您当前的需求，您可以使用位于service public documentation 左下角和右上角的发送反馈按钮，以及采取查看Issue Tracker 工具以raise a Vision API feature request 并向Google 通知此所需功能。

【讨论】：

Here 是功能请求。如果您希望谷歌添加它，请投票。

以上是关于使用 Google Cloud Vision 的 OCR PDF 文件？的主要内容，如果未能解决你的问题，请参考以下文章