如何使用 Google 的 Vision API 将 PDF（不可搜索）转换为可搜索的 PDF？

Posted 2023-04-17

技术标签:

【中文标题】如何使用 Google 的 Vision API 将 PDF（不可搜索）转换为可搜索的 PDF？【英文标题】：How do I use Google's Vision API to convert a PDF (non-searchable) to a searchable PDF? 【发布时间】：2020-11-16 04:17:55 【问题描述】：

据我所知，Google 的 Vision API 可让您在 PDF 上执行 OCR，但它只返回 JSON 格式的检测到的文本。我需要的是一个可搜索（OCR'd）的 PDF 文件作为回报。这可能吗？

【问题讨论】：

【参考方案1】：

请注意，OutputConfig type 没有任何元数据字段来配置结果文件的格式。如您所知，API 返回一个 JSON 响应。您可以首先使用 API 获取 JSON 数据并探索使用以下任何 repositories for JSON to PDF conversion 或直接使用任何专门用于源 PDF 的专用模块，例如 OCRmyPDF 并避免使用 API完全一致。

【讨论】：

以上是关于如何使用 Google 的 Vision API 将 PDF（不可搜索）转换为可搜索的 PDF？的主要内容，如果未能解决你的问题，请参考以下文章