浏览pdf文件以查找特定页面并使用python从图像中提取表格数据

Posted

技术标签:

【中文标题】浏览pdf文件以查找特定页面并使用python从图像中提取表格数据【英文标题】:Navigate through a pdf file to find specific pages and extract tabular data from image with python 【发布时间】:2022-01-18 12:23:44 【问题描述】:

我遇到了一项任务,该任务要求我通过 python 代码从 pdf 文件中的图像中提取表格数据到格式整齐的数据帧。有几个文件要处理,所有文件中的相关页面可能有不同的页码,因此这个问题的步骤顺序(我的假设)是:

    导航到 pdf 的相关部分 提取表格数据的图像 从图像中提取数据、格式化并转换为数据帧。

一些谷歌搜索导致我找到了用于 pdf 文本提取、表格提取等的库 - 仅限模块化解决方案。

我希望能在这方面提供一些帮助。我应该使用哪些软件包?我的方法正确吗? 对于类似的问题,我可以参考任何有用的代码 sn-ps 吗?

page structure of the required tables

【问题讨论】:

应用程序是什么?这是商业服务的东西——你可以建造或购买。你做一些图像校正、OCR、清理/错误校正。您还可以尝试 Azure Form Recognizer 服务或 AWS 等效服务。 请提供足够的代码,以便其他人更好地理解或重现问题。 【参考方案1】:

这始于评论。我相信答案是有效的,因为它绝不是对服务的认可。我什至不使用它。我知道 Azure 也使用 SO。

这是商业服务的东西。你可以试试 Azure 表单识别器(我不隶属于它):

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer

以下是一些如何使用它的python示例:

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/how-to-guides/try-sdk-rest-api?pivots=programming-language-python

AWS 等价物是 Textract https://aws.amazon.com/textract

Google Cloud 版本称为 Form Parser - 请参阅 https://cloud.google.com/document-ai/docs/processors-list#processor_form-parser

【讨论】:

以上是关于浏览pdf文件以查找特定页面并使用python从图像中提取表格数据的主要内容,如果未能解决你的问题,请参考以下文章

在 PDF 文件中查找文本位置

从pdf 文件中抽取特定的页面

PDF如何在线删除特定的页面

vue整合pdfjs,实现pdf文件预览

以特定顺序将多个页面导出为 PDF

指向 PDF 中特定页面的 HTML 链接