如何使用 PDFrw 在 Python 中从 PDF 中提取数据

Posted

技术标签:

【中文标题】如何使用 PDFrw 在 Python 中从 PDF 中提取数据【英文标题】:How To Extract Data From PDF In Python Using PDFrw 【发布时间】:2015-07-14 18:10:08 【问题描述】:

我正在尝试使用 PDFrw 从某个 PDF 中获取数据(比如说页面右上角的那个HERE)。我正在使用 PDFrw 来执行此操作。我查看了他们提供的文档(我找不到太多)并查看了他们在 git 上发布的示例代码,但我似乎无法获得足够的信息来做我想做的事情。我将如何制作一个简单的程序来使用 PDFrw 进入 PDF(或者如果有更好的程序)并提取一段文本。我正在考虑将其转换为 html... 会更容易吗?以我上面提供的 PDF 为例,我想获得(比方说)电压,在 PDF 中为 600 w...我将如何以最简单的方式执行此操作?我找不到任何其他关于此的堆栈溢出问题,所以希望有人可以帮助以前使用过它的人!

谢谢!

【问题讨论】:

【参考方案1】:

我是 pdfrw 的作者,它并不是为此而设计的。你应该看看 pdfminer。

【讨论】:

以上是关于如何使用 PDFrw 在 Python 中从 PDF 中提取数据的主要内容,如果未能解决你的问题,请参考以下文章

python使用fpdf2包和pdfrw报包新内容添加到已有的PDF页面上

除非在使用 pdfrw 填写后单击,否则 PDF 表单数据不可见

用pdfrw处理后无法移动删除PDF文件。

在 Python 中从 Indeed 中获取员工评分

如何使用Python填写PDF表单

如何使用 python 更改 pdf 中的超链接?