怎样用Python提取信息呢？分享这3个Python PDF库

Posted 2021-09-10 程序员的小傲娇

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了怎样用Python提取信息呢？分享这3个Python PDF库相关的知识，希望对你有一定的参考价值。

很多时候我们都会用Python去取数据文件，这些文件中很多都是PDF格式，有些PDF文件解析的时候只能解析一部分内容出来，大段的文字没有解析出来，那怎么样才能用Python提取这些信息呢？

下面小千就给大家分享3个Python PDF库：

1、PDFMiner

PDFMiner是一个从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它只用于获取和分析文本数据。PDFMiner能获取页面中文本的准确位置，以及字体或行等其他信息。它还有一个PDF转换器，可以将PDF文件转换成其他文本格式(如html)。还有一个可扩展的解析器PDF，可以用于文本分析以外的其他用途。

地址：https://github.com/euske/pdfminer

2、PyPDF2

PyPDF 2是一个python PDF库，能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据，还可以将整个文件合并在一起。

地址：https://github.com/mstamy2/PyPDF2

3、ReportLab

ReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目，用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的，开源的，用Python编写的。该软件包每月下载5万多次，是标准Linux发行版的一部分，嵌入到许多产品中，并被选中为Wikipedia的打印/导出功能提供动力。

地址：https://www.reportlab.com/opensource/

以上就是小千整理的三个Python PDF库，无论你是提取信息、转换格式、分割剪裁有它们就够了。

本文来自千锋教育，转载请注明出处。

以上是关于怎样用Python提取信息呢？分享这3个Python PDF库的主要内容，如果未能解决你的问题，请参考以下文章

python怎样对返回的一组数据进行特定条件提取，比如如图中怎样提取外观包含的内容，且只打印数字？

python中用tensorflow怎样提取多张图片的特征

怎样用电脑将视频中的音乐提取出来

python重装后怎样配置pycharm

怎样提取PDF文件其中几个页面

怎样用matlab从含有2个变量的方程中提取一个变量出来。。。。。。。。。。。。。