Python处理PDF和Word文档常用的方法

Posted 漂在远方

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python处理PDF和Word文档常用的方法相关的知识,希望对你有一定的参考价值。

         Python处理PDF和Word文档的模块是PyPDF2,使用之前需要先导入。

打开一个PDF文档的操作顺序是:用open()函数打开文件并用一个变量来接收,然后把变量给传递给PdfFileReader对象,形成一个PdfFileReader对象,这样用PdfFileReader对象下面的各种方法、属性去操作PDF文档。

          PdfFileReader对象常用方法:

(1)、PyPDF2.PdfFileReader()方法:代表一个PdfFileReader对象。

(2)、getPage() 方法:获取FDF文档页数;

(3)、extractText()方法:获取当前PDF文档当前页面的文本内容。

(4)、decrypt()方法:用来给加密的PDF文档接收密码;

 

PdfFileReader对象常用属性:

(1)、pdfReader.numPages 属性:获取当前文档对象总页数。

(2)、 isEncrypted 属性:用于判断PDF文档是否是加密的,如果是加密的,返回True,否则返回False.

例如:

>>> import PyPDF2
>>> pdfFileObj = open(‘meetingminutes.pdf‘, ‘rb‘)
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
? >>> pdfReader.numPages
19
? >>> pageObj = pdfReader.getPage(0)
? >>> pageObj.extractText()

 

 PdfFileWriter 对象

操作顺序:

1.打开一个或多个已有的 PDF(源 PDF) ,得到 PdfFileReader 对象。
2.创建一个新的 PdfFileWriter 对象。
3.将页面从 PdfFileReader 对象拷贝到 PdfFileWriter 对象中。
4.最后,利用 PdfFileWriter 对象写入输出的 PDF。

 

PdfFileWriter 对象常用方法:

addPage()方法:将源PDF文档页面添加到新的PDF文档里面(复制)。

write()方法:将PdfFileWriter 对象保存的信息写入到变量(文件)中。


例如:

import  PyPDF2
minutesFile=open(‘meetingminutes.pdf‘,‘rb‘)
pdfReader=PyPDF2.PdfFileReader(minutesFile)
page=pdfReader.getPage(0)
print(page.rotateClockwise(90))
pdfWriter=PyPDF2.PdfFileWriter() ###创建一个PdfFileWriter()对象;
pdfWriter.addPage(page) ##把复制的源PDF的page页面添加到新的PdfFileWriter() 对象中;
pdfoutFile=open(‘rotatedPage.pdf‘,‘wb‘) ###打开一个名为“rotatedPage.pdf”的文档(没有则新建),然后用一个pdfoutFile变量来接收它。
pdfWriter.write(pdfoutFile) ####用PdfFileWriter()对象的write方法写入到变量中;
pdfoutFile.close()
minutesFile.close()

 

以上是关于Python处理PDF和Word文档常用的方法的主要内容,如果未能解决你的问题,请参考以下文章

使用Python将Microsoft Word文档转换为PDF

用java将简单的word文档换成pdf文档

基于pdf2docx模块Python实现批量将PDF转Word文档(安装+完整代码教程)

word转换pdf丢失文字怎么处理

4办公自动化Python实现Word转PDF

将PDF文件转换为word文档格式