Python | 实现pdf文件分页

Posted 婉儿hye

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python | 实现pdf文件分页相关的知识,希望对你有一定的参考价值。

pdf的分页,我们在现实生活中,是难免会遇到的事。当你遇到时,你是怎么解决的呢? 在Python中,实现pdf分页,是极其简单快速的,只需要运行几行代码,即可实现,不管你的pdf文件有多大,下面让我们一起来看看吧~

不知道大家有没有遇到过这么一种情况,就比如一个pdf格式的电子书,我们经常浏览的是其中的一部分,而这电子书的页数很大,每当需要浏览时,就需要翻到对应的页码,就有点儿繁琐。

还有一些情况,比如,我们想分享pdf文件里的部分内容给别人,我们也需要用到pdf分页,不仅可以分析指定内容,而且也可以减少发送文件的大小O(∩_∩)O哈哈~

总之,pdf的分页,我们在现实生活中,是难免会遇到的事。当你遇到时,你是怎么解决的呢?

在Python中,实现pdf分页,是极其简单快速的,只需要运行几行代码,即可实现,不管你的pdf文件有多大,下面让我们一起来看看吧~
注:每部分代码的作用,我都注释在了代码后面,注意查看喔~

from PyPDF2 import PdfFileReader, PdfFileWriter
import os


def split(path, page_num):
try: # 捕获值异常错误,就是只输入了一个页数的时候
page_start, page_end = page_num.split()
except ValueError:
page_start = page_num
page_end = page_num
output_name = os.path.splitext(path)[0] + f(page_start-page_end).pdf # 输出分割后的pdf文件
page_start, page_end = int(page_start), int(page_end) # 将页码转为整数类型
if os.path.splitext(path)[1] == : # 判断文件格式是否以.pdf结尾
path = path + ".pdf"
try:
pdf = PdfFileReader(path) # 读取pdf
except FileNotFoundError:
print("Error:请确认您输入的pdf文件是否存在!")
return
pdf_writer = PdfFileWriter() # pdf写入对象

if page_start < 1 or page_end > pdf.getNumPages(): # 判断页码是否在合理范围内,即有没有小于或大于pdf文件的页数
print("Error:页码超出合理范围,请确定您输入的页数区间在合理范围之内!")
return
for page in range(page_start-1, page_end): # 需要分割的pdf页数区间,因为读取的页数是从0开始计数的,所以减1
pdf_writer.addPage(pdf.getPage(page)) # pdf页数读取,存于内存,并未开始写入
with open(output_name, wb) as output_pdf:
pdf_writer.write(output_pdf) # 开始写入指定页数区间的pdf
print("分页完成,注意查收:" + output_name)


if __name__ == __main__:
source_path = input("请输入需要分割的pdf的文件:") # 需要分割的pdf文件
pages = input("请输入分割的起始页和终止页,以空格分开:")
split(source_path, pages)

其实最主要的代码就下面的几行:

pdf = PdfFileReader(path)  # 读取pdf
pdf_writer = PdfFileWriter() # pdf写入对象
for page in range(page_start, page_end): # 需要分割的pdf页数区间
pdf_writer.addPage(pdf.getPage(page)) # pdf页数读取,存于内存,并未开始写入
with open(output_name, wb) as output_pdf:
pdf_writer.write(output_pdf) # 开始写入指定页数区间的pdf

我只是在其基础上增加了一些异常错误捕获并解决的代码,并实现代码的循环利用,而不是只针对于一个pdf文件。

代码使用展示:

1.源文件

Python


书的页数还是挺大的

Python

2.目标页数区间

Python

注意,虽然这里的页码是​​271​​​,但并不代表就是​​271​​,因为读取的pdf文件页码是整个文件的页码,就比如书的封面,目录的页数也得包含进去。

所以,我们可以简单算一下,书的页码第一页与到封面差了几页,我这里差的是​​13​​​页,所以就是​​271+13=284​​​作为分割起始页,需要截取的页数对应书上的页码是​​276​​​,​​276+13=289​​​,所以终止页就是​​289​​了

Python

Python

3.代码运行

Python

Python

4.异常捕获的代码展示:

输入的起始页小于1:

Python

pdf页码一共才600页,然后输入了终止页为700:

Python

5.其它

要求的是区间,但你可以输入​​1 1​​​,​​1​​:

Python

Python

Python

代码还可以继续完善,感兴趣的小伙伴可以开动开动一下自己聪明的脑袋瓜子haha

箴言:因为这些东西是非常简单的。不要抱怨自己学不会,那是因为你没有足够用心。



以上是关于Python | 实现pdf文件分页的主要内容,如果未能解决你的问题,请参考以下文章

如何使用Python玩转PDF各种骚操作?你看了就知道。

使用Python自定义页数分割PDF文件

如何批量读取文件(PDF或Word)页数并自动显示在文件名称中?

python测试开发django-116.Paginator分页器页数大时显示省略号...

Django中使用JS通过DataTable实现表格前端分页,每页显示页数,搜索等功能

java html太大转pdf会不会自动分页问题