使用 soffice 转换为 pdf 会添加空白页

Posted

技术标签:

【中文标题】使用 soffice 转换为 pdf 会添加空白页【英文标题】:Converting to pdf using soffice adds blank page 【发布时间】:2021-02-19 08:19:44 【问题描述】:

我正在尝试使用 soffice 和 python 将 .ods 文件转换为 pdf:

import os
import subprocess

def ods_to_pdf(ods_filename):
    file = os.path.join(os.getcwd(), ods_filename)
    path_to_soffice = "path/to/soffice"
    subprocess.run([path_to_soffice, "--headless", "--convert-to", "pdf", file], check=True)

它工作正常,但生成的 pdf 最后有一个空白页(有时是两个)。有谁知道我可以如何防止这种行为?代码在以 Ubuntu 18.04 作为基础镜像的 Docker 容器中运行。 LibreOffice 版本:7.1.0(我也试过 6.1.6.3,结果相同)。

【问题讨论】:

【参考方案1】:

我不知道如何阻止 LibreOffice 添加空白页,但通过在转换后删除空白页解决了问题:

import PyPDF2

output = PyPDF2.PdfFileWriter()
    
input = PyPDF2.PdfFileReader(open("file.pdf", "rb"))
number_of_pages = input.getNumPages()

for current_page_number in range(number_of_pages):
    page = input.getPage(current_page_number)
    if page.extractText() != "":
        output.addPage(page)
    
output_stream = open("output.pdf", "wb")
output.write(output_stream)

【讨论】:

以上是关于使用 soffice 转换为 pdf 会添加空白页的主要内容,如果未能解决你的问题,请参考以下文章

soffice.exe 将 odt 转换为 PDF/A

为啥导出的pdf有空白页

在 CLI (soffice) 中通过 Libreoffice 将 XLSX 转换为 PDF 时更改“LiberationSerif”字体

无法读取使用 soffice 命令转换 pdf 后得到的 .docx 文件

在Java中将odt转换为pdf而不启动soffice

iTextSharp 创建带有空白页的 PDF