ghostscript.net 可以将 PDF 文件分成多个部分吗？

Posted 2023-02-25

技术标签:

【中文标题】ghostscript.net 可以将 PDF 文件分成多个部分吗？【英文标题】：Can ghostscript.net divide a PDF file to multiple sections? 【发布时间】：2020-01-12 22:24:47 【问题描述】：

我有一个很长的 PDF 文件（58x500 英寸）。目标是将一个大型矢量 pdf 文件划分为一定百分比。例如 %25 = 125 英寸高，而宽度保持不变。所以一个大的pdf会被分成4页。

ImageMagick 能够做到这一点，但如果我将 dpi 更改为 300，它会崩溃。是否可以使用 Ghostscript 做到这一点？我目前正在使用 Ghostscipt.net 和 C#。

有人能指出正确的方向吗？

【问题讨论】：

ImageMagick 使用 Ghostscript，它总是光栅化您的 PDF。这就是为什么您在 300 dpi 下使用如此大的 PDF 时内存不足的原因。如果 RAM 用完，您可以调整 ImageMagick 资源以使用磁盘空间。但我怀疑你想要一个光栅化的 PDF 输出。所以 ImageMagick 和 Ghostscript 都不会保留矢量数据。 netvips github.com/kleisauke/net-vips 将进行渐进式 PDF 渲染（它使用 poppler 而不是 ghostscript），因此您可以以 300 DPI 渲染整个页面并将其写成四个巨大的光栅文件。如果四个巨大的光栅是好的。正如 fmw42 所说，您可能更喜欢矢量图。可以做到这一点，并将内容保留为矢量，但您需要运行 PDF 4 次才能实现。基本上每次您需要设置固定媒体大小时，将您希望在输出中的输入 PDF 内容翻译到固定媒体上，然后运行 PDF 文件。对每个片段重复一次。我在度假时无法发布答案，但如果您在 Ghostscript 标签中搜索，我之前发布的程序可以提取 PDF 的一部分。谢谢大家。 @jcupitt 我一定会看看这个。这听起来正是我需要它做的。 @KenS 这听起来也很有希望。我想知道是否可以读取大型 PDF 文件的一部分而不是写入光栅化文件？这样，它只需要阅读一次 PDF。 【参考方案1】：

我在评论中提到了netvips——它将进行渐进式 PDF 渲染（它使用 poppler 而不是 ghostscript），因此您可以以 300 DPI 加载整个页面并将其写成四个巨大的光栅文件。

我实际上并没有在这台笔记本电脑上安装 C#，但这是你在 Python 中所做的。 C# 代码几乎相同。

import sys
import pyvips

image = pyvips.Image.image_new_from_file(sys.argv[1], dpi=300, access="sequential")
n_pages = 4

for n in range(n_pages):
    filename = f"page-n.tif"
    print(f"rendering filename ...")

    y = int(n * image.height / n_pages)
    page_height = int(min(image.height / n_pages, image.height - y))
    page = image.crop(0, y, image.width, page_height)
    page.write_to_file(filename)

access="sequential" 将 libvips 置于顺序模式——像素将仅根据最终写入操作的需求进行计算。您应该能够仅使用少量内存来渲染 200,000 像素高的图像。

tif当然不用，jpg可能比较明智，如果是打印，很少人会注意到。

正如大家所说，最好尽可能保持矢量格式。

【讨论】：

这就像一个魅力。非常感谢。很高兴知道除了 Ghostscript 之外还有其他选择。【参考方案2】：

我从假期回来，可以查看我以前的答案。这个：

Ghostscript : Crop Certain Area?

演示如何将原始输入文件的一部分渲染为位图。我建议您使用完全相同的技术，但使用 pdfwrite 设备而不是 png16m 设备，这样您就可以得到一个 PDF 文件作为输出，从而保持输入的矢量性质。

所以用那里的答案来解释，这个：

gs -sDEVICEWIDTHPOINTS=72 -dDEVICEHEIGHTPOINTS=144 -dFIXEDMEDIA -r300 -sDEVICE=pdfwrite -o out.pdf -c "<</PageOffset [-180 -108]>> setpagedevice" -f input.pdf

将创建一个 1 英寸宽、2 英寸高的“窗口”，从原件左侧 2.5 英寸开始，从底部向上 1.5 英寸。然后它运行输入，它位于该窗口内的每个位置都被保留，位于它之外的所有内容都被删除。

您需要多次执行此操作，每个部分执行一次。

我应该提到 Ghostscript 本身完全能够将整个 PDF 文件呈现为文档。它对非常大的输出文件使用相同类型的显示列表方法，在其中创建原始输入的（简化）表示，并多次运行该描述。每次渲染最终输出的一个水平波段，然后向下移动到下一个波段，依此类推。

IMO 可能在您的原始体验中 300 dpi 的限制因素是 ImageMagick 而不是 Ghostscript，我知道 Ghostscript 能够以 1200 dpi 或更高的速度渲染每个维度上几米的输入，尽管它确实如此，当然，产生千兆字节的数据需要很长时间。

【讨论】：

以上是关于ghostscript.net 可以将 PDF 文件分成多个部分吗？的主要内容，如果未能解决你的问题，请参考以下文章

使用 Ghostscript.NET 包装器打印 PDF - 空白页

Ghostscript.NET.dll 打印pdf到指定打印机

Ghostscript.net 打印 pdf 页面方向

如何使用 Ghostscript 和 Ghostscript .NET 通过嵌入 IIC 配置文件生成正确的 PDF/A

Ghostscript.NET 图片文字质量问题

打印时出现 GhostScript 图像质量问题