如何从命令行从 pdf 中删除隐藏的裁剪元素?

Posted

技术标签:

【中文标题】如何从命令行从 pdf 中删除隐藏的裁剪元素?【英文标题】:How to delete the hidden cropped elements from a pdf from the command line? 【发布时间】:2012-06-20 00:12:48 【问题描述】:

我已经尝试了许多解决方案来根据坐标裁剪 pdf 页面上的元素,但是生成的 pdf 大小相同,并且额外的元素只是被屏蔽而不是被删除。我找到了this solution,但我正在寻找一个命令行工具。

【问题讨论】:

我使用 Apago 的 pdfE 找到了一个更好的解决方案。它可以完成工作,而且速度也快得多。 【参考方案1】:

我知道的唯一可以做到这一点的方法同时保留 CropBox 中的所有 PDF 对象在命令行(Windows、Linux、MacOSX)上工作是@987654321 的商业/付费软件@。

如果您可以接受,请在评论中指出,我将更新答案并提供更多详细信息。

否则另一种方法是将(裁剪的)PDF 页面转换为图像(例如在 Ghostscript 的帮助下转换为 TIFF),然后将图像重新转换回 PDF。所有以前的 PDF 对象都将消失,现在唯一的(图形)“对象”将是嵌入在 PDF 页面上的图像。

如果您可以接受,请在评论中指出这一点,我将更新答案并提供更多详细信息。

【讨论】:

callassoftware 绝对是我们可以使用的东西。我可以得到一些关于这个的更多细节吗? ghostscript 方法的主要问题是,我无法从生成的图像中选择文本。主要要求是能够在裁剪元素时选择文本。 @vivek85:您可以通过随后对 PDF 应用 OCR(光学字符识别)工具来“修复”该缺陷(无法从结果图像中选择文本)。这会将文本嵌入为“隐藏”文本(不直接可见,但可选择;可见的仍然只是图像)。 关于 callassoftware 工具的任何指针?我下载了 CLI 版本,但找不到任何直接的裁剪方法。 @vivek85:如果没有 'profile'(.kfpx 文件名后缀),callassoftware 工具本身并不能做很多事情。但是,您需要使用该软件的 GUI/桌面版本创建该配置文件。您只能获得用于 Windows 和 Mac OS X 的 GUI。但是在创建配置文件后,在 Win/Mac 上,您可以导出它并将其与 Linux 命令行版本一起使用。所以最简短的解释是:创建一个配置文件以在 Win 或 Mac 上删除不需要的元素,将其导出为文件 *.kfpx,并在 Linux 上使用调用该配置文件的 CLI...

以上是关于如何从命令行从 pdf 中删除隐藏的裁剪元素?的主要内容,如果未能解决你的问题,请参考以下文章

如何通过命令行从docker hub删除docker镜像?

如何修剪PDF中不需要的文本?

如何使用 python 命令行从文件中运行 python 函数?

如何通过命令行从多个文件夹中获取完整文件名到 csv

如何使用命令行从私有 github 存储库下载单个原始文件?

如何从 WKWebview 中删除或隐藏 PDF 的页面计数器?