从 PDF 中提取绘图

Posted

技术标签:

【中文标题】从 PDF 中提取绘图【英文标题】:Extract plots from PDFs 【发布时间】:2016-06-10 17:54:10 【问题描述】:

我们有一个 pdf 页面,其中包含一个或多个数字,这些数字是实验结果的二维图。这些数字可能会或可能不会嵌入到文本中。每个图都有 x 和 y 轴,并在图中标记了它们的标签和单位测量值。每个图形内部都有一个或多个图,每个图都有不同的颜色。

我们如何将绘图转换为对应的 x 和 y 值的表格(比如 100 个点)?

我已经尝试过WebPlotDigitizer,但它仅在输入是独立的情节图片时才有效。

我认为我需要做的是从 PDF 中提取图表并进一步处理。现在,我找不到这样做的工具。我附上了一个sample PDF,必须从中提取地块。

请注意,PDF 最后一页中的 2 个图是图像,可以轻松提取(我找到了几个软件)。其他图不是图像,软件无法提取它们.

有没有开源软件可以做到这一点?

【问题讨论】:

您可以使用 ImageMagick 将每个页面转换为 PNG 或 TIFF 文件,然后剪下绘图并将其发送到 WebPlotDigitiser,但我怀疑您不是这个意思,对吗? 【参考方案1】:

您提供的此 PDF 文件中的绘图是用矢量图制作的,因此提取它们的唯一方法是将 PDF 转换为图像(即渲染页面)。试试ImageMagick's convert command line,看看这个answer

【讨论】:

【参考方案2】:

由于 Photoshop 非常适合编写脚本,实际上可以通过编程方式从 PDF 中提取图像(与页面相反;请参阅 Photoshop javascript 文档)。

然后,您拥有整套工具来调整图像,从而更容易完成进一步的处理(解释)。

【讨论】:

以上是关于从 PDF 中提取绘图的主要内容,如果未能解决你的问题,请参考以下文章

如何从Java中提取PDF文件中的表格数据

从pdf文件中提取特定数据

从 xgboost 中提取权重和树结构 - 绘图树

绘图数字化 - 从图形图像中提取样本值

从 PDF 中提取不可选择的内容

从给定坐标提取 PDF 文本