从 PDF 中提取绘图
Posted
技术标签:
【中文标题】从 PDF 中提取绘图【英文标题】:Extract plots from PDFs 【发布时间】:2016-06-10 17:54:10 【问题描述】:我们有一个 pdf 页面,其中包含一个或多个数字,这些数字是实验结果的二维图。这些数字可能会或可能不会嵌入到文本中。每个图都有 x 和 y 轴,并在图中标记了它们的标签和单位测量值。每个图形内部都有一个或多个图,每个图都有不同的颜色。
我们如何将绘图转换为对应的 x 和 y 值的表格(比如 100 个点)?
我已经尝试过WebPlotDigitizer,但它仅在输入是独立的情节图片时才有效。
我认为我需要做的是从 PDF 中提取图表并进一步处理。现在,我找不到这样做的工具。我附上了一个sample PDF,必须从中提取地块。
请注意,PDF 最后一页中的 2 个图是图像,可以轻松提取(我找到了几个软件)。其他图不是图像,软件无法提取它们.
有没有开源软件可以做到这一点?
【问题讨论】:
您可以使用ImageMagick
将每个页面转换为 PNG 或 TIFF 文件,然后剪下绘图并将其发送到 WebPlotDigitiser,但我怀疑您不是这个意思,对吗?
【参考方案1】:
您提供的此 PDF 文件中的绘图是用矢量图制作的,因此提取它们的唯一方法是将 PDF 转换为图像(即渲染页面)。试试ImageMagick's convert command line,看看这个answer
【讨论】:
【参考方案2】:由于 Photoshop 非常适合编写脚本,实际上可以通过编程方式从 PDF 中提取图像(与页面相反;请参阅 Photoshop javascript 文档)。
然后,您拥有整套工具来调整图像,从而更容易完成进一步的处理(解释)。
【讨论】:
以上是关于从 PDF 中提取绘图的主要内容,如果未能解决你的问题,请参考以下文章