将 PDF 转换为 XML 结构
Posted
技术标签:
【中文标题】将 PDF 转换为 XML 结构【英文标题】:Convert PDF to XML structure 【发布时间】:2021-09-06 02:43:35 【问题描述】:我想知道一种方法,如何通过用户将元素映射到特定 XML 结构来转换 PDF 文件。 我看了很多关于convert的视频或频道,但所有频道或视频都是关于商业程序的,并且具有特定的XML结构,我无法更改。我需要获得自己的 XML 结构。
有什么方法,如何实现这一点?我会使用哪种编程语言?
拜托,你能帮帮我吗?
【问题讨论】:
【参考方案1】:首先,看看pdftohtml
它可以选择将其转换为 xml。 它会给你类似的东西:
<?xml version="1.0" encoding="UTF-8"?>
<pdf2xml producer="poppler" version="0.87.0">
<page number="1" position="absolute" top="0" left="0" >
<fontspec id="0" size="18" family="TimesNewRomanPSMT" color="#000000"/>
<fontspec id="4" size="14" family="ArialMT" color="#000000"/>
<image top="53" left="129" src="document-1_1.jpg"/>
<image top="1205" left="812" src="document-1_2.jpg"/>
<text top="58" left="135" font="0"> </text>
<text top="602" left="144" font="4">Ontbreken van het metadataveld ‘taal’; </text>
<text top="622" left="135" font="4">- Foutief gebruik van tabellen voor lay-out doeleinden; </text>
<text top="639" left="135" font="4">- Afbeeldingen zonder omschrijving; </text>
<text top="656" left="135" font="4">- </text>
</page>
</pdf2xml>
但就在那时,一切都开始了。 如何将其转化为有用的东西。因为 pdf 只是由文本片段组成。
从中(重新)创建一个结构是一项挑战。
【讨论】:
感谢您提供非常有用的信息。我突然想到以不同的方式映射元素。我知道 php 会为我翻译这一切,仅此而已。有什么方法可以选择我会立即调用的特定区域吗?例如,作为截止日期等? PHP?有意思,能具体点吗?你是怎么做到的,结果是什么?现在我不知道你想要什么。你需要更具体。也许通过在您的问题中添加一些示例来阐明您的需求…… 我想创建自己的系统,在其中映射将转换为特定 XML 结构的区域。我需要了解如何在 PDF 中标记特定区域?例如。 PDF中有一个日期,我会标记它并为其分配一个XML名称的元素。选择中的值被读取并粘贴到元素中。以上是关于将 PDF 转换为 XML 结构的主要内容,如果未能解决你的问题,请参考以下文章