将 PDF 转换为 XML 结构

Posted

技术标签:

【中文标题】将 PDF 转换为 XML 结构【英文标题】:Convert PDF to XML structure 【发布时间】:2021-09-06 02:43:35 【问题描述】:

我想知道一种方法,如何通过用户将元素映射到特定 XML 结构来转换 PDF 文件。 我看了很多关于convert的视频或频道,但所有频道或视频都是关于商业程序的,并且具有特定的XML结构,我无法更改。我需要获得自己的 XML 结构。

有什么方法,如何实现这一点?我会使用哪种编程语言?

拜托,你能帮帮我吗?

【问题讨论】:

【参考方案1】:

首先,看看pdftohtml

它可以选择将其转换为 xml。 它会给你类似的东西:

<?xml version="1.0" encoding="UTF-8"?>
<pdf2xml producer="poppler" version="0.87.0">
<page number="1" position="absolute" top="0" left="0"  >
    <fontspec id="0" size="18" family="TimesNewRomanPSMT" color="#000000"/>
    <fontspec id="4" size="14" family="ArialMT" color="#000000"/>
    <image top="53" left="129"   src="document-1_1.jpg"/>
    <image top="1205" left="812"   src="document-1_2.jpg"/>
    <text top="58" left="135"   font="0"> </text>
    <text top="602" left="144"   font="4">Ontbreken van het metadataveld ‘taal’; </text>
    <text top="622" left="135"   font="4">- Foutief gebruik van tabellen voor lay-out doeleinden; </text>
    <text top="639" left="135"   font="4">- Afbeeldingen zonder omschrijving; </text>
    <text top="656" left="135"   font="4">- </text>
 </page>
 </pdf2xml>

但就在那时,一切都开始了。 如何将其转化为有用的东西。因为 pdf 只是由文本片段组成。

从中(重新)创建一个结构是一项挑战。

【讨论】:

感谢您提供非常有用的信息。我突然想到以不同的方式映射元素。我知道 php 会为我翻译这一切,仅此而已。有什么方法可以选择我会立即调用的特定区域吗?例如,作为截止日期等? PHP?有意思,能具体点吗?你是怎么做到的,结果是什么?现在我不知道你想要什么。你需要更具体。也许通过在您的问题中添加一些示例来阐明您的需求…… 我想创建自己的系统,在其中映射将转换为特定 XML 结构的区域。我需要了解如何在 PDF 中标记特定区域?例如。 PDF中有一个日期,我会标记它并为其分配一个XML名称的元素。选择中的值被读取并粘贴到元素中。

以上是关于将 PDF 转换为 XML 结构的主要内容,如果未能解决你的问题,请参考以下文章

xml 使用document4j将Docx转换为PDF

怎么用JAVA实现XML到PDF的转换?

xml转换为pdfgithub

xml 使用apche poi,xdocreport和itext扩展将Docx转换为PDF

XSL 转换后在 PDF 中保留空白

Oxygen XML网络研讨会(周三)|将HTML文档转换为PDF,第1部分-基本CSS布局