PDF 表单(例如 w2/1040/etc)的文档转换为键/值,而不是基于字体信息的单个字符串

Posted

技术标签:

【中文标题】PDF 表单(例如 w2/1040/etc)的文档转换为键/值,而不是基于字体信息的单个字符串【英文标题】:Document Converstion for PDF form (eg. w2/1040/etc) as key/values instead of a single string based on font information 【发布时间】:2017-05-18 21:23:45 【问题描述】:

尝试使用文档转换服务来捕获 pdf 文档的 json 键/值对,例如(w2/1040/etc 表单)。

json 响应中此类表单的内容作为“内容”下的“文本”的一部分出现。缺少表单数据,但主要将表单标签呈现为单个字符串。

我想知道是否有办法将 pdf (w2/1040/etc) 的表单数据捕获为 json 中的键/值而不是单个字符串?

谢谢。

【问题讨论】:

【参考方案1】:

很遗憾,文档转换服务目前不支持 PDF 格式的表单。最多,它可以将某些表单识别为表,但不能识别为键/值对。

如果它将表单识别为表格,您仍然需要进行一些重要的后处理以将其映射到键/值对。

【讨论】:

以上是关于PDF 表单(例如 w2/1040/etc)的文档转换为键/值,而不是基于字体信息的单个字符串的主要内容,如果未能解决你的问题,请参考以下文章

使用 PDFBOX 填写 PDF 表单中的多个字段并在填写后锁定编辑 pdf 文档

这些 PDF 对象在所有使用 Acroforms 或 XFA 表单的文档中是不是正常?

上传表单:可以上传纯文本 .txt 文档,但不能上传 .docx 或 PDF...?

如何创建和填写 PDF 表单

如何查找 PDF 表单字段类型

我如何使用 pdf-form gem 在 Rails 中创建 Pdf