PDF 表单(例如 w2/1040/etc)的文档转换为键/值,而不是基于字体信息的单个字符串
Posted
技术标签:
【中文标题】PDF 表单(例如 w2/1040/etc)的文档转换为键/值,而不是基于字体信息的单个字符串【英文标题】:Document Converstion for PDF form (eg. w2/1040/etc) as key/values instead of a single string based on font information 【发布时间】:2017-05-18 21:23:45 【问题描述】:尝试使用文档转换服务来捕获 pdf 文档的 json 键/值对,例如(w2/1040/etc 表单)。
json 响应中此类表单的内容作为“内容”下的“文本”的一部分出现。缺少表单数据,但主要将表单标签呈现为单个字符串。
我想知道是否有办法将 pdf (w2/1040/etc) 的表单数据捕获为 json 中的键/值而不是单个字符串?
谢谢。
【问题讨论】:
【参考方案1】:很遗憾,文档转换服务目前不支持 PDF 格式的表单。最多,它可以将某些表单识别为表,但不能识别为键/值对。
如果它将表单识别为表格,您仍然需要进行一些重要的后处理以将其映射到键/值对。
【讨论】:
以上是关于PDF 表单(例如 w2/1040/etc)的文档转换为键/值,而不是基于字体信息的单个字符串的主要内容,如果未能解决你的问题,请参考以下文章
使用 PDFBOX 填写 PDF 表单中的多个字段并在填写后锁定编辑 pdf 文档
这些 PDF 对象在所有使用 Acroforms 或 XFA 表单的文档中是不是正常?