读取 PDF 表单文件并返回可填写的字段坐标和字段名称

Posted

技术标签:

【中文标题】读取 PDF 表单文件并返回可填写的字段坐标和字段名称【英文标题】:Reading a PDF form file and returning fill-able field co-ordinates and field name 【发布时间】:2020-02-26 07:48:22 【问题描述】:

我有一个 PDF 文件,它本质上是一个表格。我需要返回可填充的位置;要填写哪些字段,它们的页码和我可以放置边界框的坐标。

我采用了各种方法来处理该问题,但事实证明,使用 PDF 非常困难。

有关 PDF 文件的详细信息:

from pdfrw import PdfReader
pdf = PdfReader('RED-46808(Short).pdf')
print(pdf.keys())
print(pdf.Info)
print(pdf.Root.keys())
print('PDF has  pages'.format(len(pdf.pages)))

返回:

['/Root', '/Info', '/ID', '/Size']
'/CreationDate': "(D:20171003184937+08'00')", '/Creator': '(Microsoft® Word 2013)', '/ModDate': '(D:20200214163844Z)', '/Producer': '(Microsoft® Word 2013)'
['/AcroForm', '/Lang', '/MarkInfo', '/Metadata', '/Names', '/OutputIntents', '/Pages', '/StructTreeRoot', '/Type']
PDF has 5 pages

到目前为止,我所做的是;我可以阅读页面并填写大部分时间都很受欢迎或错过的表格,但我不想填写表格,我只需要获取表格应该填写的坐标并放置一个在适当的地方设置边界框。

import os
import pdfrw


INVOICE_TEMPLATE_PATH = 'RED-46808(Short).pdf'
INVOICE_OUTPUT_PATH = 'output.pdf'


ANNOT_KEY = '/Annots'
ANNOT_FIELD_KEY = '/T'
ANNOT_VAL_KEY = '/V'
ANNOT_RECT_KEY = '/Rect'
SUBTYPE_KEY = '/Subtype'
WIDGET_SUBTYPE_KEY = '/Widget'


def write_fillable_pdf(input_pdf_path, output_pdf_path, data_dict):
    template_pdf = pdfrw.PdfReader(input_pdf_path)
    annotations = template_pdf.pages[0][ANNOT_KEY]
    for annotation in annotations:
        if annotation[SUBTYPE_KEY] == WIDGET_SUBTYPE_KEY:
            if annotation[ANNOT_FIELD_KEY]:
                key = annotation[ANNOT_FIELD_KEY][1:-1]
                if key in data_dict.keys():
                    annotation.update(
                        pdfrw.PdfDict(V=''.format(data_dict[key]))
                    )
#     pdfrw.PdfDict(AP=data_dict[key], V=data_dict[key])
    pdfrw.PdfWriter().write(output_pdf_path, template_pdf)



data_dict = 
   'business_name_1': 'Bostata',
   'customer_name': 'company.io',
   'customer_email': 'joe@company.io',
   'invoice_number': '102394',
   'send_date': '2018-02-13',
   'due_date': '2018-03-13',
   'note_contents': 'Thank you for your business, Joe',
   'item_1': 'Data consulting services',
   'item_1_quantity': '10 hours',
   'item_1_price': '$200/hr',
   'item_1_amount': '$2000',
   'subtotal': '$2000',
   'tax': '0',
   'discounts': '0',
   'total': '$2000',
   'business_name_2': 'Bostata LLC',
   'business_email_address': 'hi@bostata.com',
   'business_phone_number': '(617) 930-4294'


if __name__ == '__main__':
    write_fillable_pdf(INVOICE_TEMPLATE_PATH, INVOICE_OUTPUT_PATH, data_dict)

上面的代码并不总是返回一个填充了标记字段的 PDF,不是特别有用。我不知道从这里去哪里。 如果有人可以帮助我,因为我已经用尽了几乎所有可用的资源。我是使用 PDF 的新手。

【问题讨论】:

【参考方案1】:

如果您还没有,请尝试使用 pdfminer!它有很棒的支持和许多很棒的功能。

您也可以尝试使用可以帮助您定位文本的 PyMuPDF 以及用于突出显示内容的 PyPDF2。它不会创建边界框,但您可能可以在未填充的选项卡旁边输入一些文本,例如“空字段”并突出显示它,这可以替代您需要的方式。

我不确定 python 中是否有任何基于 pdf 的包可以创建边界框。

对于专门创建边界框,您可能必须将 pdf 转换为图像,识别图像中未填充的选项卡,然后使用 OpenCV 之类的包绘制边界框,这将花费很多时间,我我不确定这种方法是否总是有效并且从长远来看是否可行。然后,您还需要将该图像转换回 pdf。所以,这是一个相当长的管道。

【讨论】:

我不想通过基于 python 的库创建边界框。我只想保留该字段的坐标,以便稍后我可以放置一个边界框。我探索了 pdfminer 和 PyPDF2,但 pdfrw 与 reportlab 配合得很好,因此更多地探索 pdfrw。还是谢谢。

以上是关于读取 PDF 表单文件并返回可填写的字段坐标和字段名称的主要内容,如果未能解决你的问题,请参考以下文章

使用 PDFBOX 填写 PDF 表单中的多个字段并在填写后锁定编辑 pdf 文档

从 PDF 表单中提取 PDF 表单字段名称

如何在 iTextSharp 中填写 PDF 表单并支持多种语言?

PHP:预先填写 PDF 文件的字段并将其保存为默认值

基于 Python 的统计模型,用于自动检测 PDF 上表单字段的坐标

PDF 表单与 itext 合并。 C#