pdf解析与结构化提取

Posted moonok

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pdf解析与结构化提取相关的知识,希望对你有一定的参考价值。

PDF解析与结构化提取

PDF解析

对于PDF文档,我们选择用PDFMiner对其进行解析,得到文本。

PDFMiner

PDFMiner使用了一种称作lazy parsing的策略,只在需要的时候才去解析,以减少时间和内存的使用。要解析PDF至少需要两个类:PDFParser 和 PDFDocument,PDFParser从文件中提取数据,PDFDocument保存数据。另外还需要PDFPageInterpreter去处理页面内容,PDFDevice将其转换为我们所需要的。PDFResourceManager用于保存共享内容例如字体或图片。 技术分享图片

PDF结构化提取

对于解析得到的中间格式(json格式),我们根据文本的坐标以及位置等信息进行结构化提取。本项目做的主要是医疗报告单的解析与提取。
我们把每份报告单的内容分为四部分:title,head,body(table),bottom 对于我们通过解析拿到的中间格式,我们需要根据某些条件先对其进行分块,将起分为title,head,body(table),bottom这四块,然后再对每一块的信息进行操作处理。 

head_begin的确定

依据
‘姓名‘所在的行定位headbegin,即head起始行,然后将从这一行开始往后的所有行记为lines,往后一次遍历这些行,找headend. 方法
从‘姓名‘行向下一次遍历,看各行是否同时满足如下两个条件: 1 isbaseinfoline() #关键词数量大于1 2 not istable_head() #所含表头常见的关键词数量是否大于2 当某行不同时满足这两个条件时,把该行后边的所有拿出来继续判断是否满足上述条件1,2。若满足,则仍然属于head,加上去;若不满足,则判断是不是body的基本信息 

body_begin

--isbodybaseinfoline()#包含一个关键词且关键词第一个字符位于左半边; 若是body基本信息,则为bodybegin; 否则,不符合headend的那行就是hendend,然后从剩下的行里边找: bottomtmp=newlines[headend:] 然后, findbottompos()#发现y坐标的2/3,即后1/3粗分为bottom(bottomblocklines)行,之前从headend到1/3为body 返回bottomblocklines,body,ylastline(后1/3处y)
最后,取后1/3*页纸张包含的行数与总行的1/3做比较,哪部分包含的行树多则取哪个行为起始行为新的bottom
block_lines开始向下遍历,前边的部分为body,即更加靠上边的部分作为body与bottom的分界。 

bottom_begin

blockywidth=45. #块间距
ybottom=0.85 #整个pdf的后15%
然后从bottom
blocklines的第一行开始向下继续找关键词,如果满足:
1 is
baseinfoline() or 2 len(keytmp>0) and x>halfwidth. or 3 y>ybottom and y-ylastline>blockwidth. 即,当前距后1/3足够宽,足够靠下。
找到符合条件的就作为bottom_index,之后的为bottom,前边遍历过的行接到刚才的body部分作为body。
这样就把pdf文本分成了title,head,body(table),bottom四部分。 

小结

这样就将一个pdf源文件进行了解析与结构化提取。当然,针对不同的pdf源文件的解析结果进行结构化提取时,需要做不同的处理与判定,但只要能通过解析获得中间的json格式,就可以通过坐标和字符的其他属性实现想要的功能。

以上是关于pdf解析与结构化提取的主要内容,如果未能解决你的问题,请参考以下文章

数据结构与算法(中文版) PDF 完整版下载

如何在保持文本结构(标题/副标题/正文)的同时进行 PDF 文本提取的 OCR

非结构化数据与结构化数据提取---正则表达式re模块

MIME消息结构解析与分析

使用 Python 解析 PDF - 提取格式化文本和纯文本 [关闭]

PDF表格结构