pdf文件的读取和识别

Posted sunflying

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pdf文件的读取和识别相关的知识,希望对你有一定的参考价值。

1.首先安装库  pdfminer3k

2.几个类

  • PDFParser: 用来解析pdf文件。
  • PDFDocument:用来保存 PDFParser 解析后的对象。
  • PDFPageInterpreter:用来处理解析后的文档页面内容。
  • PDFResourceManager:pdf 共享资源管理器,用于存储共享资源,如字体或图像。

3.代码(其实有一点问题,我会尽快找到解决办法,然后更改)
#读取解析pdf文件    报错xxxx
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager,process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams


pdf_file = open(r长恨歌.pdf,rb)
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()

device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams)
process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file)
device.close()
content = retstr.getvalue()
retstr.close()
pdf_file.close()

print(content)

 

以上是关于pdf文件的读取和识别的主要内容,如果未能解决你的问题,请参考以下文章

wps的pdf扫描识别异常是啥原因

Java itext为pdf 文件添加水印核心功能代码片段

求助!批量识别PDF中特定字段,并用该字段重新命名该PDF文件?

PDF文件,Adobe处理页面时发生错误,读取本文档时出现问题(135)

从 Zip 文件中的文件中读取内容

vba读取文本文件不识别换行