pdf文件的读取和识别
Posted sunflying
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pdf文件的读取和识别相关的知识,希望对你有一定的参考价值。
1.首先安装库 pdfminer3k
2.几个类
- PDFParser: 用来解析pdf文件。
- PDFDocument:用来保存 PDFParser 解析后的对象。
- PDFPageInterpreter:用来处理解析后的文档页面内容。
- PDFResourceManager:pdf 共享资源管理器,用于存储共享资源,如字体或图像。
3.代码(其实有一点问题,我会尽快找到解决办法,然后更改)
#读取解析pdf文件 报错xxxx from io import StringIO from pdfminer.pdfinterp import PDFResourceManager,process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams pdf_file = open(r‘长恨歌.pdf‘,‘rb‘) rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams) process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file) device.close() content = retstr.getvalue() retstr.close() pdf_file.close() print(content)
以上是关于pdf文件的读取和识别的主要内容,如果未能解决你的问题,请参考以下文章
求助!批量识别PDF中特定字段,并用该字段重新命名该PDF文件?