PDF文本内容批量提取到Excel

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PDF文本内容批量提取到Excel相关的知识,希望对你有一定的参考价值。

QQ:231469242,版权所有

 

作用:pdf内容批量提取到excel

各位亲朋好友,我才上班时候有个鼓噪乏味工作,就是把一个个PDF内容复制粘贴到Excel表格里面,方便以后数据库全文搜索。

 

举个例子,此Excel有两个字段

A列是pdf文件名

B列用于存放pdf提取的内容

当所有PDF内容复制到Excel后,数据库就可以实现全文搜索功能。

技术分享

 

几十上百个PDF复制粘贴工作也许一天就搞定了,但成千上万个PDF,你是不是要抓狂?为此,我专门用Python开发了PDF批量提取机器人,名字叫pdf_data_extract3

技术分享

程序放入文件夹,双击就完成自动提取

 

技术分享

 

检查错误数据

提取失败的excel文件名保持在extract_failed_File.txt文档中

技术分享

 

如果任务百分之百成功,会显示:恭喜主人,干的漂亮

技术分享

 

给大家展示最后提取的结果,B列就是自动提取的内容。

技术分享

 

有了PDF自动提取机器人,大家工作就没这么辛苦了。只需要双击一下鼠标,然后泡杯咖啡,坐等机器人完成任务。

技术分享

 

以上是关于PDF文本内容批量提取到Excel的主要内容,如果未能解决你的问题,请参考以下文章

EXCEL VBA提取内容到指定位置

pyhthon 处理pdf 合集

VBA如何批量抓取数据

ASP提取html内指定内容

excel提取单元格中的部分内容

如何利用Python抓取PDF中的某些内容