Python 使用camelot将PDF转Excel,简单实用

Posted Jason_WangYing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 使用camelot将PDF转Excel,简单实用相关的知识,希望对你有一定的参考价值。

安装camelot

Camelot在读取PDF文件中的表格数据很好用,因此安装这个包就很有需要了,但是直接在cmd里面使用pip install camelot-py会出错,首先提示pip版本需要更新到最新版本,更新之后提示错误Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。这个时候就需要更改文件的权限,将权限更改为【完全控制】。然后执行pip install camelot-py即可。

如果遇见ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'C:\\\\Users\\\\zzg\\\\AppData\\\\Local\\\\Temp\\\\pip-uninstall-u4t4npkt\\\\pip.exe'
Consider using the `--user` option or check the permissions.这种错误提示,请在pip里面添加--user

pip install --user camelot-py

更多的详细信息,请参考项目地址:https://github.com/camelot-dev/camelot


安装cv2

在安装完camelot-py之后,执行import camelot会报错,提示没有安装cv2,这就得你去cmd里面重新安装cv2了。
直接pip install cv2报错的话,
改成pip install opencv-python即可。


python程序:

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='70',flavor='stream')
data1[0].to_csv('data1.csv',encoding='utf_8_sig')


转换后的excel文件数据:

 

转换成功!!!

这里展示的是提取一页的数据,如果想提取多页数据怎么整呢?

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1,5,7,8,9',flavor='stream')
data1[0].to_csv('data1.csv',encoding='utf_8_sig')

这是提取特殊的页数,如果想提取所有页面

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1-70',flavor='stream')
data1.to_csv('data1.csv',encoding='utf_8_sig')

这里导出的数据,是按照每一页导出一个报表展示的

如果想打印获取的data1数据,可以使用df方法来给数据转化为DataFrame格式:

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1-70',flavor='stream')
data1.to_csv('data1.csv',encoding='utf_8_sig')
print(table1[0].df) 

 

以上是关于Python 使用camelot将PDF转Excel,简单实用的主要内容,如果未能解决你的问题,请参考以下文章

[转]Python 解析 PDF 文本和表格的四大方法介绍

Python解析PDF表格——PDFPlumber vs Camelot

AttributeError:模块“camelot”没有属性“read_pdf”

Camelot-py 没有检测到有两行的表

附加从循环生成的表

C# wordexcel转PDF,读取json数据