Python 使用camelot将PDF转Excel,简单实用
Posted Jason_WangYing
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 使用camelot将PDF转Excel,简单实用相关的知识,希望对你有一定的参考价值。
安装camelot
Camelot在读取PDF文件中的表格数据很好用,因此安装这个包就很有需要了,但是直接在cmd里面使用pip install camelot-py会出错,首先提示pip版本需要更新到最新版本,更新之后提示错误Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。这个时候就需要更改文件的权限,将权限更改为【完全控制】。然后执行pip install camelot-py即可。
如果遇见ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'C:\\\\Users\\\\zzg\\\\AppData\\\\Local\\\\Temp\\\\pip-uninstall-u4t4npkt\\\\pip.exe'
Consider using the `--user` option or check the permissions.这种错误提示,请在pip里面添加--user
pip install --user camelot-py
更多的详细信息,请参考项目地址:https://github.com/camelot-dev/camelot
安装cv2
在安装完camelot-py之后,执行import camelot会报错,提示没有安装cv2,这就得你去cmd里面重新安装cv2了。
直接pip install cv2报错的话,
改成pip install opencv-python即可。
python程序:
import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='70',flavor='stream')
data1[0].to_csv('data1.csv',encoding='utf_8_sig')
转换后的excel文件数据:
转换成功!!!
这里展示的是提取一页的数据,如果想提取多页数据怎么整呢?
import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1,5,7,8,9',flavor='stream')
data1[0].to_csv('data1.csv',encoding='utf_8_sig')
这是提取特殊的页数,如果想提取所有页面
import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1-70',flavor='stream')
data1.to_csv('data1.csv',encoding='utf_8_sig')
这里导出的数据,是按照每一页导出一个报表展示的
如果想打印获取的data1数据,可以使用df方法来给数据转化为DataFrame格式:
import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1-70',flavor='stream')
data1.to_csv('data1.csv',encoding='utf_8_sig')
print(table1[0].df)
以上是关于Python 使用camelot将PDF转Excel,简单实用的主要内容,如果未能解决你的问题,请参考以下文章
Python解析PDF表格——PDFPlumber vs Camelot