Python:在python编程中将扫描的pdf转换为excel

Posted

技术标签:

【中文标题】Python:在python编程中将扫描的pdf转换为excel【英文标题】:Python: Conversion of scanned pdf to excel in python programming 【发布时间】:2018-03-28 18:28:26 【问题描述】:

我是 python 开发的新手,有什么方法可以使用 Python 将扫描的 PDF/图像转换为 Excel。

我尝试了以下方法:

第 1 步: 安装pypandoc库,

pip install pypandoc 并在我的代码文件中导入库,如下所示

import pypandoc
from reportlab.lib.testutils import outputfile

第 2 步:

在下面添加了转换为excel的代码

canout = pypandoc.convert_file("DT.pdf", 'excel', outputfile="MyPdf.excel")
assert canout==""

但无法成功。请建议我进行相同的实施。

注意:如果有其他实现方式也欢迎。

谢谢

【问题讨论】:

检查this answer,它可能有用。 你会收到一个错误 pdf is not supported。您可能需要 PDFTables 【参考方案1】:

仅供参考 - CLI 版本允许每页指定多个感兴趣区域。 这里指定了 5 个区域。

java -jar .\tabula-1.0.2-jar-with-dependencies.jar -p 1 -a 175,140,​​540,270 -a 175,265,540,390 -a 175,390,540,520 -a 175,510,540,640 -a 175,640,540,780 -o outFile.csv 测试>

【讨论】:

【参考方案2】:

-a 后面的数字是定义页面上感兴趣区域的 X、Y 像素坐标。想象一下在图像上放置透明方格纸,并在 x1=175 y1=140 x2=540 y1=140 and x2=540 and y2=270 x2=540 and y=540 处标记 4 个点。接下来,绘制与这些点相交的水平线和垂直线。将创建一个边界框/矩形。这是要处理的感兴趣区域。

    |           |
    |           |

----x1,y2-----x2,y2----- | | |代码将 | |看这里 | | | -----x1,y1-----x2,y1----- | | | |

由于每个感兴趣区域有 4 个唯一的 x 和 y 值,因此可以使用 4 个值向软件描述最小边界框。

【讨论】:

以上是关于Python:在python编程中将扫描的pdf转换为excel的主要内容,如果未能解决你的问题,请参考以下文章

Python精彩案例随拍文档转PDF扫描版

Python精彩案例随拍文档转PDF扫描版

Python核心编程PDF下载高清完整扫描原版

PYTHON网络编程基础 pdf扫描版高清下载

Python编程:从入门到实践 中文pdf扫描版 高清下载

Python编程:从入门到实践 中文pdf扫描版 高清下载