如何在python中读取pdf文件而不在unix中转换它? [复制]

Posted

技术标签:

【中文标题】如何在python中读取pdf文件而不在unix中转换它? [复制]【英文标题】:how to read pdf file in python without converting it in unix? [duplicate] 【发布时间】:2013-08-08 12:05:50 【问题描述】:
pdfile=open("tutorial.pdf","r")
xyz= pdfile.readlines()
pqr=pdfile.readline()
for a in xyz:
    print a

此代码不显示实际内容。相反,它会显示一些问号和框。

【问题讨论】:

【参考方案1】:

PDF文件包含格式化数据,不能直接阅读,

所以使用 pyPdf 模块! 点击这里http://pybrary.net/pyPdf/ 安装,无需转换即可阅读。

【讨论】:

【参考方案2】:

PDF 文件不是纯文本 - 您不能只将其字节打印到终端。您需要使用 PDF 阅读库(请参阅 Python PDF library 获取一些建议)来阅读它。

【讨论】:

【参考方案3】:

如果您正在处理文本 PDF 文件,我建议您使用 PDFMiner。 (一个完整的例子可以在这里找到:https://github.com/syllabs/pdf2text)

【讨论】:

以上是关于如何在python中读取pdf文件而不在unix中转换它? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

如何删除文件中的重复行而不在 Unix 中对其进行排序

如何使用Python脚本从PDF中读取阿拉伯语文本

如何使用 Python 从 PDF 文件中读取简单文本?

在python中从PDF中提取图像而不重新采样?

如何使用 python 从 PDF 表单中读取数据

C# 如何读取和显示PDF?