如何在python中读取pdf文件而不在unix中转换它? [复制]
Posted
技术标签:
【中文标题】如何在python中读取pdf文件而不在unix中转换它? [复制]【英文标题】:how to read pdf file in python without converting it in unix? [duplicate] 【发布时间】:2013-08-08 12:05:50 【问题描述】:pdfile=open("tutorial.pdf","r")
xyz= pdfile.readlines()
pqr=pdfile.readline()
for a in xyz:
print a
此代码不显示实际内容。相反,它会显示一些问号和框。
【问题讨论】:
【参考方案1】:PDF文件包含格式化数据,不能直接阅读,
所以使用 pyPdf 模块! 点击这里http://pybrary.net/pyPdf/ 安装,无需转换即可阅读。
【讨论】:
【参考方案2】:PDF 文件不是纯文本 - 您不能只将其字节打印到终端。您需要使用 PDF 阅读库(请参阅 Python PDF library 获取一些建议)来阅读它。
【讨论】:
【参考方案3】:如果您正在处理文本 PDF 文件,我建议您使用 PDFMiner。 (一个完整的例子可以在这里找到:https://github.com/syllabs/pdf2text)
【讨论】:
以上是关于如何在python中读取pdf文件而不在unix中转换它? [复制]的主要内容,如果未能解决你的问题,请参考以下文章