Python Tika 无法从 url 解析 pdf

Posted 2023-04-14

技术标签:

【中文标题】Python Tika 无法从 url 解析 pdf【英文标题】：Python Tika cannot parse pdf from url 【发布时间】：2019-04-27 09:56:41 【问题描述】：

python 用于解析在线 pdf 以备将来使用。我的代码如下。

from tika import parser
import requests
import io
url = 'https://www.whitehouse.gov/wp-content/uploads/2017/12/NSS-Final-12-18-2017-0905.pdf'
response = requests.get(url)
with io.BytesIO(response.content) as open_pdf_file:
    pdfFile = parser.from_file(open_pdf_file)
print(pdfFile)

但是，它显示

AttributeError: '_io.BytesIO' 对象没有属性 'decode'

我以How can i read a PDF file from inline raw_bytes (not from file)?为例

在示例中，它使用的是 PyPDF2。但我需要使用 Tika，因为 Tika 的结果比 PyPDF2 更好。

感谢您的帮助

【问题讨论】：

【参考方案1】：

为了使用 tika，您将 need to have JAVA 8 installed。您需要检索和打印 pdf 内容的代码如下：

from tika import parser

url = 'https://www.whitehouse.gov/wp-content/uploads/2017/12/NSS-Final-12-18-2017-0905.pdf'

pdfFile = parser.from_file(url)

print(pdfFile["content"])

【讨论】：

以上是关于Python Tika 无法从 url 解析 pdf的主要内容，如果未能解决你的问题，请参考以下文章

将 tika 与 python 一起使用，运行时错误：无法启动 tika 服务器

Python - Apache Tika 单页解析器

Python - Tika Parser - 内容未加载

无法使用 tika 从 pdf 文件中提取文本内容

lucene的Tika中的乱码问题

tika的使用