TIKA Server 提取嵌入式资源

Posted

技术标签:

【中文标题】TIKA Server 提取嵌入式资源【英文标题】:TIKA Server extract embedded resources 【发布时间】:2020-04-29 12:56:12 【问题描述】:

我正在使用 TIKA-app (v 1.23) 进行一些测试,以从输入文件中提取嵌入式资源,通过在命令行上使用 @ 指定 -z 参数效果很好987654324@。此参数启用嵌入式资源提取并将资源写入工作目录。现在,我想使用这个基于TIKA-server 的功能。但是,我无法在文档中找到正确的方法,我想知道TIKA 的服务器变体是否提供了这个选项?

那么,如何使用TIKA-server 应用程序提取嵌入式资源? 请注意,我不是在寻找嵌入资源的内容,而是寻找实际的二进制文件数据(我想将附件与输入文件分开)

【问题讨论】:

【参考方案1】:

Apache Tika Server 的 /unpack 端点提供了类似的功能。如果将此与 X-Tika-PDFExtractInlineImages 标头设置为 true 结合使用,它会执行等效处理。

例如:

curl -T test.pdf http://localhost:9998/unpack > test.zip --header "X-Tika-PDFExtractInlineImages: true"

将返回一个 ZIP 文件,其中包含 ZIP 中的所有图像。

您可以阅读有关端点here 的更多信息。

【讨论】:

你知道我在哪里可以看到可用标题选项的列表吗? 没有明确的列表,我们可能可以构建一些东西来生成它们。这个答案提供了找到它们的途径***.com/questions/62011038/… 我在发帖后确实设法找到了那个帖子。它给了我我需要的东西。我肯定会从 confluence 页面上提供的信息中受益。如果不是完整列表,那么至少链接到 OCR 和 PDF api 以及重命名它们以与 Tika-server 一起使用的说明。

以上是关于TIKA Server 提取嵌入式资源的主要内容,如果未能解决你的问题,请参考以下文章

Tika Server - 没有书签和图像标签的解析

提取嵌入为资源的图像

Solr/Tika 提取失败 NoSuchMethodError、Solr 3.6、Tika 1.0、Jboss 5.0.1

QT应用程序 - 替换嵌入式资源

Delphi:在Android下提取资源

使用 tika 库从 java 中的图像中提取文本