TIKA Server 提取嵌入式资源

Posted 2023-04-14

技术标签:

【中文标题】TIKA Server 提取嵌入式资源【英文标题】：TIKA Server extract embedded resources 【发布时间】：2020-04-29 12:56:12 【问题描述】：

我正在使用 TIKA-app (v 1.23) 进行一些测试，以从输入文件中提取嵌入式资源，通过在命令行上使用 @ 指定 -z 参数效果很好987654324@。此参数启用嵌入式资源提取并将资源写入工作目录。现在，我想使用这个基于TIKA-server 的功能。但是，我无法在文档中找到正确的方法，我想知道TIKA 的服务器变体是否提供了这个选项？

那么，如何使用TIKA-server 应用程序提取嵌入式资源？ 请注意，我不是在寻找嵌入资源的内容，而是寻找实际的二进制文件数据（我想将附件与输入文件分开）

【问题讨论】：

【参考方案1】：

Apache Tika Server 的 /unpack 端点提供了类似的功能。如果将此与 X-Tika-PDFExtractInlineImages 标头设置为 true 结合使用，它会执行等效处理。

例如：

curl -T test.pdf http://localhost:9998/unpack > test.zip --header "X-Tika-PDFExtractInlineImages: true"

将返回一个 ZIP 文件，其中包含 ZIP 中的所有图像。

您可以阅读有关端点here 的更多信息。

【讨论】：

你知道我在哪里可以看到可用标题选项的列表吗？没有明确的列表，我们可能可以构建一些东西来生成它们。这个答案提供了找到它们的途径***.com/questions/62011038/… 我在发帖后确实设法找到了那个帖子。它给了我我需要的东西。我肯定会从 confluence 页面上提供的信息中受益。如果不是完整列表，那么至少链接到 OCR 和 PDF api 以及重命名它们以与 Tika-server 一起使用的说明。

以上是关于TIKA Server 提取嵌入式资源的主要内容，如果未能解决你的问题，请参考以下文章

Tika Server - 没有书签和图像标签的解析

提取嵌入为资源的图像

Solr/Tika 提取失败 NoSuchMethodError、Solr 3.6、Tika 1.0、Jboss 5.0.1

QT应用程序 - 替换嵌入式资源

Delphi：在Android下提取资源

使用 tika 库从 java 中的图像中提取文本