TIKA Server 提取嵌入式资源
Posted
技术标签:
【中文标题】TIKA Server 提取嵌入式资源【英文标题】:TIKA Server extract embedded resources 【发布时间】:2020-04-29 12:56:12 【问题描述】:我正在使用 TIKA
-app (v 1.23
) 进行一些测试,以从输入文件中提取嵌入式资源,通过在命令行上使用 @ 指定 -z
参数效果很好987654324@。此参数启用嵌入式资源提取并将资源写入工作目录。现在,我想使用这个基于TIKA
-server 的功能。但是,我无法在文档中找到正确的方法,我想知道TIKA
的服务器变体是否提供了这个选项?
那么,如何使用TIKA
-server 应用程序提取嵌入式资源? 请注意,我不是在寻找嵌入资源的内容,而是寻找实际的二进制文件数据(我想将附件与输入文件分开)
【问题讨论】:
【参考方案1】:Apache Tika Server 的 /unpack 端点提供了类似的功能。如果将此与 X-Tika-PDFExtractInlineImages 标头设置为 true 结合使用,它会执行等效处理。
例如:
curl -T test.pdf http://localhost:9998/unpack > test.zip --header "X-Tika-PDFExtractInlineImages: true"
将返回一个 ZIP 文件,其中包含 ZIP 中的所有图像。
您可以阅读有关端点here 的更多信息。
【讨论】:
你知道我在哪里可以看到可用标题选项的列表吗? 没有明确的列表,我们可能可以构建一些东西来生成它们。这个答案提供了找到它们的途径***.com/questions/62011038/… 我在发帖后确实设法找到了那个帖子。它给了我我需要的东西。我肯定会从 confluence 页面上提供的信息中受益。如果不是完整列表,那么至少链接到 OCR 和 PDF api 以及重命名它们以与 Tika-server 一起使用的说明。以上是关于TIKA Server 提取嵌入式资源的主要内容,如果未能解决你的问题,请参考以下文章
Solr/Tika 提取失败 NoSuchMethodError、Solr 3.6、Tika 1.0、Jboss 5.0.1