Tika Server - 没有书签和图像标签的解析

Posted

技术标签:

【中文标题】Tika Server - 没有书签和图像标签的解析【英文标题】:Tika Server - Parse without bookmark and image tags 【发布时间】:2020-02-01 17:03:05 【问题描述】:

我正在使用tika server v1.20 提取文本。

Tika 在正文中添加了 [书签:xx] 和 [图片:xx]。我不要他们。

样本输出:

天才的大脑如何学习 大卫·A·索萨 [图片:天才大脑如何学习] 欢迎参加我们的第三次年度 GATE 家庭图书研究。

转载:

运行服务器 -

java -jar tika-server-1.20.jar -p 5000

输入http://localhost:5000/tika

将文件附加为二进制文件和content-type: application/vnd.openxmlformats-officedocument.wordprocessingml.document

输入文件:http://www.hasd.org/cms_files/resources/website%20book%20study%20how%20the%20brain%20works%20building%20background1.docx

使用 regex\[(image:|bookmark:).*?\] 删除这个标签是有问题的,因为这样的情况:

[image: **[1].jpg]

如何使用tika服务器而不产生这个标签? 如果不可能,如何删除它们?

【问题讨论】:

请求 Xhtml 版本而不是纯文本版本,然后在获取文本之前跳过这些标签? 获取 xhtml 版本让我从中提取文本。它增加了另一个处理时间。 【参考方案1】:

虽然您可以在 Tika 中通过添加自定义 DocumentSelector 以在 ParseContext 中使用 EmbeddedDocumentUtil 来覆盖它,但在 tika-config.xml 中没有类似的东西那一刻,也不是它的命令行参数。

顺便说一句,Tika 1.25 中出现了递归元数据端点的标头设置,可让您指定最大嵌入式递归(参见示例)。但是,由于您想要内容,这对您的情况没有帮助:

curl -T test_recursive_embedded.docx --header "maxEmbeddedResources: 0" http://localhost:9998/rmeta

根据您要处理的内容的哪一部分,有一个端点可能就是您要查找的内容。这是 /tika/main 端点。

curl -T website\ book\ study\ how\ the\ brain\ works\ building\ background1.docx http://localhost:9998/tika/main --header "Accept: text/plain"

这旨在复制 Tika 应用程序的 --text-main 函数,并使用专注于文件中主要内容的样板内容处理程序。因此,这不会处理嵌入的图像。

【讨论】:

以上是关于Tika Server - 没有书签和图像标签的解析的主要内容,如果未能解决你的问题,请参考以下文章

TIKA Server 提取嵌入式资源

将 tika 与 python 一起使用,运行时错误:无法启动 tika 服务器

Apache Tika 提取扫描的 PDF 文件

REPL 和 jar 中的 Tika Parser 行为不同

使用wkhtmltopdf把html转成pdf,怎么生成书签或目录

Word VBA“标签未定义”如果书签存在命令