Apache Tika 服务器 - 请求标头参数?

Posted

技术标签:

【中文标题】Apache Tika 服务器 - 请求标头参数?【英文标题】:Apache Tika Server - Request Header Parameters? 【发布时间】:2020-09-12 14:25:02 【问题描述】:

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求头参数,如X-Tika-PDFOcrStrategy。例如:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从许多关于 tika 的不同文档中,我发现了这些记录在案的附加标头参数:

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但似乎没有关于如何使用X-Tika-.....? 标头参数或支持哪些参数以及不支持哪些参数的文档。

例如,我想知道是否可以使用以下内容覆盖 ImageType 模式或 DPI:

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是:支持哪些标头参数以及这些参数遵循哪些命名约定?

【问题讨论】:

【参考方案1】:

处理X-Tika-OCRX-Tika-PDF 标头的代码是TikaResource.processHeaderConfig。

然后通过反射将这些标头后缀和值映射到 TesseractOCRConfig 和 PDFParserConfig 配置对象。

所以,要查看您可以设置哪些 X-Tika 标头,请在您要调整的配置类上查找选项(Tesseract 或 PDF),然后构建名称,然后设置标头。如果您不确定该选项的作用或它需要什么值,请查看 JavaDocs 以了解将被调用的底层 setter 方法。

例如,PDF 上的 setExtractInlineImages,映射到 X-Tika-PDFextractInlineImages

【讨论】:

以上是关于Apache Tika 服务器 - 请求标头参数?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Apache 在代理设置中重写位置响应标头?

apache tika 可以导出excel吗

正确使用 Apache Tika MediaType

使用 Apache tika 获取 MimeType 子类型

Python - Apache Tika 单页解析器

特定用户的 Apache,mod_ssl“请求失败:读取标头时出错”