Apache Tika 服务器 - 请求标头参数?
Posted
技术标签:
【中文标题】Apache Tika 服务器 - 请求标头参数?【英文标题】:Apache Tika Server - Request Header Parameters? 【发布时间】:2020-09-12 14:25:02 【问题描述】:Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求头参数,如X-Tika-PDFOcrStrategy
。例如:
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
从许多关于 tika 的不同文档中,我发现了这些记录在案的附加标头参数:
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
但似乎没有关于如何使用X-Tika-.....?
标头参数或支持哪些参数以及不支持哪些参数的文档。
例如,我想知道是否可以使用以下内容覆盖 ImageType 模式或 DPI:
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
我的问题是:支持哪些标头参数以及这些参数遵循哪些命名约定?
【问题讨论】:
【参考方案1】:处理X-Tika-OCR
和X-Tika-PDF
标头的代码是TikaResource.processHeaderConfig。
然后通过反射将这些标头后缀和值映射到 TesseractOCRConfig 和 PDFParserConfig 配置对象。
所以,要查看您可以设置哪些 X-Tika
标头,请在您要调整的配置类上查找选项(Tesseract 或 PDF),然后构建名称,然后设置标头。如果您不确定该选项的作用或它需要什么值,请查看 JavaDocs 以了解将被调用的底层 setter 方法。
例如,PDF 上的 setExtractInlineImages,映射到 X-Tika-PDFextractInlineImages
【讨论】:
以上是关于Apache Tika 服务器 - 请求标头参数?的主要内容,如果未能解决你的问题,请参考以下文章