有没有办法检查 FSCrawler 将使用哪种 pdf 策略?

Posted

技术标签:

【中文标题】有没有办法检查 FSCrawler 将使用哪种 pdf 策略?【英文标题】:Is there a way to check which pdf strategy FSCrawler will use? 【发布时间】:2020-11-23 02:36:09 【问题描述】:

我正在使用 FSCrawler 的 REST 功能在上传 PDF 时对其进行扫描。我目前正在使用ocr_and_text pdf 策略,但是 ocr 需要很长时间让用户等待响应。我想将 pdf 同步发送到 fscrawler 以使用文本提取,如果这不起作用,请发送到 ocr 的异步后台任务。

有没有办法用 FSCrawler 做到这一点?或者有没有办法拥有多个pdf策略?

【问题讨论】:

【参考方案1】:

您应该尝试将 pdf_strategy 更改为 auto

【讨论】:

以上是关于有没有办法检查 FSCrawler 将使用哪种 pdf 策略?的主要内容,如果未能解决你的问题,请参考以下文章

如何将 FSCrawler REST 与 docker-compose 连接起来

是否可以使用 FSCrawler 将文件内容插入 Elasticsearch 中现有索引的特定 _id

有没有办法找到使用哪种浮点运算

FSCrawler 找不到现有的工作

Elasticsearch:使用 Docker 来安装 FSCrawler 并摄入 Word 及 PDF 文件

查看哪种样式的样式表应用于特定元素