有没有办法检查 FSCrawler 将使用哪种 pdf 策略?
Posted
技术标签:
【中文标题】有没有办法检查 FSCrawler 将使用哪种 pdf 策略?【英文标题】:Is there a way to check which pdf strategy FSCrawler will use? 【发布时间】:2020-11-23 02:36:09 【问题描述】:我正在使用 FSCrawler 的 REST 功能在上传 PDF 时对其进行扫描。我目前正在使用ocr_and_text
pdf 策略,但是 ocr 需要很长时间让用户等待响应。我想将 pdf 同步发送到 fscrawler 以使用文本提取,如果这不起作用,请发送到 ocr 的异步后台任务。
有没有办法用 FSCrawler 做到这一点?或者有没有办法拥有多个pdf策略?
【问题讨论】:
【参考方案1】:您应该尝试将 pdf_strategy 更改为 auto
。
【讨论】:
以上是关于有没有办法检查 FSCrawler 将使用哪种 pdf 策略?的主要内容,如果未能解决你的问题,请参考以下文章
如何将 FSCrawler REST 与 docker-compose 连接起来
是否可以使用 FSCrawler 将文件内容插入 Elasticsearch 中现有索引的特定 _id