是否可以使用 FSCrawler 将文件内容插入 Elasticsearch 中现有索引的特定 _id

Posted

技术标签:

【中文标题】是否可以使用 FSCrawler 将文件内容插入 Elasticsearch 中现有索引的特定 _id【英文标题】:Is it possible to Ingeset file content using FSCrawler to perticular _id of existing index in Elasticsearch 【发布时间】:2020-08-19 20:21:48 【问题描述】:

我已经将数据提取到现有的 Elasticsearch 索引中,其中 _id 作为数据库中的列名“mainid”值之一。现在我有另一个表,其中有两列“mainid”和文件路径。我想使用 fSCrawler 将这些文件摄取到现有的 Elasticsearch 索引中,并且文件应该被摄取到相应的 _id 中。

【问题讨论】:

【参考方案1】:

_id 是由 FSCrawler 从文件名生成的。如果您想提供自己的_id,暂时需要使用REST service。

它允许您provide the _id you want。喜欢:

echo "This is my text" > test.txt
curl -F "file=@test.txt" -F "id=my-test" "http://127.0.0.1:8080/fscrawler/_upload"

【讨论】:

以上是关于是否可以使用 FSCrawler 将文件内容插入 Elasticsearch 中现有索引的特定 _id的主要内容,如果未能解决你的问题,请参考以下文章

FSCrawler 找不到现有的工作

如何将 FSCrawler REST 与 docker-compose 连接起来

有没有办法检查 FSCrawler 将使用哪种 pdf 策略?

将文档上传到 FSCrawler 以在 Elasticsearch 中建立索引的正确方法

Windows _settings.yml、文件夹/目录和驱动器上的 FSCrawler

用IrfanView批量将PDF文件内容按页保存为图片插入到word文档中