通过 FS Crawler (elasticsearch) 访问谷歌云存储桶

Posted 2023-03-22

技术标签:

【中文标题】通过 FS Crawler (elasticsearch) 访问谷歌云存储桶【英文标题】：Accessing google cloud bucket via FS Crawler (elasticsearch) 【发布时间】：2022-01-15 07:24:55 【问题描述】：

我目前正在进行的项目需要一个搜索引擎来搜索几个 10.000 个 pdf 文件。当用户通过网站搜索某个关键字时，搜索引擎会返回一个符合其搜索条件的pdf文件的sn-p。然后，用户可以选择单击一个按钮来查看整个 pdf 文件。

我认为最好的方法是使用 elasticsearch + fscrawler (https://fscrawler.readthedocs.io/en/fscrawler-2.7/)。今天运行了一些测试，并且能够爬到我本地机器上的一个文件夹。

为了提供 PDF 文件（通过网站），我想我可以将 PDF 文件存储在谷歌云存储中，然后使用谷歌云存储的链接让用户查看 pdf 文件。但是，FS Crawler 似乎无法访问存储桶。有关如何解决此问题的任何提示或想法。随意批评上述工作方法。如果有更好的方法让网站的用户访问 PDF 文件，我很乐意听到。

在此先感谢您的问候！

【问题讨论】：

您应该联系fscrawler 要求在未来版本中实施云存储。 【参考方案1】：

您可以使用s3fs-fuse将s3存储桶挂载到您的文件系统中，然后使用普通的Local FS爬虫。

或者，您可以分叉 fscrawler 并为 s3 实现类似于 crawler-ftp 的爬虫。

【讨论】：

以上是关于通过 FS Crawler (elasticsearch) 访问谷歌云存储桶的主要内容，如果未能解决你的问题，请参考以下文章

通过 AWS Glue Crawler 识别并存储在数据目录中的表的异常

App Crawler

Enterprise：Web Crawler 基础

SpringBoot-spring-data-elasticsearch7.12.0

新知识：Monkey 改进版之 App Crawler

爬虫实战国家企业公示网-crawler爬虫抓取数据