通过 FS Crawler (elasticsearch) 访问谷歌云存储桶

Posted

技术标签:

【中文标题】通过 FS Crawler (elasticsearch) 访问谷歌云存储桶【英文标题】:Accessing google cloud bucket via FS Crawler (elasticsearch) 【发布时间】:2022-01-15 07:24:55 【问题描述】:

我目前正在进行的项目需要一个搜索引擎来搜索几个 10.000 个 pdf 文件。当用户通过网站搜索某个关键字时,搜索引擎会返回一个符合其搜索条件的pdf文件的sn-p。然后,用户可以选择单击一个按钮来查看整个 pdf 文件。

我认为最好的方法是使用 elasticsearch + fscrawler (https://fscrawler.readthedocs.io/en/fscrawler-2.7/)。今天运行了一些测试,并且能够爬到我本地机器上的一个文件夹。

为了提供 PDF 文件(通过网站),我想我可以将 PDF 文件存储在谷歌云存储中,然后使用谷歌云存储的链接让用户查看 pdf 文件。但是,FS Crawler 似乎无法访问存储桶。有关如何解决此问题的任何提示或想法。随意批评上述工作方法。如果有更好的方法让网站的用户访问 PDF 文件,我很乐意听到。

在此先感谢您的问候!

【问题讨论】:

您应该联系fscrawler 要求在未来版本中实施云存储。 【参考方案1】:

您可以使用s3fs-fuse将s3存储桶挂载到您的文件系统中,然后使用普通的Local FS爬虫。

或者,您可以分叉 fscrawler 并为 s3 实现类似于 crawler-ftp 的爬虫。

【讨论】:

以上是关于通过 FS Crawler (elasticsearch) 访问谷歌云存储桶的主要内容,如果未能解决你的问题,请参考以下文章

通过 AWS Glue Crawler 识别并存储在数据目录中的表的异常

App Crawler

Enterprise:Web Crawler 基础

SpringBoot-spring-data-elasticsearch7.12.0

新知识:Monkey 改进版之 App Crawler

爬虫实战国家企业公示网-crawler爬虫抓取数据