如何在抓取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫

Posted

技术标签:

【中文标题】如何在抓取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫【英文标题】:How to exclude date patterns while crawling Amazon S3 folders. using aws crawler 【发布时间】:2021-06-24 10:53:40 【问题描述】:

我的文件夹结构如下:

s3://foo/table1/2021-06-12/03-35-00/
s3://foo/table1/Current/data
s3://foo/table2/2021-06-12/03-35-00/
s3://foo/table2/Current/data
s3://foo/table3/2021-06-12/03-35-00/
s3://foo/table3/Current/data

...等等

我想排除所有日期和时间戳模式,只抓取当前/数据文件夹。如何实现?

【问题讨论】:

爬虫设置中的“包含路径”是什么? 我只想爬取所有表下的文件夹Current/data 【参考方案1】:

考虑到你当前的爬虫包含路径设置为爬取s3://foo位置,那么你可以在爬虫设置中使用排除模式配置 像这样:s3://foo/tabel*/2021*/** 如果从 2021 年开始,它将跳过所有表格的所有文件和文件夹...

同样,您可以在此部分添加其他 glob 模式,以跳过其他文件和文件夹。

为了更好地理解,您可以参考包含和排除模式部分here

【讨论】:

以上是关于如何在抓取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫的主要内容,如果未能解决你的问题,请参考以下文章

PHP 将远程图像保存到 Amazon S3

Amazon S3,如何将 JSON 文件复制到另一个在更新原始文件时更新的存储桶?

有没有办法 touch() Amazon S3 中的文件?

如何使用Coldfusion fileExist检查Amazon S3上是否存在文件?

当我使用作业胶水时,Amazon S3 中的数据是不是会在公共互联网上传输?

如何使用 Amazon S3 SDK 更新元数据