如何在抓取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫

Posted 2023-03-31

技术标签:

【中文标题】如何在抓取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫【英文标题】：How to exclude date patterns while crawling Amazon S3 folders. using aws crawler 【发布时间】：2021-06-24 10:53:40 【问题描述】：

我的文件夹结构如下：

s3://foo/table1/2021-06-12/03-35-00/
s3://foo/table1/Current/data
s3://foo/table2/2021-06-12/03-35-00/
s3://foo/table2/Current/data
s3://foo/table3/2021-06-12/03-35-00/
s3://foo/table3/Current/data

...等等

我想排除所有日期和时间戳模式，只抓取当前/数据文件夹。如何实现？

【问题讨论】：

爬虫设置中的“包含路径”是什么？我只想爬取所有表下的文件夹Current/data 【参考方案1】：

考虑到你当前的爬虫包含路径设置为爬取s3://foo位置，那么你可以在爬虫设置中使用排除模式配置像这样：s3://foo/tabel*/2021*/** 如果从 2021 年开始，它将跳过所有表格的所有文件和文件夹...

同样，您可以在此部分添加其他 glob 模式，以跳过其他文件和文件夹。

为了更好地理解，您可以参考包含和排除模式部分here

【讨论】：

以上是关于如何在抓取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫的主要内容，如果未能解决你的问题，请参考以下文章

PHP 将远程图像保存到 Amazon S3

Amazon S3，如何将 JSON 文件复制到另一个在更新原始文件时更新的存储桶？

有没有办法 touch() Amazon S3 中的文件？

如何使用Coldfusion fileExist检查Amazon S3上是否存在文件？

当我使用作业胶水时，Amazon S3 中的数据是不是会在公共互联网上传输？

如何使用 Amazon S3 SDK 更新元数据