在 S3 上更新数百万图像标题的最快方法

Posted

技术标签:

【中文标题】在 S3 上更新数百万图像标题的最快方法【英文标题】:Quickest way to update headers of millions of images on S3 【发布时间】:2016-08-09 17:28:01 【问题描述】:

我有几百万个文件夹,其中包含这样的图像

s3://test/1000/
s3://test/1001/
...

每个文件夹包含 5-10 张图片,例如 s3://test/1000/1000-small.jpg。我正在尝试使用s3cmd 为此处的所有图像设置Cache-Control 标头

s3cmd --recursive modify --remove-header=Expires --add-header='Cache-Control:max-age=31536000, public' s3://test/1000/

更新图像需要很长时间。喜欢 15k 个文件夹/天。所以我必须等待很长时间,除非我剪切包含所有文件夹列表的文件并在不同的机器上运行命令。

只是想问有没有什么方法可以更快地运行相同的任务?

谢谢!

更新!

我记得,最后我只得到文件夹列表,然后将其拆分为多个文件,然后为每个文件运行多个 s3cmd 命令。最后需要几个小时才能完成。

【问题讨论】:

您是否尝试在与 S3 存储桶位于同一区域的 EC2 实例上运行此命令以减少延迟? 你有没有找到一个快速的方法来做到这一点? 【参考方案1】:

您尝试过官方的 aws cli 工具吗?

aws s3 sync /path s3://yourbucket/ --recursive --cache-control max-age=604800

【讨论】:

以上是关于在 S3 上更新数百万图像标题的最快方法的主要内容,如果未能解决你的问题,请参考以下文章

数百万 UINT64 RGBZ 图形像素的最快排序算法

将 S3 上的数百万个小文件存档到 S3 Glacier Deep Archive

比较数百万个 mongoDB 记录中的变化的最佳方法

存储数百万张图像[关闭]

NoSQL 用于搜索数百万页?

如何在 SQL Server 中更新具有数百万行的大表?