AWS s3 同步从 s3 复制到 EMR 很慢
Posted
技术标签:
【中文标题】AWS s3 同步从 s3 复制到 EMR 很慢【英文标题】:AWS s3 sync is slow to copy from s3 to EMR 【发布时间】:2020-06-19 15:30:08 【问题描述】:AWS s3 同步很慢。此外,AWS s3 同步会静默失败。 s3 mv 在失败时删除目标文件并进行清理。但是,它不会尝试复制(需要错误处理)。将文件从 s3 移动到 EMR 的最佳选择是什么? - s3 cmd? - s3 MV? 还有什么建议吗?
【问题讨论】:
【参考方案1】:作为项目的维护者,我建议您使用 s3cmd,因为它的核心理念是不会静默失败或损坏您的文件。 我还建议您尽可能使用最新版本,因为最近出现了许多重大改进,而且还会有更多改进。
总结一下,对于您最终计划使用的任何工具,这都应该是正确的: 不要盲目相信工具,尽量理解命令的帮助和含义,在投入生产前仔细测试你想做的操作,确保得到你期望的结果。
【讨论】:
以上是关于AWS s3 同步从 s3 复制到 EMR 很慢的主要内容,如果未能解决你的问题,请参考以下文章
使用 S3DistCp 将文件从 HDFS 复制到 EMR 集群上的 S3