Snowflake:数据加载文件大小建议

Posted

技术标签:

【中文标题】Snowflake:数据加载文件大小建议【英文标题】:Snowflake: Data loading file size recommendations 【发布时间】:2021-02-01 08:24:11 【问题描述】:

https://docs.snowflake.com/en/user-guide/data-load-considerations-prepare.html#general-file-sizing-recommendations 并行运行的加载操作的数量不能超过要加载的数据文件的数量。为了优化负载的并行操作数量,我们建议生成压缩后大小约为 100-250 MB(或更大)的数据文件。

我从 Snowflake 文档获得了上述详细信息,他们只是说(或更大)有人可以解释推荐的最大尺寸是多少。

【问题讨论】:

【参考方案1】:

这是在聚合较小的文件(从而减少开销)和将较大的文件拆分为较小的文件(从而分配工作负载和提高并行度)之间的一个考虑因素。

满足上述考虑的一般大小建议为 100-250MB。这就是文档中的内容。术语“或更大”只是意味着,您在个人情况下的最佳文件大小也可以在 250MB 以上,例如300MB,取决于您的考虑结果。

【讨论】:

是否有最大限制,不能超过特定大小?

以上是关于Snowflake:数据加载文件大小建议的主要内容,如果未能解决你的问题,请参考以下文章

数据摄取:将动态文件从 S3 加载到 Snowflake

Snowflake 真正维护文件加载历史记录的时间有多长?

Snowflake - 从云存储加载数据加载数据

如何从 Snowflake Stage 加载大型 JSON 文件?

Parquet 文件加载到 Snowflake 时跳过标题

如何将 CSV 文件批量加载到 Snowflake 中,并将文件名添加为列?