从 AWS S3 复制到 Snowflake 需要比平时更多的时间

Posted

技术标签:

【中文标题】从 AWS S3 复制到 Snowflake 需要比平时更多的时间【英文标题】:Copy from AWS S3 to Snowflake is taking more time than usual 【发布时间】:2021-07-19 14:02:50 【问题描述】:

我们正在尝试使用复制命令将数据从 AWS S3 加载到 Snowflake 阶段,这比平时花费了更多时间,文件大小为 3 GB(此大小包括文件夹中存在的所有文件)。下面是复制命令。

`

create or replace stage mystage
url='s3://s3bucket/folder'
storage_integration=myparquet
file_format = (type = parquet) PURGE=TRUE;

copy into mytable
from @mystage/mytable/
pattern='.*.[.]parquet'
MATCH_BY_COLUMN_NAME = CASE_INSENSITIVE TRUNCATECOLUMNS = TRUE force=TRUE;`

请告诉我,我们怎样才能快速加载。 谢谢,

【问题讨论】:

定义什么是正常,什么是更多时间 相同大小的文件集在 5 分钟内加载,但另一个需要 1 个多小时。 【参考方案1】:

你说,这比平时要花更多的时间。在这种情况下,我假设您对相同大小的仓库使用相同的命令来处理相似数量的数据。在这种情况下,仅通过查看 SQL 命令是无法诊断问题的。如果您还没有检查,您可以将您的良好运行与当前(不良)运行进行比较,看看现在是否有任何不同。

如果我是你,我会向 Snowflake Support 提交支持票。他们可以调查查询日志、执行统计信息并为您提供一些见解以帮助您提高性能。

【讨论】:

感谢 Atil 的建议。我已经中止了复制命令,因为它需要超过 1 小时。正如你所建议的,我将提交支持票。

以上是关于从 AWS S3 复制到 Snowflake 需要比平时更多的时间的主要内容,如果未能解决你的问题,请参考以下文章

如何检查从 aws S3 到雪花的数据加载结果

SQL 编译错误:从 S3 复制到 Snowflake 时,JSON 文件格式只能生成一列类型变量或对象或数组

AWS s3 同步从 s3 复制到 EMR 很慢

从 AWS S3 复制到雪花,同时包含函数

将文件从 GCS 复制到 AWS S3 时如何设置 acl?

将 CSV 文件从 S3 加载到 Snowflake 时出现 SQL 编译错误