AWS Redshift 中的表格太大了

Posted

技术标签:

【中文标题】AWS Redshift 中的表格太大了【英文标题】:How big is too big size for table in AWS Redshift 【发布时间】:2016-02-01 14:57:39 【问题描述】:

目前,我们的一个表大小是 5 亿行(35 列),我们正在尝试确定,在影响我们对该表运行查询的性能之前,我们的表可以有多大?

【问题讨论】:

【参考方案1】:

性能不能像行*列那样衡量。

这取决于数据类型、连接、聚合等。您的查询性能可以显着提高,例如,如果在连接中使用,可以通过创建 int 键(添加列)而不是 char/varchar 键。

【讨论】:

【参考方案2】:

@vtuhtan 答案的一个重要补充:启用压缩。创建为各种数据类型启用压缩的表 - lzo、运行长度等。Redshif 还建议使用 ANALYZE COMPRESSION SQL 命令对表使用适当的压缩类型。这会降低读取吞吐量并显着提高您的查询性能。这也会使表格消耗更少的存储空间。

Doc on analyzing compression enabled tables

Loading tables with compression.

【讨论】:

以上是关于AWS Redshift 中的表格太大了的主要内容,如果未能解决你的问题,请参考以下文章

如何从本地安装的 spark 连接到 aws-redshift?

Pentaho DI 无法连接到 AWS Redshift - Amazon 错误 100021

AWS:通过使用 amazon-data-pipeline 将数据从 S3 传输到 Redshift 来实现除 COPY 之外的其他功能

单元格宽度对于 tableview 宽度来说太大了

AWS Redshift Vacuum 返回错误:断言

在 Redshift 中拆分行