AWS Redshift 中的表格太大了
Posted
技术标签:
【中文标题】AWS Redshift 中的表格太大了【英文标题】:How big is too big size for table in AWS Redshift 【发布时间】:2016-02-01 14:57:39 【问题描述】:目前,我们的一个表大小是 5 亿行(35 列),我们正在尝试确定,在影响我们对该表运行查询的性能之前,我们的表可以有多大?
【问题讨论】:
【参考方案1】:性能不能像行*列那样衡量。
这取决于数据类型、连接、聚合等。您的查询性能可以显着提高,例如,如果在连接中使用,可以通过创建 int 键(添加列)而不是 char/varchar 键。
【讨论】:
【参考方案2】:@vtuhtan 答案的一个重要补充:启用压缩。创建为各种数据类型启用压缩的表 - lzo、运行长度等。Redshif 还建议使用 ANALYZE COMPRESSION
SQL 命令对表使用适当的压缩类型。这会降低读取吞吐量并显着提高您的查询性能。这也会使表格消耗更少的存储空间。
Doc on analyzing compression enabled tables
Loading tables with compression.
【讨论】:
以上是关于AWS Redshift 中的表格太大了的主要内容,如果未能解决你的问题,请参考以下文章
如何从本地安装的 spark 连接到 aws-redshift?
Pentaho DI 无法连接到 AWS Redshift - Amazon 错误 100021
AWS:通过使用 amazon-data-pipeline 将数据从 S3 传输到 Redshift 来实现除 COPY 之外的其他功能