Data WareHouse RedShift 与其他 RDBM
Posted
技术标签:
【中文标题】Data WareHouse RedShift 与其他 RDBM【英文标题】:Data WareHouse RedShift versus other RDBMs 【发布时间】:2016-08-10 10:52:44 【问题描述】:我有一个系统,数据以相当固定的时间间隔加载,然后再取出。假设销售数据在销售发生时传入,然后我想按行提取所有销售数据,比如一个月;一次拉取最多 200K 行。没有太多 OLTP 发生;只在新数据进来时插入。
我可以使用数据仓库或 RDBMS。如果我的数据没有运行到几个 TB,假设它是 1 TB 左右,那么使用数据仓库与没有仓库标签的传统 RDBM 相比有什么优势吗?仓库会给我买什么额外的东西?
我之所以问是因为我可以使用 RDBM,但像 Redshift 这样的系统谈论的是 MPP 处理。由于 MPP,RedShift 会更快吗?我应该坚持使用普通的 RDBM 吗?请注意,我没有对数据进行仓库类数据分析。我的数据也不会增长得如此之大,以至于我需要 RedShift 等产品的切片/多节点功能。即使我确实使用 RedShift,我也可能在单个节点上。
-阿米特
【问题讨论】:
【参考方案1】:您选择的系统(例如 RDS 与 Redshift)应取决于您的要求,权衡成本。
对于跨大量信息(例如数十亿行)的复杂查询(例如多行、多连接),Amazon Redshift 通常是更好的选择。
需要考虑的一些因素:
数据量 -- Redshift 可以存储 TB 甚至 PB 的数据 查询速度和复杂性 -- Redshift 的 MPP 特性可以比传统 SQL 数据库更快地处理大量数据 可扩展性 -- 传统的 SQL 数据库只能垂直扩展(更大的服务器),而 Redshift 可以垂直和水平扩展。此外,额外的 Redshift 节点增加了存储和处理能力。答案是您应该尝试两种选择并选择最适合您的方法。如果传统的 SQL 数据库(可能在 Amazon RDS 下运行)非常适合您并且比 Redshift 解决方案更便宜,那就太好了!
在进行比较时,请确保包括数据库成本和存储成本(这两者都包含在 Redshift 节点的成本中)。
【讨论】:
好吧,问题的重点是尽量避免“尝试一下”。希望从其他经验中学习。我知道 Redshit 的 PB 规模;这就是为什么我在问题本身中提到我不会采用 PB 规模。如果 DB 是 PB 规模,那么根据我的经验,我建议使用 WareHouse。以上是关于Data WareHouse RedShift 与其他 RDBM的主要内容,如果未能解决你的问题,请参考以下文章
Azure SQL 数据库仓库Data Warehouse 2018 TechSummit 动手实验营
混合 Data Warehouse 和 Big Data 倉庫的新架構