Greenplum 中的 TB 级数据库

Posted

技术标签:

【中文标题】Greenplum 中的 TB 级数据库【英文标题】:Terabyte scale database in Greenplum 【发布时间】:2020-03-12 10:29:18 【问题描述】:

我目前正在使用greenplum 来测试 1GB 这样的小规模数据来测试它。

由于 greenplum 被称为“PB 级”,我想知道是否值得将 1 TB 或 10 TB 的数据量用于此 MPP 处理,而不是使用普通的 PostgreSQL 数据库。 我所有的网络接口都有 10 Mb/s 用于从属和主控。

Best practices 不包括这些注意事项。问题是,由于网络处理,可能有一个“小数据库”会产生很差的结果。 您是否已经实现了这种规模的数据库?

【问题讨论】:

【参考方案1】:

PostgreSQL 和 Greenplum 的工作负载不同。 PostgreSQL 非常适合 OLTP、带有索引查找的查询、引用完整性等。您通常也知道 OLTP 数据库中的查询模式。它当然可以满足一些数据仓库或分析需求,但它可以通过购买具有更多 RAM 和更多内核以及更快磁盘的更大机器来扩展。

另一方面,Greenplum 专为数据仓库和分析而设计。您在不知道用户将如何查询数据的情况下设计数据库。这意味着顺序读取、无索引、全表扫描等。它可以做一些 OLTP 工作,但不是为它设计的。您可以通过向集群添加更多节点来扩展 Greenplum。这为您提供了更多的 CPU、RAM 和磁盘吞吐量。

您的用例是什么?这是选择 Greenplum 还是 PostgreSQL 的最大决定因素。

【讨论】:

补充:是的,不少Greenplum用户拥有TB大小的数据库。设置中的限制因素之一是相当慢的网络。选择 100MBit/s 或 GBit/s。

以上是关于Greenplum 中的 TB 级数据库的主要内容,如果未能解决你的问题,请参考以下文章

瀚高王亮:解读《PB级数据仓库和开源Greenplum数据库》

Greenplum数据库中的索引和集群

Greenplum数据库中的索引和集群

将 Greenplum 数据库以 .csv 格式导出到 Amazon S3

出于灾难恢复的目的,如何将 Greenplum DB 复制到另一个数据中心?

Tanzu Greenplum(待完善)