大规模加载 PB 级数据

Posted

技术标签:

【中文标题】大规模加载 PB 级数据【英文标题】:Loading PetaBytes of data at scale 【发布时间】:2016-12-09 07:00:23 【问题描述】:

我需要在一秒钟内将 PB 的文本数据加载到存储 (RAM/SSD) 中。

以下是解决上述问题的一些问题。

1) 实际上/理论上是否可以在一秒钟内加载 PB 级的数据? 2) 为了在亚秒级内实现 PB 级数据的快速加载,最好的设计方法是什么。 3) 有任何可用的基准测试方法吗?

我可以使用 Hadoop、spark、HPCC 等任何类型的技术来实现...

【问题讨论】:

我不明白为什么不这样做。如果有足够的时间和金钱,当然可以。你可能需要每 PB 1000-2000 台服务器才能达到这个规模 【参考方案1】:

“PB ......在一秒钟内”。严重地?请检查wikipedia Petabyte:它是 1.000.000 GB!

同时检查wikipedia Memory bandwidth。即使是最快的 RAM 也无法处理超过几 10 GB / s(实际上这要低得多)。

只是好奇:你的用例是什么?

【讨论】:

我明白了,我不只是在寻找基于 RAM 的解决方案,即使它可以是 SSD。 我的用例是像 CERN 这样的核物理研究项目。【参考方案2】:

不,目前在技术上是不可能的。甚至 RAM 内存都不够快(更不用说明显的容量限制了)。最快的 SSD(M.2 驱动器),您可以获得大约 1.2GB/s 的写入速度,使用 raid 0,您最多可以达到大约 3GB/s 的速度。还有经济上的限制,因为这些驱动器本身非常昂贵。 因此,要回答您的问题,目前这些速度在技术上是不可能的。

【讨论】:

【参考方案3】:

从 HPCC 的角度...

Thor 旨在加载数据并支持多个服务器。然而,我听说的最大集群是大约 4000 台服务器。 Thor 旨在长时间(甚至一周)加载大量数据。

另一方面,Roxie 旨在快速提供数据,但不是您所要求的......它也不能在一秒钟内提供 PB。

【讨论】:

以上是关于大规模加载 PB 级数据的主要内容,如果未能解决你的问题,请参考以下文章

PB 级大规模 Elasticsearch 集群运维与调优实践

腾讯 PB 级大规模 Elasticsearch 集群运维与调优实践

PB级大规模Elasticsearch集群运维与调优实践

PB 级数据秒级分析:腾讯云原生湖仓DLC 架构揭秘

两小时搞定PB级HDFS数据迁移,挪走日均近5亿RPC

带你认识Impala