大规模加载 PB 级数据

Posted 2023-04-18

技术标签:

【中文标题】大规模加载 PB 级数据【英文标题】：Loading PetaBytes of data at scale 【发布时间】：2016-12-09 07:00:23 【问题描述】：

我需要在一秒钟内将 PB 的文本数据加载到存储 (RAM/SSD) 中。

以下是解决上述问题的一些问题。

1) 实际上/理论上是否可以在一秒钟内加载 PB 级的数据？ 2) 为了在亚秒级内实现 PB 级数据的快速加载，最好的设计方法是什么。 3) 有任何可用的基准测试方法吗？

我可以使用 Hadoop、spark、HPCC 等任何类型的技术来实现...

【问题讨论】：

我不明白为什么不这样做。如果有足够的时间和金钱，当然可以。你可能需要每 PB 1000-2000 台服务器才能达到这个规模 【参考方案1】：

“PB ......在一秒钟内”。严重地？请检查wikipedia Petabyte：它是 1.000.000 GB！

同时检查wikipedia Memory bandwidth。即使是最快的 RAM 也无法处理超过几 10 GB / s（实际上这要低得多）。

只是好奇：你的用例是什么？

【讨论】：

我明白了，我不只是在寻找基于 RAM 的解决方案，即使它可以是 SSD。我的用例是像 CERN 这样的核物理研究项目。【参考方案2】：

不，目前在技术上是不可能的。甚至 RAM 内存都不够快（更不用说明显的容量限制了）。最快的 SSD（M.2 驱动器），您可以获得大约 1.2GB/s 的写入速度，使用 raid 0，您最多可以达到大约 3GB/s 的速度。还有经济上的限制，因为这些驱动器本身非常昂贵。因此，要回答您的问题，目前这些速度在技术上是不可能的。

【讨论】：

【参考方案3】：

从 HPCC 的角度...

Thor 旨在加载数据并支持多个服务器。然而，我听说的最大集群是大约 4000 台服务器。 Thor 旨在长时间（甚至一周）加载大量数据。

另一方面，Roxie 旨在快速提供数据，但不是您所要求的......它也不能在一秒钟内提供 PB。

【讨论】：

以上是关于大规模加载 PB 级数据的主要内容，如果未能解决你的问题，请参考以下文章

PB 级大规模 Elasticsearch 集群运维与调优实践

腾讯 PB 级大规模 Elasticsearch 集群运维与调优实践

PB级大规模Elasticsearch集群运维与调优实践

PB 级数据秒级分析：腾讯云原生湖仓DLC 架构揭秘

两小时搞定PB级HDFS数据迁移，挪走日均近5亿RPC

带你认识Impala