元数据性能大比拼:HDFS vs OSS vs JuiceFS

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了元数据性能大比拼:HDFS vs OSS vs JuiceFS相关的知识,希望对你有一定的参考价值。

参考技术A

存储是大数据的基石,存储系统的元数据又是它的核心大脑,元数据的性能对整个大数据平台的性能和扩展能力非常关键。本文选取了大数据平台中 3 个典型的存储方案来压测元数据的性能,来个大比拼。

其中 HDFS 是被广为使用的大数据存储方案,已经经过十几年的沉淀和积累,是最合适的参考标杆。

以 Amazon S3 和 Aliyun OSS 为代表的对象存储也是云上大数据平台的候选方案,但它只有 HDFS 的部分功能和语义,性能也差不少,实际使用并不广泛。在这个测试中对象存储以 Aliyun OSS 为代表,其他对象存储类似。

JuiceFS 是大数据圈的新秀,专为云上大数据打造,是符合云原生特征的大数据存储方案。JuiceFS 使用云上对象存储保存客户数据内容,通过 JuiceFS 元数据服务和 Java SDK 来实现 HDFS 的完整兼容,不需要对数据分析组件做任何修改就可以得到跟 HDFS 一样的体验。

Hadoop 中有一个专门压测文件系统元数据性能的组件叫 NNBench,本文就是使用它来做压测的。

原版的 NNBench 有一些局限性,我们做了调整:

我们使用了 3 台阿里云 4核 16G 的虚拟机来做压力测试。CDH 5 是目前被广泛使用的发行版,我们选用 CDH 5 作为测试环境,其中的 HDFS 是 2.6 版本。 HDFS 是使用 3 个 JournalNode 的高可用配置,JuiceFS 是 3 个节点的 Raft 组。HDFS 使用内网 IP,JuiceFS 使用的是弹性 IP,HDFS 的网络性能会好一些。OSS 是使用内网接口访问。

先来看看大家都熟悉的 HDFS 的性能表现:

此图描述的是 HDFS 每秒处理的请求数(TPS)随着并发数增长的曲线,有两个发现:

再来看看 OSS 的性能情况:

[图片上传失败...(image-5b3536-1644394129139)]

OSS 速度比 HDFS 慢了一个数量级,但它的各种操作的速度基本保持稳定,总的 TPS 随着并发数的增长而增长,在 80 个并发下还没遇到瓶颈。受测试资源所限,未能进一步加大压测知道它的上限。

最后看下 JuiceFS 的表现:

从图中可以看出,整体趋势和 HDFS 类似,Open/Read 和 Delete 操作明显比 Create/Rename 快很多。JuiceFS 的 TPS 也是在 20 个并发以内基本保持线程增长,之后增长放缓,在 60 个并发左右达到上线。 但 JuiceFS 增幅更快,上限更高

为了更直观的看出这三者的性能差异,我们直接把 HDFS、Aliyun OSS 和 JuiceFS 放在一起比较:

[图片上传失败...(image-10c829-1644394129139)]

可见无论是哪种元数据操作, JuiceFS 的 TPS 增长更快,上限也更高 ,明显优于 HDFS 和 OSS。

一般我们在看一个系统的性能时,主要关注它的操作时延(单个操作所消耗的时间)和吞吐量(满负载下的处理能力),我们把这两个指标再汇总一下:

[图片上传失败...(image-a6e611-1644394129139)]

上图是 20 个并发下的各操作的时延(未跑满负载),可以发现:

上图是 80 个并发时的吞吐量对比,可以发现:

从以上两个核心性能指标来看,对象存储不适合要求性能的大数据分析场景。

5G VS WiFi6,实力大比拼!

移动通信与WiFi,就像移动设备上的两大高手。彼此势均力敌:一个主室内,一个主室外。WiFi是移动网络的室内覆盖补充,也承担着大量的数据流量卸载,二者既想各自占山为王,但也时不时地相互成全对方。+

111111111111111111111
然而随着5G时代的到来,5G必将干掉WiFi、WiFi迟早将被淘汰、WiFi活不过5G时代,各种言论层出不穷。在一片争论声中,WiFi6姗姗来迟。WiFi6能否与5G分庭抗礼,重回巅峰成为你的座上客呢?在谈这个问题之前,我们先来看看4G与WiFi5孰优孰劣。下面小编将从耗电、速度、安全等方面娓娓道来。

耗电

每次坐长途火车或开无聊的会议时,你是不是都在不停地刷网页,刷着刷着突然显示电量剩余不足10%那一刻,你的心里是不是有千万条草泥马经过。同样是上网WiFi和4G哪个更耗电呢?

2222222222222222
耗电其实主要和手机的发射功率有关,发射功率的大小主要和设备和信号源的距离有关。二者距离越远,所需要的发射功率就越大。

手机4G网络流量,需要发射和接收基站的信号,由于辐射范围大、建设成本高,基站都建在如山顶之类的开阔地带。手机接收来自山顶的信号,消耗的电量自然会多点,正常情况下手机需要发射的频率在100mW到200mW。如果遇到信号不好的情况,要发射更强大信号来搜索网络,会更加耗电!WiFi是通过路由器发射信号,适合在家中、公司办公室这种稳定的环境中近距离覆盖。假设一百平的房子,即使你在墙角蹲着,把路由器挂在窗户外面,距离也不超过20M,日常使用时,手机的发射功率大约50mW就足够了。

3333333333333
苹果官方给出的续航数据也表明:在同样的手机和同样的使用情况下,使用WiFi比使用LTE(4G)续航更久。

速度

虽然今天4G资费已经很经济实惠了,但是人们似乎还是很钟情于WiFi。大多数人还是会觉得WiFi要比4G的上网速度快,然事实真的如此吗?

以上是关于元数据性能大比拼:HDFS vs OSS vs JuiceFS的主要内容,如果未能解决你的问题,请参考以下文章

「集成架构」ETL工具大比拼:Talend vs Pentaho

5G VS WiFi6,实力大比拼!

5G VS WiFi6,实力大比拼!

[译] Kotlin VS Java:编译速度大比拼

AI大比拼文心一言 VS ChatGPT-4

Hyper-V VS VirtualBox,Windows基础虚拟化架构大比拼