如何根据数据冷热程度分层存储，让HDFS更高效？

Posted 2021-04-14 DBAplus社群

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何根据数据冷热程度分层存储，让HDFS更高效？相关的知识，希望对你有一定的参考价值。

本文根据DBAplus社群第123期线上分享整理而成，文末还有好书送哦~

讲师介绍

陶捷

中国移动苏州研发中心

高级软件开发工程师

目前负责中国移动大数据平台产品线CMH套件产品的研发，拥有丰富的Hadoop大数据平台研发和建设经验；开源Hadoop社区贡献者。
曾任职于阿里巴巴，先后从事Hadoop（云梯）、MaxCompute（ODPS）平台研发工作。

主题简介：

HDFS优化存储功能讲解
SSM系统架构设计
SSM系统应用场景分析

一、背景

随着大数据技术相关技术的发展和普及，越来越多的公司开始使用基于开源Hadoop的平台系统，同时，越来越多的业务和应用也在从传统的技术架构迁移到大数据平台上。在典型的Hadoop大数据平台中，人们使用HDFS作为存储服务的核心。

而在大数据发展之初，最主要的应用场景仍然是离线批处理场景，对存储的需求追求的是吞吐量，HDFS正是针对这样的场景而设计的，而随着技术不断的发展，越来越多的场景会对存储提出新的需求，HDFS也面临着新的挑战。主要包括几个方面：

1、数据量问题

一方面随着业务的增长和新的应用接入，会给HDFS带来更多的数据，另一方面随着深度学习，人工智能等技术的发展，用户通常希望能保存更长时间的数据，以提升深度学习的效果。数据量的快速增加会使集群不断面临扩容需求，从而导致存储成本不断增加。

2、小文件问题

众所周知，HDFS的设计是针对离线批处理大文件的，处理小文件并非传统HDFS擅长的场景。HDFS小文件问题的根源在于文件的元数据信息都是维护在单点Namenode的内存中，单台机器的内存空间始终是有限的。据估算，单台namenode集群能容纳系统文件数量极限大约在1.5亿左右。实际上，HDFS平台通常作为底层存储平台服务于上层多种计算框架，多个业务场景，所以小文件问题从业务的角度也难以避免。目前也有方案例如HDFS-Federation解决Namenode单点扩展性问题，但同时也会带来巨大的运维管理难度。

3、冷热数据问题

随着数据量的不断增长积累，数据也会呈现出访问热度不同的巨大差异。例如一个平台会不断地写入最新的数据，但通常情况下最近写入的数据访问频率会比很久之前的数据高很多。如果无论数据冷热情况，都采用同样的存储策略，是对集群资源的一种浪费。如何根据数据冷热程度对HDFS存储系统进行优化是一个亟待解决的问题。

二、现有HDFS优化技术

从Hadoop诞生到今天也有超过10年的时间，在此期间HDFS技术本身也在不断优化演进。HDFS现有一些技术能够一定程度上解决上述一些问题。这里简要介绍一下HDFS异构存储和HDFS纠删码技术。

HDFS异构存储：

Hadoop从2.6.0版本开始支持异构存储功能。我们知道HDFS默认的存储策略，对于每个数据块，采用三个副本的存储方式，保存在不同节点的磁盘上。异构存储的作用在于利用服务器不同类型的存储介质（包括HDD硬盘、SSD、内存等）提供更多的存储策略（例如三个副本一个保存在SSD介质，剩下两个仍然保存在HDD硬盘），从而使得HDFS的存储能够更灵活高效地应对各种应用场景。