华为云技术分享大数据容器化，头部玩家尝到了甜头

Posted 2021-03-04 华为云官方博客

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了华为云技术分享大数据容器化，头部玩家尝到了甜头相关的知识，希望对你有一定的参考价值。

【摘要】大数据容器化，大势所趋。头部玩家在进行大数据容器化后，尝到了甜头？

大数据的需求热度，从来都是这个时代的浪尖。然而由于大数据系统的复杂性，一度导致业界大数据已死的各种声音不断。尤其是当MapR被HPE收购，Cloudera公司股票持续跌成狗，使得这种声音进一步放大。其实，大数据的需求一直在，只是传统的大数据实现系统需要考虑重新构建。而容器依靠其自身的标准化，一次构建，随处运行的能力，使得非常适合大数据系统的构建和管理。容器技术当前正是那只火遍全球的当红辣子鸡。

1 华为云BigData Pro大数据解决方案荣获行业年度金奖

12月3日晚，2019年度中国数据与存储峰会年度颁奖典礼上，华为云BigData Pro大数据解决方案荣获“2019年度大数据产品金奖”，再一次展示了华为云在大数据领域的不凡实力。中国数据与存储峰会（DSS）是国内顶级的数据与存储领域技术盛会，其颁发的奖项颇具含金量，在十多年间见证了国内数据存储技术和行业的迅猛发展。此次评选范围涉及私有云大数据，公有云大数据，大数据软件，大数据解决方案等多个领域和维度。本次华为云BigData Pro能一举拿下该金奖，也是实至名归。

2 大数据容器化，大势所趋

技术图片

目前已经有大量的大数据系统原生支持on Kubernetes。例如Spark官方版本，从2.3开始，就可以无需任何修改直接跑在K8s上。并且，将“更好的在k8s上运行”作为后续版本的重要特性方向。可见k8s对大数据系统的影响多么重要。

3 队友已在加速，你感受到了么

由于容器技术对大数据的这种良好助推作用，目前已经有不少技术嗅觉敏锐的头部玩家，已经开始尝鲜并从中捞取第一桶金。

例如：中国联通的容器化大数据平台实践；京东在使用Kubernetes管理大数据中心；网易基于Kubernetes和Docker构建构建猛犸大数据平台；茄子科技直接将大数据任务大量在生产环境跑在K8S之上；华为云DLI服务容器化，阿里云Flink on K8s等。这些可见的信息都表明这个大方向已经开始加速了。如果你还在艰难的维护着你那庞大的大数据系统，那么你需要停下里看看队友们在干什么。

BigData on K8s 最直接的优势不是性能提升，而是成本的下降。

（1）高利用率的资源调度平台。原来分散在多个集群中的业务，可以合并到统一的集群中，加上长任务短任务混部，及不同业务高峰时间的削峰填谷，来最大化提升集群资源利用率。

（2）统一的技术栈。原有的Yarn调度，节点管理技术，与当下宇宙标准K8s集群调度系统，目标是一样的。但是维护2种技术栈，就得增加研发人力成本，统一的基础设施技术栈，降成本效果明显。

（3）容器自动化能力。标准化是推动 IT 技术持续发展的原动力之一。容器技术本身理念就是一次构建，随处运行，这个与标准化理念是一致的。通过容器技术的标准化实施，并整合容器生态，建立运维系统。可以很好的降低业务系统的运维成本，甚至运维工具本身的构建和使用成本。

4 容器+存算分离，要速度也要成本

当前的大数据计算将计算和存储结合在一起的模式，是分布式架构构建的一种尝试。但是当社区修改HDFS以支持Hadoop 3.0的ErasureCode（纠删码）时，即接受了：不(Wu)再(Fa)支持就近读取的策略。它就代表了一种新趋势：为了适应不同场景，存储空间和算力配比应该是灵活的，可以分别独立的构建。

IDC中国报告指出：“解耦计算和存储在大数据部署中被证明是有用的，它提供了更高的资源利用率，更高的灵活性和更低的成本。”这一论断与很多企业正在进行的大数据架构变革不谋而合。

技术图片

同时，伴随着容器技术的成熟及在各行业深入广泛的应用，企业愈发意识到容器技术的优势能很好解决大数据平台当前所遭遇的困境。容器以其更小颗粒度的算力分配、更轻量和快捷的部署方式、灵活的任务调度等特点，可以进一步提升资源利用率，并轻松应对大批量任务并发时的算力扩容。

5 鲲鹏之上，火山助力

华为云自主研发的鲲鹏处理器，具备多核高并发能力可为用户提供包括裸金属服务器，云服务器，容器和Serverless在内的多种粒度的算力，大数据分布式场景性能可有大幅提升。

其中鲲鹏大数据容器，具有极致弹性的调度能力，可以每秒发放1000容器，减少资源弹性等待时间，提升计算效率。而裸金属容器技术，由于大幅降低虚拟化的开销，可更进一步的提升服务器执行业务的利用率。采用Serverless模式的容器集群，可以很好的支持按需弹性无限扩展，用来执行Spark大数据任务，轻松处理PB级数据作业。

Volcano（火山）项目是华为容器团队开源的一款K8s增强型调度器。初衷为了解决原生K8s不支持Gang Scheduling问题，后来由于AI和大数据等业务领域也开始对K8s有极大的述求，团队成员通过总结具体场景实践经验，打造有价值的技术产品，并贡献社区。

Volcano通过高性能的调度算法，达到更高的容器调度速度。同时，自带的多种算法插件，可以极大的提升集群资源利用率。同时，Volcano也补齐了K8s原生调度器与Yarn调度器间的Gap，例如资源的队列管理（Queue）能力等。为大数据容器解决方案，插上了带火的翅膀。

6 大数据世界，容器来助威

BigData Pro是业界首个鲲鹏大数据解决方案，该方案采用基于公有云的存算分离架构，以可无限弹性扩容的鲲鹏算力作为计算资源，以支持原生多协议的OBS对象存储服务为统一的存储数据湖，提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案，大幅提升了大数据集群的资源利用率，能有效应对当前大数据行业存在的瓶颈，帮助企业应对5G+云+智能时代的全新挑战，实现企业智能化转型升级。

鲲鹏大数据容器解决方案，作为BigData Pro解决方案中重要一员，提供完整的容器化大数据解决方案。

作者：tsjsdbd

以上是关于华为云技术分享大数据容器化，头部玩家尝到了甜头的主要内容，如果未能解决你的问题，请参考以下文章