Hadoop 1.x与Hadoop 2.x的区别
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop 1.x与Hadoop 2.x的区别相关的知识,希望对你有一定的参考价值。
参考技术A
(1)HDFS的改进
HDFS的NameNode可以以集群的方式布署,增强了NameNodes的水平扩展能力和高可用性,分别体现在HDFS Federation与HA.
(2)MapReduce的改进
MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Resource Negotiator)翻译过来就是 另一个资源谈判者
Hadoop 1.x中 NameNode只能有一个 ,虽然可以通过SecondaryNameNode与NameNode进行数据同步备份,但是总会存在一定的时延,如果NameNode挂掉,但是如果有部份数据还没有同步到SecondaryNameNode上,还是可能会存在着数据丢失的问题,做数据最怕的就是数据丢失.
针对Hadoop1.0单NameNode一旦挂掉则不能恢复集群,Hadoop2.0提出了HA,指的是可以同时启动2个NameNode.其中一个处于工作(Active)状态,另一个处于随时待命(Standby)状态.这样,当一个NameNode所在的服务器挂掉时,可以在数据不丢失的情况下,手工或者自动切换到另一个NameNode提供服务.
Hadoop1.x的HDFS架构的局限:
(1)访问隔离
现在大部分公司的集群都是共享的,每天有来自不同group的不同用户提交作业.单个namenode难以提供隔离性,即:某个用户提交的负载很大的job会减慢其他用户的job,单一的NameNode难以像HBase按照应用类别将不同作业分派到不同NameNode上.
(2)横向扩展
HDFS的底层存储是可以水平扩展的(解释:底层存储指的是datanode,当集群存储空间不够时,可简单的添加机器已进行水平扩展),但NameNode不可以.
(3)NameNode性能
文件操作的性能制约于单个NameNode的吞吐量,单个NameNode当前仅支持约60K的task,因此要想办法增加NameNode.
针对Hadoop1.0单NameNode制约HDFS的扩展性问题,Hadoop2.0提出了HDFS Federation,它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展,同时彻底解决了NameNode单点故障问题.
Hadoop1.x的MapReduce框架的主要局限:
(1)JobTracker 是 Map-Reduce 的集中处理点,存在单点故障;
(2)JobTracker 完成了太多的任务,造成了过多的资源消耗,当 map-reduce job 非常多的时候,会造成很大的内存开销,潜在来说,也增加了 JobTracker 失效的风险,这也是业界普遍总结出老 Hadoop 的 Map-Reduce 只能支持 4000 节点主机的上限;
针对上述问题,Hadoop2.0将JobTracker中的资源管理和作业控制分开,分别由ResourceManager(负责所有应用程序的资源分配)和ApplicationMaster(负责作业控制)实现,即引入了资源管理框架YARN.由于YARN具有通用性,因此YARN也可以作为其他计算框架的资源管理系统,不仅限于MapReduce,也是其他计算框架(例如Spark)的管理平台.
青云科技成为开源 GitOps 产业联盟会员
经开源 GitOps 产业联盟(Open GitOps Industry Alliance,简称:OGA 联盟)理事会审核认证,青云科技正式成为联盟会员,将携手其他会员,共同推动开源、开放 GitOps 技术的产业化发展和落地,助力构建具备国际竞争力、技术与实践迭代创新、合作共赢的开源生态。
OGA 联盟由极狐(GitLab)联合 CNCF 发起并成立,以 GitOps 技术应用实践为核心,遵守“开源、开放、可信、自主、创新、共赢”理念,为企业实现现代化业务应用设计、开发、测试、管理、运维自动化、一体化和智能化提供建设路径参考。
开源,最具生命力和接近技术本质的方式,因其可以借助全球开发者协同创新力量,持续完善和增强业务应用功能,正深刻影响着数字时代企业发展轨迹。2021年,开源首次被明确列入国民经济和社会发展五年规划纲要,我国开源产业迎来蓬勃发展。
作为开源生态的重要参与者和贡献者之一,青云科技现已推出了 KubeSphere 容器平台、全象云低代码平台、OpenFunction 函数计算平台、OpenELB 负载均衡器等多个优质开源项目。
其中,KubeSphere 凭借“开箱即用”简便易上手的操作体验,帮助企业快速落地云原生,收获全球 100 多个国家和地区用户使用,下载量超 70 万。截至目前,KubeSphere 在 GitHub 上 Star 数超 8800,Fork 数超 1300 个,成为全球开源容器项目中受欢迎程度前二的平台。
同时,青云科技还积极运营 KubeSphere、QuanXiang、RadonDB 开源社区,为开发者和企业用户搭建了一个技术分享、交流、学习的“乐园”,并联合上下游合作伙伴打造开源解决方案,以及在垂直行业的落地应用,将开源力量转化为业务生产力,赋能百行千业数字化转型。
值得一提的是,进入云原生时代,开源成为推广云原生技术的一种重要手段,GitOps 又恰恰是实现云原生的一种持续交付模型,可帮助用户提高业务敏捷性,实现端到端的交付流水线。
作为云原生技术的引领者,此次青云科技加入 OGA 联盟,无疑是强强联合,将为构建和完善 GitOps“产、学、研、用”的开源生态带来助力,进一步加速云原生落地。
以上是关于Hadoop 1.x与Hadoop 2.x的区别的主要内容,如果未能解决你的问题,请参考以下文章