公有云中的Hadoop
Posted Hadoop实操
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了公有云中的Hadoop相关的知识,希望对你有一定的参考价值。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
Fayson的github:https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢
“公有云中的按需配给和弹性为Cloudera企业数据中心开辟了新的可能性,但这种部署选择并没有从根本上改变架构。”
1.概述
信息驱动型企业一直坚持统一数据管理的共同业务和IT目标,提高洞察力和构建知识库。对于许多企业来说,传统的关系型数据仓库和数据集市是唯一的企业级数据分析的途径,而存储阵列和归档是唯一提供访问大量多样历史数据的方法。今天,这些企业通过EDH有更好的办法来应对数据管理的挑战。Cloudera企业数据中心采用Apache Hadoop构建,提供灵活,可扩展和经济的数据管理平台,可以基于同一份数据执行各种企业工作负载(包括批处理,交互式SQL,企业搜索,高级分析等)。
一些企业正在将企业数据中心作为其数据管理策略的核心,并将公有云作为部署选项进行评估。 虽然这种部署方式并没有从根本上改变企业数据中心的架构,但公有云按需配给和弹性带来的额外收益为数据管理中的这种演变打开了新的可能性。
一些企业意识到通过Cloudera构建的企业数据中心可以获得许多好处,包括构建Hadoop的全面的技术栈以及生态系统的周边工具,全面的系统和数据管理工具,没有限制的数据存储--细粒度,耐用,易用和经济高效的存储--对于所有数据。此外,企业IT用户都已经接受了EDH可以用作核心系统,因此业务用户对于数据和应用程序都已经准备就绪并有能力应对当今环境中的挑战而拥有信心。
通过Cloudera,企业可以将同样的EDH体验带入云端并安装部署,而不受选择哪家云供应商的限制。将Cloudera EDH部署到云端意味着企业可以利用最适合其特定业务和处理需求的弹性和按需消费模型。
“数据中心的容量限制和相应的非常重要的时间成本往往是公有云部署决策的关键驱动因素,而不是性能问题。”
2.公有云案例
公有云是一组计算,存储和网络资源,从裸机架构到完全自动化的IAAS栈,服务提供商以按需模式为公众提供服务。随着越来越多的企业发现这个部署平台的便利性和灵活性,公有云和云计算的价值和重要性一直在加速。有些关键的业务驱动因素,是企业在衡量是否选择公有云需要考虑的。
2.1.采购快速并节省数据中心空间
企业IT团队通常会通过Poc,试点和试用来验证适合企业数据中心的合适架构。因此,企业一般都会在Poc完成以后再建立生产系统,以此来减轻采购风险。而公有云环境完美满足这些需求,因为企业可以在公有云中快速的获得和更改他们的评估环境,通过有限的使用成本在Poc周期内使用它们,更不用说可以避免买错硬件的问题了。因此,IT团队可以以最小的资金风险开发正确的架构和配置,然后自信的采购和提供on-premise的生产系统。
那些可以快速采购基础设施的企业在生产中部署企业数据中心有时会在其数据中心遇到物理空间限制。这些企业经常会利用公有云作为获取物理空间和避免采购延迟的一种方式。
其次,一个企业在首次部署企业数据中心的时候一般都是非生产的,评估的重点一般是集群管理,数据管理以及EDH中各种框架的培训。Poc或者试点程序通常需要硬件准备好才能开始,而在大多数情况下,硬件的准备就绪才是最重要的。
2.2.灵活的策略
企业一般都是考虑将新的项目或者系统如EDH部署到公有云。驱动这些公司决策的因素包括云备份,即时的地理位置和弹性。Hadoop在公有云中的情况更加明显。如果数据本身就是在云中生成的,可以尽量减少数据移动。随着时间的推移,企业可能会同时拥有on cloud和on-premise的集群,以便找到最适合业务和技术需求的合适的功能集,从而企业数据中心将会跨这两个环境。
随着企业IT领导开始规划企业数据中心策略,他们将需要确保他们选择的云供应商不会规定EDH策略,反之亦然,应避免每个云供应商拥有不同的EDH。这些部署考虑可能不是直接的,但是对于前瞻性和可适应的IT战略至关重要。
”数据位置比如云存储,工作负载类型比如定期的批处理是决定部署到公有云的强大影响因素,但许多人都看到了总体拥有成本--在快速采购以及快速提供服务方面--往往是最重要的动机”
3.Public Cloud vs. On-Premise
对于IT团队来说,企业数据中心使用公有云来部署是相当简单的,尤其是如果对于存储和计算的需求很紧急的话,或者是由企业总部决策驱动的。对于是选择on cloud还是on-premise,在决定最佳部署方式的时候,需要考虑以下几点。
3.1.数据的位置
数据是在哪里生成的?数据可以被视为具有“质量”,因此可以证明从存储迁移到能计算是困难的(并且是昂贵的)。如果不是主要用EDH来保存数据,则最佳实践是建议将企业数据中心设置为靠近数据生成或者存储,以帮助降低成本和工作量,尤其是需要通过EDH处理很大数据量的工作负载。也就是说,IT团队应该仔细研究数据的类型以及数据会被如何使用,因为容量和速度可能允许少量的流式传输将大块,单块文件传输到on-premise环境。通常,如果数据是在公有云中生成的,或者数据会被长期保存在云存储里,比如用作备份或者地理位置的对象存储,则公有云部署将成为更为自然的选择。
3.2.工作负载类型
工作负载都有什么特征?对于定期的MapReduce作业,企业意识到可以通过只是在工作期间运行集群并只为这段期间的使用付费来节省成本,而不是始终保持集群是激活的。如果如果工作负载每天只运行几个小时,或者每周运行几天,这一点尤其如此。对于具有持续且长期运行的性能需求的工作负载比如HBase或者Impala,集群上线下线的开销可能不合理。
3.3.性能需求
有什么性能需求?Hadoop的一个基本原则是紧耦合的计算和本地存储,从而保证线性可扩展。这种计算本地化是Hadoop能够分布式执行作业,并在短时间内显著加速大量数据的处理。然而,通常的云架构一般都是通过网络的共享存储池或者虚拟计算资源。
这些能力可以独立扩展,但是网络会增加延迟,并且共享存储可能成为高吞吐量的MapReduce作业的性能瓶颈,但精确的性能需求因工作负载而异。云供应商的生态系统提供了许多架构选择和配置,可以更直接的解决工作负载的特定需求。例如,IT团队应该检查存储到计算资源的距离和服务内部共享资源的程度,作为从完全虚拟化到独立裸机系统的潜在性能因素。
Hadoop在处理典型的大量数据的工作负载时,性能往往是一个重要的指标。对于非生产,开发或者测试的工作负载,这个因素可能不太关心,就可以使用共享存储。对于生产系统,公有云依然可行,但是IT团队应该更仔细的考虑距离以及资源争用问题,例如,如何满足性能需求。
“从数据中分离元数据使Hadoop成为一种可扩展性的设计,并实现高可用以及可设置的副本数而不会牺牲性能。”
3.4.Cloud TCO
总拥有成本(TCO)有什么不同?计算公有云的TCO不止计算,存储,数据传输和定价策略。缩小选择的一个好的起点的是使用Cloudera的参考架构来选择云环境。基于最适合的工作负载选择参考架构,企业可以进一步通过其预期目标获取更准确的TCO,以在公有云部署EDH。Cloudera及其合作伙伴可以进一步协助任何环境的TCO评估,包括跨on-premise和on cloud的评估。
4.Hadoop公有云部署方式
采用公有云作为公司IT战略的一部分的决定通常由许多独立因素驱动,EDH通常是一个组成部分。然而,云计算的弹性特别适合有一些基于Hadoop的EDH,并且是云部署模型的驱动力。诸如搜索索引和交互式查询所需的并行处理以及临时批量加工,可以利用EDH云部署的优势。
4.1.长期运行的集群
企业数据中心的全保真数据的经验是基于行业标准服务器集群上并置存储和计算的概念。这个宗旨意味着在云环境中长期运行的集群,为典型的日常应用提供数据的基本存储和计算能力,而这种类型的集群与典型的on-premise部署并没有太大的不同。EDH一旦在云中建立,就像on-premise部署管理一样,但是云环境与一些独特的优势。
例如,一个关键的优点是IT团队可以通过几个简单的命令来提供新的存储容量。在短短几分钟之内,企业IT团队可以在线启动一个满足其他业务需求的新集群,或者为现有的业务处理增加集群的存储和计算能力。企业获得IT敏捷性,而不必担心数据中心容量问题和长期采购流程。
云环境的另一个好处是,如果业务需求发生变化,企业可以随时更改服务器或集群的配置。对于典型的on-premise的环境,IT团队必须在采购时确定CPU,内存和磁盘容量,并且经常为了未来扩容购买过剩的服务器。然而在云模式中,IT管理员可以随意配置服务器或集群的不同配置。因此,企业可以根据今天的需求精确的分配集群,而不是明天,因此可以最大化运营资金,还可以通过分配具有更多CPU,内存和磁盘的新服务器以及停止旧的或过时的服务器来适应不断变化的业务需求。
4.2.定期和短暂的工作负载
即使运营长时间运行的集群,业务有时也需要一些临时的容量来完成定期的工作负载。每月或每两周的报表处理是代表额外计算能力需求的典型示例。一旦企业在云中建立了EDH的生产系统,IT团队可以根据这些定期的作业动态的增大和缩小计算能力。管理员只需要根据需求上线新的“报表”服务器,处理报表,存储结果信息到EDH,然后下线这些服务器。这个定期的生命周期可以降低成本,而不是为仅部分使用的额外机器付费,企业只需要这几个小时使用的费用。
一些工作负载更加短暂,可能不需要长时间运行的集群。例如,企业可能需要处理大量的数据,其处理结果可能需要大量的时间来分析是否有用,从而来确定下一步的计划。为这种短暂或零星的任务采购服务器对于某些企业来说是非常浪费的。公有云提供了一个通过组合快速部署集群和低成本的存储能力的非常好的解决方案,比如Amazon S3.在这个工作负载周期内,管理员分配一个Hadoop集群,从云对象存储中导入数据,处理数据,将结果写回到对象存储,然后下线集群。当处理大量数据时,如果工作负载非常短暂,这种方法会非常划算。
对于偶尔执行的批处理作业,弹性云环境可能比专用的长时间运行的集群更加划算。但是,IT管理员还应该考虑到一点,比如多个用户可能会针对存储在对象存储中的同一个数据集进行周期性的,短暂的作业。在这种情况下,集群的综合利用率是计算成本的更为重要的指标。IT团队可能会发现,“永远在线”的集群比为每个用户重复提供集群更划算。
“Cloudera的长期愿景是拥抱混合模式的潜力和灵活性,企业数据中心既可以构建在on-premise,又可以私有云也可以公有云。通过联合多样化的云供应商合作伙伴的生态系统,Cloudera正在帮助客户通过Hadoop和EDH建立更多的企业用户和应用。Cloudera将继续成为下一代企业数据管理和分析的行业标准,无论数据和工作负载在哪里。要了解更多关于Cloudera广泛的合作伙伴生态系统,请访问:https://www.cloudera.com/content/cloudera/en/solutions/partner.html”
5.Cloudera Director: 不用任何妥协的Hadoop上云
Cloudera Director是Cloudera平台的一部分,为希望部署在云端的用户带来了一致性和便利性,同时仍可以获得Cloudera企业数据中心的优势。Cloudera Director是第一款在云中部署很管理企业级Hadoop的便携式自助式解决方案。它为中央IT提供单一的玻璃管理经验,以降低成本和提供敏捷性,并为最终用户提供自助服务和弹性扩展集群,同时确保可审计性。与Cloudera企业数据中心集成,用户不仅可以获得云部署所需的所有功能,还可以继续获得Cloudera平台提供的所有企业级功能,包括生产就绪部署所需的安全,治理和管理。
使用Cloudera Director,用户可以在自己喜欢的VPC环境中部署一个或多个集群,并在EC2的实例上运行。Cloudera Director提供了简单的Web UI,命令行(CLI)或REST API,用于部署和管理CDH或Cloudera企业版集群。Cloudera Director的web UI提供了所有部署集群的仪表盘视图,并包含用于部署,克隆,动态扩展和终止集群的自助服务。命令行和API为更适合各种工作负载的更多自定义和复杂的集群拓扑提供高级支持。此外,管理员和用户可以通过集群的模板按需重复部署多个集群。这种可靠的以云为中心的体验可以跨多个云供应商,包括AWS,Azure和GCP,未来计划支持更多的云环境。
Cloudera Director的主要优势包括:
6.Cloudera上云的优势
企业在公有云中部署Cloudera企业数据中心可以利用Cloudera独有的多项优势。业务和技术团队获得与on-premise部署环境完全相同的EDH使用经验,从技术能力到系统和数据管理,以及核心业务支持。企业在企业级功能(例如数据安全,数据治理)以及Hadoop平台上的创新功能如Cloudera Impala,Apache Sentry,Cloudera Search和其他在公有云中运行都不必妥协。
此外,Cloudera还设计了一个合作伙伴扩展计划,其中包括一个名为Cloudera Connect:Cloud的云服务和解决方案提供商部门,可以满足希望优化云环境中的Hadoop部署的企业日益增长的需求,从而实现统一的数据管理和分析就像EDH,通过在部署,消费和供应商的选择方面提供极大的灵活性。企业现在对于公有云中的企业数据中心的定价的支持模式有多种选择。企业可以选择传统的订阅模式,或者Cloudera产品的基于使用的模式,同时从云合作伙伴那里单独购买基础设施。或者,企业可以通过他们的云供应商直接购买Cloudera产品和云基础设施作为一个产品,并只支付一个账单。
此外,IT战略家应该预测从on-premise到cloud的任何EDH部署,以便更充分的满足工作负载,数据集或业务用户的特定需求和限制。在所有这些情况下,EDH的完整统一的使用经验和经验的连续性,无论环境如何,都是提升实现应用和人员的效率的关键。Cloudera在为企业提供这一优势方面是独一无二的,同时让客户自己自由的选择云供应商。随着未来对Cloudera产品组件的增强,可以简化云运营,企业可以轻松利用公有云的弹性和按需消耗模式进行Hadoop安装,未来还会考虑VMWare和OpenStack的私有云部署。
企业需要考虑多个因素,在决定EDH的哪一部分部署在哪里的时候。Cloudera有能力帮助企业探索这些因素并实现所有的部署方式。通过Cloudera,企业可以充分利用企业数据中心和下一代数据管理的优势,通过跨各种部署环境,从on-premise到公有云。
参考:
https://www.cloudera.com/content/dam/www/static/documents/whitepapers/cloudera-in-the-public-cloud.pdf
提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
以上是关于公有云中的Hadoop的主要内容,如果未能解决你的问题,请参考以下文章