红旗推出OpenPOWER平台Hadoop技术服务

Posted OpenPOWER在中国

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了红旗推出OpenPOWER平台Hadoop技术服务相关的知识,希望对你有一定的参考价值。

到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。然而这并非数据存储的末日。在正在形成数据时代,企业与政府用户的的业务方向都将依赖大数据的积累与分析,如何保存、阐释、检索与分析海量数据,就成为用户们最关心的热点。近日,红旗软件推出了Hadoop大数据处理服务,为各行各业的数据中心和数据管理等难题提供了新的解决方案


据了解,RedFlag在基于OpenPOWER平台上的Hadoop大数据处理服务中,构建了完整的hadoop ecosystem——包括hadoop、hbase、greenplum、R、php、Haproxy LVs Perl ruby python go nginx Redis mysql postgresql等hadoop生态系统的相关软件。这些软件能在基于OpenPOWER的硬件、RedFlag OS的平台上有效提升了数据处理效率,快速扩展、监控和告警等功能则让集群管理更加便捷,从而实现轻松快速并经济地处理大量数据的需求。


Hadoop:最有价值的大数据处理平台

Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。目前已经被包括Google、Facebook、Twitter、百度等全球互联网巨头在内的商业企业所使用。据统计,全世界一半以上的数据涉及Hadoop,让其成为最有价值的大数据处理平台之一。不过,Hadoop同时也面临一些挑战,譬如本身的复杂性,以及企业如何将开源平台与自身架构整合等。


Hadoop 主要用于大数据的并行计算,其中包括数据密集型并行计算、计算密集型并行计算、数据密集与计算密集混合型的并行计算。当下Hadoop的主要应用场景在归档、搜索引擎及数据仓库上面,各个机构使用Hadoop不同的组件来实现自己的用例。而在这3个场景之外还有一个比较冷门的场景——流处理,这块源于Hadoop 2.0可结合其他框架的特性,而在将来,Hadoop肯定会发展到联机数据处理。


Hadoop平台不仅能够推动企业内部的数据开放,还能够让每个人参与到报表、数据的研发过程 。同时还能够实现企业的数据共享,特别是Hadoop队列,资源池,队列,任务调度器的机制,能让整个机型切换成多个资源,而不是以前的数据库,一层层的隔离去使用。
红旗推出OpenPOWER平台Hadoop技术服务
RedFlag: 全球首家提供OpenPOWER平台的Hadoop技术服务
红旗推出OpenPOWER平台Hadoop技术服务

从2015年初至今,红旗作为整个OpenPOWER产业链的核心成员,组建了专业化的“OpenPOWER能力中心”,与IBM的LTC team、奥斯汀的核心研发团队保持密切的深入内核层面技术交流。此次,红旗在OpenPOWER平台上构建了完整的hadoop ecosystem——包括的hadoop、hbase、greenplum、R、PHP、Haproxy LVs Perl ruby python go nginx Redis mysql postgresql等hadoop生态系统的相关软件。


红旗在本次Hadoop的移植构建过程中,克服了greenplum没有spec文件等诸多技术难点,以手动创建spec文件等方式完成“从无到有”,以至“从有到优”,最终成功地将所有组件全部以rpm的形式迁移至OpenPOWER平台,方便用户安装。目前,所有软件源码已全部移植成功, 并且在实际的生产场景中,不但保证了各软件所有功能正常,且运行性能高于x86平台。


红旗OpenPOWER能力中心完成此项工作,是希望能从软件层面、开发工具、数据库、大数据包括云平台、高可用等各个方面,能够把一些开源软件放到OpenPOWER上,充分利用OpenPOWER的加速技术、CAPI技术,为软件加速,提高用户应用环境中软件运行效率。
红旗推出OpenPOWER平台Hadoop技术服务
RedFlag Linux OS +Hadoop
红旗推出OpenPOWER平台Hadoop技术服务

众所周知,Hadoop是一个能够对大数据进行分布式存储和处理的软件框架,它具有高可靠性、高扩展、容错、高效、低成本的特点,一度广受互联网公司青睐,企业级用户也越来越多的接受Hadoop。但凡事都有两面性,Hadoop是非常耗费计算资源的,用户希望获得更优秀的性能。


好马必须配好鞍,恰恰OpenPOWER产品非常适合Hadoop应用。IBM曾专门针对 Hadoop来对硬件的性能优化和调优,获得了非常好的结果,有3.65倍的运行速度提升。而且,POWER在中国很多的行业、在企业级市场有着深厚的积淀和客户群,产品也非常适合这些客户。


Hadoop在大数据技术理念方面不同于虚拟化打造成“大型机”的方式,是用化整为零的方式将各种资源池化,文件被切开到不同层面,通过节点实现并行化IO。红旗结合OpenPOWER的硬件优势,在对Linux内核参数进行调优,在一定程度上提高了作业的运行效率,让解决方案具有以下优点:
更高IO,更快Map配置

将计算移动到所在数据的节点上,通过节点实现并行化IO,因此需要挂很多层。而Map Reduce任务的数量跟CPU核数捆绑,因此CPU核数越多,Map配置就越快。OpenPOWER去年推出的两款服务器都是双路2U主机,配备最多24个核,在此硬件平台上,Map配置速度明显优于X86平台。


另外,红旗在Hadoop调优中,将Linux命令blockdev设置预读取缓冲区的大小,以提高Hadoop中大文件顺序读的性能。便于用户系统通过移动计算取代移动数据,以获得更高的IO,以实现大数据的真正价值。
按需定制,易用性高
红旗在移植构建工作之外,推出“Linux OS +Hadoop”的解决方案,该方案具备高扩展性,能够根据企业需要将集群处理数据能力从TB扩展到PB级别,并且用户可以自由选择任意数目的节点来处理数据。同时,用户拥有每个节点的最高级别(root)访问权限,可以完全掌控整个集群。用户可以自由安装额外的应用程序来定制每个集群,RedFlag Linux OS +Hadoop也同时提供丰富的组件,包括不限于hadoop、hbase、greenplum、R、PHP、Haproxy LVs Perl ruby python go nginx Redis mysql postgresql等等。
Hadoop应用环境一览

Hadoop平台是能够推动企业内部的数据开放,能够让每个人参与到报表、数据的研发过程。能够实现企业的数据共享,特别是Hadoop队列,资源池,队列,任务调度器的机制,能让整个机型切换成多个资源进行管理,不仅在企业的数据查询与分析系统中提供了查找、收集、识别、上传、标准化、存储、再利用与服务数据的方式,并且显著增加了数据的灵活性、弹性与易用性。


无论是互联网巨头如谷歌,Facebook和LinkedIn,还是中国在数据时代中需求日益迫切的各行业用户,他们在Hadoop应用的探究之路上已有许多成功案例。
01
网络资源和在线零售商的推荐引擎:
使用Hadoop根据用户的个人资料和行为数据匹配和推荐用户、产品和服务。LinkedIn使用此方法增强其“你可能认识的人”这一功能,而亚马逊利用该方法为网上消费者推荐相关产品。
02
社会化媒体和社交网络数据中情感分析:
Hadoop与先进的文本分析工具结合,分析社会化媒体和社交网络发布的非结构化的文本,包括Tweets和Facebook,以确定用户对特定公司,品牌或产品的情绪。分析既可以专注于宏观层面的情绪,也可以细分到个人用户的情绪。
03
财务公司、银行等公司的风险建模:
使用Hadoop和下一代数据仓库分析大量交易数据,以确定金融资产的风险,模拟市场行为为潜在的“假设”方案做准备,并根据风险为潜在客户打分。
04
金融公司、零售商的欺诈检测:
使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如,信用卡公司使用大数据技术识别可能的被盗卡的交易行为。
05
营销活动分析及客户流失分析:
各行业的营销部门长期使用技术手段监测和确定营销活动的有效性。大数据让营销团队拥有更大量的越来越精细的数据,如点击流数据和呼叫详情记录数据,以提高分析的准确性。
企业使用Hadoop和大数据技术分析客户行为数据并确定分析模型,该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。
06
社交图谱分析:
Hadoop和下一代数据仓库相结合,通过挖掘社交网络数据,可以确定社交网络中哪些客户对其他客户产生最大的影响力。这有助于企业确定其“最重要”的客户,不总是那些购买最多产品或花最多钱的,而是那些最能够影响他人购买行为的客户。
07
用户体验分析:
面向消费者的企业使用Hadoop和其他大数据技术将之前单一 客户互动渠道(如呼叫中心,网上聊天,微博等)数据整合在一起, ,以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响,从而优化整个客户生命周期的用户体验。
08
网络监控:
Hadoop 和其他大数据技术被用来获取,分析和显示来自服务器,存储设备和其他IT硬件的数据,使管理员能够监视网络活动,诊断瓶颈等问题。这种类型的分析,也可应用到交通网络,以提高燃料效率,当然也可以应用到其他网络。
09
企业长远战略研究与发展:
有些企业(如制药商)使用Hadoop技术进行大量文本及历史数据的研究,以协助新产品的开发。

红旗“OpenPOWER能力中心”已经在政府、公安、交通等行业的众多项目中,成功完成OpenPOWER+Hadoop的迁移工作及性能测试。



以上是关于红旗推出OpenPOWER平台Hadoop技术服务的主要内容,如果未能解决你的问题,请参考以下文章

新的PGI编译器可将支持GPU的HPC应用从Linux/x86无缝迁移到支持NVLink的OpenPOWER+Tesla

什么是红旗linux

在分布式存储容器云等创新应用场景中,OpenPOWER 有什么价值?

张冬:OpenPOWER CAPI为什么这么快?(二)

Hadoop 王者 Cloudera 新转型,定位为混合数据公司

红旗Linux:新型“Linux+”产品理念