浪潮服务器构建Hadoop平台,让数据分析更高效

Posted 浪潮服务器

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浪潮服务器构建Hadoop平台,让数据分析更高效相关的知识,希望对你有一定的参考价值。


随着大数据分析技术的成熟,通过大数据对用户进行精准画像,并推送与其相关的资讯成为互联网企业提升用户体验的主流做法。浪潮通过互联网定制化服务器SA5112M5+SA5212M5的组合方案,让Hadoop大数据集群更高效。


大数据分析,实现海底捞针

目前互联网的信息繁杂,导致用户对于信息的选择更苛刻。只有在合适的时间,把合适的内容推送给合适的人,才能让信息产生价值。以旅游App为例,旅行社、酒店繁多,良莠不齐,为了帮助中国旅游者做出更好的旅行选择,在线旅游网站希望凭借便捷、人性且先进的搜索技术,对互联网上的机票、酒店、度假和签证等信息进行整合,为用户提供及时的旅游产品价格查询和信息比较服务。


浪潮服务器构建Hadoop平台,让数据分析更高效

Hadoop是大数据分析常用的平台


要实现实时精准搜索,需要建立比如Hadoop这样的大数据分析平台,在大规模集群上提供MPI、BSP、MapReduce、Spark等多种计算模型,实现大规模基础统计、分类、聚类、矩阵分解、图算法等一系列算法,并利用online learning技术,改进机器学习算法的规模以及性能,对网站进行内容基因分析,对用户进行长期兴趣点、短期兴趣点等的画像分析,帮助用户更快获取有兴趣的信息。


均衡类服务器是新建Hadoop平台的首选

为了保证数据可用性和容错性,Hadoop在集群服务器节点间分派数据并进行同步复制。同时为保证快速的输出处理,存储数据的服务器也需要一定的计算能力。正是由于Hadoop集群中的每一台节点都存储并处理数据的特点,这些节点都需要足够的计算和存储能力来满足应用需求。


在一个平衡的Hadoop集群中,节点通常需要如下配置:

•   在一个磁盘阵列中要有12到24个1~8TB硬盘

•   2个频率为2~2.5GHz的四核、六核或八核CPU

•   64~512GB的内存

  有保障的千兆或万兆以太网(存储密度越大,需要的网络吞吐量越高)


浪潮组合方案建立高效Hadoop平台

Hadoop集群有四种基本任务角色:名称节点,工作追踪节点,任务执行节点,和数据节点。按照工作性质来划分,Hadoop集群中有两类节点,Master(主要负责任务调度)和Slave节点(主要负责具体执行)。不同节点,采用SA5112M5+SA5212M5服务器组合的方式,适应不同的工作负载以及存储容量的需求。

浪潮服务器构建Hadoop平台,让数据分析更高效

Hadoop不同节点有着不同的诉求


以名称节点为例,名称节点存储了所有分布式文件系统的元数据,其中包括文件、目录结构以及内存中的分块分配。每个分布式文件系统分块在名称节点的内存中大小约为250字节,另外加上文件和目录所需的250字节,共需要0.5k的内存。同时为了保证数据可靠,集群内至少需要有三个副本,因此64M实际数据需要1.5k的内存空间。一个热门的App由于拥有海量的用户、商家、地图等数据,其Hadoop集群有PB级的文件,因此为名称节点配置128G内存才可以满足扩展需要。


浪潮SA5112M5是专为互联网行业定制的1U机架式服务器,相比其他传统1U双路服务器,在前置4个3.5寸SATA硬盘的同时,独家设计支持2个SSD硬盘。这两个SSD硬盘可以作为数据缓存,提高作为缓存服务器的效率和访问速度。因此浪潮推荐选择SA5112M5作为Hadoop的Master节点方案,并针对Hadoop工作负载进行优化的平衡架构。基于全新一代英特尔® 至强® 可扩展处理器,单CPU最高拥有28个内核及56线程,24条DDR4内存,拥有更快响应速度。

浪潮服务器构建Hadoop平台,让数据分析更高效

浪潮SA5112M5服务器


集群中的slave节点具体执行数据存储和分析,因此不仅需要较高的计算能力,还需要高效的存储。浪潮推荐采用SA5212M5,这是一款2U计算存储均衡型服务器,搭载最新一代英特尔至强可扩展处理器,支持Intel Skylake平台3/4/5/6/8全系处理器,支持全新的微处理架构,AVX512指令集可提供上一代2倍的FLOPs/core,多达28个内核及56线程,计算性能可达到上一代的1.3倍。


在存储方面,SA5212M5通过空间分层技术,可在2U空间内支持高达200T的存储容量,轻松满足大容量存储的要求;同时,SA5212M5可实现全闪存场景配置,帮助用户进行高速数据分析,提供强大的计算性能。

浪潮服务器构建Hadoop平台,让数据分析更高效

浪潮SA5212M5服务器

 

当大数据分析已经成为一个成熟技术,如何用更高效的计算平台来加速应用的效率成为IT运营者重点关注的方向。浪潮拥有业界最丰富的服务器产品线,涵盖通用、整机柜和AI计算等方向,可组建性能和TCO最优的IT系统,加速企业业务的发展。


浪潮服务器构建Hadoop平台,让数据分析更高效

戳链接,更有料!

5



以上是关于浪潮服务器构建Hadoop平台,让数据分析更高效的主要内容,如果未能解决你的问题,请参考以下文章

如何根据数据冷热程度分层存储,让HDFS更高效?

如何低成本高效率搭建Hadoop/Spark大数据处理平台

B2B商城网站助力企业加快分销速度,构建高效智能的B2B网上分销平台

Tapdata 的 ∞ 实践:中小企业如何轻量高效地搭建起一个灵活易用的数字化平台

物联网平台

互认证合集(8月)|ZStack&浪潮瑞星志凌海纳好雨科技瑞蓝创软件