浪潮服务器构建Hadoop平台,让数据分析更高效
Posted 浪潮服务器
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浪潮服务器构建Hadoop平台,让数据分析更高效相关的知识,希望对你有一定的参考价值。
随着大数据分析技术的成熟,通过大数据对用户进行精准画像,并推送与其相关的资讯成为互联网企业提升用户体验的主流做法。浪潮通过互联网定制化服务器SA5112M5+SA5212M5的组合方案,让Hadoop大数据集群更高效。
目前互联网的信息繁杂,导致用户对于信息的选择更苛刻。只有在合适的时间,把合适的内容推送给合适的人,才能让信息产生价值。以旅游App为例,旅行社、酒店繁多,良莠不齐,为了帮助中国旅游者做出更好的旅行选择,在线旅游网站希望凭借便捷、人性且先进的搜索技术,对互联网上的机票、酒店、度假和签证等信息进行整合,为用户提供及时的旅游产品价格查询和信息比较服务。
Hadoop是大数据分析常用的平台
要实现实时精准搜索,需要建立比如Hadoop这样的大数据分析平台,在大规模集群上提供MPI、BSP、MapReduce、Spark等多种计算模型,实现大规模基础统计、分类、聚类、矩阵分解、图算法等一系列算法,并利用online learning技术,改进机器学习算法的规模以及性能,对网站进行内容基因分析,对用户进行长期兴趣点、短期兴趣点等的画像分析,帮助用户更快获取有兴趣的信息。
为了保证数据可用性和容错性,Hadoop在集群服务器节点间分派数据并进行同步复制。同时为保证快速的输出处理,存储数据的服务器也需要一定的计算能力。正是由于Hadoop集群中的每一台节点都存储并处理数据的特点,这些节点都需要足够的计算和存储能力来满足应用需求。
在一个平衡的Hadoop集群中,节点通常需要如下配置:
• 在一个磁盘阵列中要有12到24个1~8TB硬盘
• 2个频率为2~2.5GHz的四核、六核或八核CPU
• 64~512GB的内存
• 有保障的千兆或万兆以太网(存储密度越大,需要的网络吞吐量越高)
Hadoop集群有四种基本任务角色:名称节点,工作追踪节点,任务执行节点,和数据节点。按照工作性质来划分,Hadoop集群中有两类节点,Master(主要负责任务调度)和Slave节点(主要负责具体执行)。不同节点,采用SA5112M5+SA5212M5服务器组合的方式,适应不同的工作负载以及存储容量的需求。
Hadoop不同节点有着不同的诉求
以名称节点为例,名称节点存储了所有分布式文件系统的元数据,其中包括文件、目录结构以及内存中的分块分配。每个分布式文件系统分块在名称节点的内存中大小约为250字节,另外加上文件和目录所需的250字节,共需要0.5k的内存。同时为了保证数据可靠,集群内至少需要有三个副本,因此64M实际数据需要1.5k的内存空间。一个热门的App由于拥有海量的用户、商家、地图等数据,其Hadoop集群有PB级的文件,因此为名称节点配置128G内存才可以满足扩展需要。
浪潮SA5112M5是专为互联网行业定制的1U机架式服务器,相比其他传统1U双路服务器,在前置4个3.5寸SATA硬盘的同时,独家设计支持2个SSD硬盘。这两个SSD硬盘可以作为数据缓存,提高作为缓存服务器的效率和访问速度。因此浪潮推荐选择SA5112M5作为Hadoop的Master节点方案,并针对Hadoop工作负载进行优化的平衡架构。基于全新一代英特尔® 至强® 可扩展处理器,单CPU最高拥有28个内核及56线程,24条DDR4内存,拥有更快响应速度。
浪潮SA5112M5服务器
集群中的slave节点具体执行数据存储和分析,因此不仅需要较高的计算能力,还需要高效的存储。浪潮推荐采用SA5212M5,这是一款2U计算存储均衡型服务器,搭载最新一代英特尔至强可扩展处理器,支持Intel Skylake平台3/4/5/6/8全系处理器,支持全新的微处理架构,AVX512指令集可提供上一代2倍的FLOPs/core,多达28个内核及56线程,计算性能可达到上一代的1.3倍。
在存储方面,SA5212M5通过空间分层技术,可在2U空间内支持高达200T的存储容量,轻松满足大容量存储的要求;同时,SA5212M5可实现全闪存场景配置,帮助用户进行高速数据分析,提供强大的计算性能。
浪潮SA5212M5服务器
当大数据分析已经成为一个成熟技术,如何用更高效的计算平台来加速应用的效率成为IT运营者重点关注的方向。浪潮拥有业界最丰富的服务器产品线,涵盖通用、整机柜和AI计算等方向,可组建性能和TCO最优的IT系统,加速企业业务的发展。
5
以上是关于浪潮服务器构建Hadoop平台,让数据分析更高效的主要内容,如果未能解决你的问题,请参考以下文章
B2B商城网站助力企业加快分销速度,构建高效智能的B2B网上分销平台