数据中心级持久内存如何破解PB级数据分析难题
Posted 云技术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据中心级持久内存如何破解PB级数据分析难题相关的知识,希望对你有一定的参考价值。
5G商用,物联网加速落地,人工智能快速发展,必将产生大量的数据,形成数据洪流,给数据的管理分析带来巨大挑战!
一、全球超过一半数据创建于过去两年,只有2%的数据经过了分析
根据IDC2018年11月公布的数据,全球超过一半数据产生于过去两年。2018年,仅中国数据量就达到 7.6 ZB。2025年将达到 48.6 ZB,年均增长30%。其中只有2%的数据经过了分析,数据只有经过分析才有价值,从统计结果看显然,数据分析还远远不够普及。
数据洪流和数据分析发展曲线
数据分析非常复杂,从大的方向来划分,可以分为软件解决方案和硬件解决方案,下面我们分别了解下两种解决方案。
二、数据分析软件解决方案生态及典型工具
mattturck.com网站每年会发布数据及AI生态图谱,下图是最新的2019年图谱,可以看到和数据相关的企业非常多,涉及的领域也非常复杂。
数据和AI生态,图可点击放大,图来源:mattturck.com网站
从图谱来看,大的模块如下:
基础架构:Hadpoop生态,关系数据库、内存数据库、NoSQL数据库、图数据库、存储等
数据分析工具:数据分析平台、数据科学平台、BI、可视化、日志分析、社交分析等
企业应用数据分析:销售、市场、客服、人力资源、法律、财务、安全
APP应用数据分析:广告、教育、健康、生命科学、交通等
云厂商数据分析(往往提供从基础架构到解决方案):AWS、微软、谷歌、IBM、VMware、甲骨文
下面我们在来看看在一些不同领域,典型的数据分析工具:
1. Excel
Excel可以说是随手可得的数据分析工具,对于数据量不大的情况,使用Excel可以轻松分析,Excel提供的函数可以满足更复杂的分析要求,提供的VBA工具还可以编程,但是对于数据量特别大的分析,Excel就难以胜任了。
2. Hadoop
Hadoop是数据分析重量级的解决方案,如今已经形成生态,有不同的商业发行版和上下游企业。Hadoop是一个由Apache基金会开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了分布式文件系统(HDFS),Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
3. R语言
R语言常用于统计分析、绘图的语言和操作环境,并且是开源的。R语音是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。另外,在数据处理领域,Python也是常有的语言。
4. Tableau
Tableau是比较成功的数据分析工具,尤其是BI方面,今年6月份,Salesforce.com斥资153亿美元收购Tableau。Tableau的数据分析和展现做的比较好,很容易上手,兼容性也很好,同时支持Windows、Linux、MacOS等各种平台。。
5. Splunk
Splunk是最成功的商业日志管理分析工具,目前市值接近200亿美金。Splunk 收集、分析基础设施、安全系统和业务应用的数据,并将数据分析结果可视化。支持多平台,可以满足复杂的日志分析需求。
6.Elasticsearch
Shay Banon在2004年创造了Elasticsearch的前身,称为Compass。Shay Banon在2010年2月发布了Elasticsearch的第一个版本。Elasticsearch是开源的实时全文搜索和分析引擎,提供搜集、分析、存储数据三大功能。ElasticSearch提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。
软件方案一般门槛高,有学习成本,在数据量比较大的时候,要快速提升数据分析能力,使用硬件方案是好的选择。
笔者在英特尔网站发现了一份通过硬件提升数据分析能力的白皮书,基于英特尔®“傲腾™”数据中心级持久内存可以显著提升数据分析能力,笔者仔细阅读了白皮书,将其中重要的部分摘抄出来,和大家分享下。
三、数据分析加速利器-英特尔®“傲腾™”数据中心级持久内存
1. 英特尔®“傲腾™”数据中心级持久内存原理
为了让数据分析的速度提升,英特尔®推出的新一代的至强可扩展平台,是一套真正体现“以数据为中心”宗旨的产品技术组合,不仅仅配备第二代英特尔®至强®可扩展处理器,并且与之搭配的英特尔®“傲腾™”数据中心级持久内存更为抢眼,随之而来的是数据处理和分析平台在内存和存储结构上的真正革新,也是破解数据分析难题症结的一剂良方。
英特尔®推出的新一代的至强可扩展平台
“傲腾™”数据中心级持久内存与普通服务器的DRAM的不同之处,在于“傲腾™”能以更经济的成本来扩展出更高的容量,具备数据持久性,且与DRAM内存有相近的数据读写和延时性能。
英特尔®“傲腾™”数据中心级持久内存和英特尔“傲腾™”固态盘存储结构
如图所示,添加了英特尔®“傲腾™”数据中心级持久内存和英特尔“傲腾™”固态盘后的全新内存和存储结构,为数据存存储到技术,从冷到热提供了更为精细的分层结果,更多的缓存,让数据的流动、处理、分析更为流畅。
英特尔®“傲腾™”数据中心级持久内存特点
英特尔®“傲腾™”数据中心级持久内存具有低成本大容量特点,单一模块可以提供128GB/256GB/512GB三种选择,与传统的DDR4 DRAM内存一同安装在基于至强可扩展处理器平台上时,可以更经济的在八路系统上实现高达24TB的容量(每路最高3TB)。
2. 英特尔®“傲腾™”数据中心级持久内存工作模式
英特尔®“傲腾™”数据中心级持久内存,即可以做内存,也可以做存储,有三种玩法。
工作模式一:内存模式
使用“傲腾™”技术,处理器控制器将DRAM视为缓存,将“傲腾™”数据中心级内存用做可寻址的主内存,让数据以高性价比一直运行在内存中成为可能。由于“傲腾™”的高性价比,可以一次性将数据加载到内存中处理,大大提升了数据处理效果。
云计算的关键技术,虚拟化和容器可以以最快的速度直接从这种模式中收益,可以直接提升虚拟机或者容器性能,进一步提升单机的虚拟化密度。
工作模式二:App Direct模式
操作系统将DRAM和“傲腾™”数据中心级内存视为两个独立的内存池,“傲腾™”数据中心级内存可以像内存一样寻址,像存储设备一样具备数据持久性。在机器重启期间也能保留之前加载的数据,从而增加系统的业务弹性,缩短重启时间,提升业务恢复的速度。
工作模式三:双重模式
可以通过与配置的方式,部分处于内存模式,企业部分处于App Direct模式,用来满足用户即对内存模式有需求,又有工作负载需要运行在App Direct模式。
英特尔®“傲腾™”数据中心级持久内存三种工作模式
3. 案例:良好的效果
百度Feed流服务
百度Feed流服务的核心模块Feed-Cube从仅配置DRAM内存的模式,迁移至同时使用DRAM与英特尔®“傲腾™”数据中心级持久内存混合配置模式,再到全面部署在英特尔®“傲腾™”数据中心级持久内存上的模式,卓有成效的降低了总体拥有成本(TCO)。
百度Feed-Cube在不同内存配置模式下测试效果对比
SAP HANA
SAP测试了HANA在3TB DRAM内存平台,以及在3TB DRAM内存+6TB英特尔®“傲腾™”数据中心级持久内存平台上的表现,让系统重新启动从20分钟缩短到90秒,实现了13倍的提示,并使每TB数据库容量成本节约39%。
SAP HANA测试效果
英特尔®“傲腾™”数据中心级持久内存基于英特尔®至强®可扩展平台,英特尔®至强®可扩展平台有许多革命性的改进,我们再来简单介绍下英特尔®至强®可扩展平台。
四、英特尔®至强®可扩展平台介绍
到2020年,全球2000强跨国公司中有半数公司的成功将取决于打造数字化增强型产品、服务和体验的能力,背后的推动力便是技术的进步和由此带来的新模式。这使得全球对灵活计算、网络和存储的需求激增,数据中心需要演进,英特尔®至强®可扩展的数据中心平台实现了敏捷性和可扩展性的飞跃,并且能够提高效率并降低TCO。
英特尔®至强®可扩展平台内置人工智能加速并已针对工作负载进行优化,提供了多云与智能边缘之间无障碍性能切换的基础,平台搭载第二代英特尔®至强®可扩展处理器,将性能的一致性、普遍性和突破性提升到了新的高度。
为5G就绪云优化网络
英特尔®至强®可扩展平台提供的架构能够轻松扩展和改造,第二代英特尔®至强®可扩展处理器“N”SKU,专门用于网络/NFV,开源数据平面开发套件(DPDK)在英特尔架构上实现了优化的通信操作。
总结:5G时代,数据分析能力才是王道
目前,数据洪流已经到来,随着5G的到来,数据洪流还要加剧。数据是企业的血液,是企业生产的根本,数据如何存储、分析,产生更大的价值,是每家企业都要面临的挑战,企业需要从软件和硬件方面同时着手。英特尔®至强®可扩展平台是应对数据洪流的利器,英特尔®“傲腾™”数据中心级持久内存是加速数据分析的利器,可以让企业在数据处理方面走的更快更稳。
提示:
1. 本文中提到的英特尔官网的《傲腾数据中心级持久内存如何破解数据分析难题》白皮书链接如下,也可以点击原文链接直达:
https://www.intel.cn/content/www/cn/zh/architecture-and-technology/optane-dc-persistent-memory-case-gallery.html
2. 想要更详细的了解英特尔®至强®可扩展平台,可以访问以下链接:
https://www.intel.cn/content/www/cn/zh/products/docs/processors/xeon/2nd-gen-xeon-scalable-processors-brief.html
以上是关于数据中心级持久内存如何破解PB级数据分析难题的主要内容,如果未能解决你的问题,请参考以下文章
“PB 级”Redshift 使用超过 500 MB 的内存来对 848.00 KB 的数据进行排序
360 政企安全集团基于 Flink 的 PB 级数据即席查询实践