云计算的浪潮下,数据分析技术趋势何去何从
Posted 凌云建数
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了云计算的浪潮下,数据分析技术趋势何去何从相关的知识,希望对你有一定的参考价值。
云计算浪潮下,数据分析技术将何去何从
经过十几年的发展,大数据及分析技术已经成为企业数据洞察的核心驱动力。随着云计算技术的普及,数据分析技术趋势将走向何方?本文将分析未来3 -5年的数据发展技术趋势及架构,为企业的未来数据架构提供参考。主要内容将包含以下3部分:
数据分析行业应用趋势
数据分析平台技术趋势
数据分析技术参考架构
数据分析行业应用趋势
综合Gartner在2019年底及2020年6月发布的关于数据分析技术的技术发展趋势,未来3-5年以下技术会对大数据技术产生重大影响:
目前用户从数据获取信息的方式主要依赖数据仪表盘的各种图表,仪表盘数据通常是将业务系统数据通过数据抽取,清洗,转换等流程,将数据以固定图表的方式展现给业务用户。即使现在有些厂商提供自服务的数据分析产品,实现的功能也仅限于用户通过自服务数据分析工具拖拽维度, 指标进行有限的数据探索分析。数据工具对用户来说有一定的技术要求(对业务部门的用户来说),因此真正使用工具的人员相对有限。
随着自然语言处理技术的发展,目前在个人数字助理领域应用比较广泛的技术(Amazon的Alexa, 苹果的Siri)会逐渐应用在企业的数据分析领域。因此用户获取数据的方式不是再通过拖拽维度,指标构建图表,而是通过语音的方式与数据分析系统交互,用户对系统发出语音指令,“帮我分析一下2020年第一季度X产品的销售情况“。当然,系统根据当前用户的角色,场景自动识别用户的访问数据的用途,将相关的数据推送给用户。借助增强的数据分析,系统不只能回答描述性的问题,还可以进行深度的分析来回答预测性问题。比如用户继续发出指令,“帮我预测一下2020第三季度X产品的销售额“,“为什么第一季度Y产品的销售额下降15%?”
对话式分析,使得用户交互接口从表格输入转换到语音。另外,因为技术门槛的降低可以让更多用户访问并使用数据。Gartner预测,对话式分析将会让企业分析的用户增长20%。另外,这样的分析比传统的仪表盘给用户提供的信息更加有效,Gartner预测仪表板会逐渐衰落。增强的数据分析借助机器学习技术把数据准备,洞察发现,数据分析的过程自动化,让用户能够实时的基于流式获取相关情景信息。
Gartner预测到2023年,图计算技术将帮助全球30%的企业机构决策过程的快速情景化。到2024年,将图和语义分析应用于自然语言处理项目的公司将会比不用这样技术的公司减少75%的技术债。由此可见图计算技术在数据分析领域的作用越来越重要。
图数据分析是指一系列用于探索不同感兴趣的实体(如组织、人员和交易)之间关系的技术。它帮助数据和分析领导者找到数据中未知的关系,并查看传统分析技术不易分析的数据。
图数据分析应用的场景非常广泛,比如在金融行业中,金融风险的管控、客户的营销拓展,内部的审计监管、以及投资理财等方面都可以应用图计算技术。在互联网公司的广告,推荐系统等业务上需要定向优化,相关排名、个性化推荐以及热点点击分析等。公安系统“人、案、物、组织、地址”等为基本要素,建立要素内的图关联关系,通过关联图分析,加速案件的侦破及突发事件快速反应。
Gartner用X分析代指一系列数据分析的总称,可以是结构化或者非结构化数据的文本分析,视频分析,自然语言处理分析。传统的数据分析主要集中在结构化数据,但是随着数据湖及AI技术的不断发展,非结构化的数据分析为企业带来价值会逐渐增加。Gartner的2019年数据统计显示,目前已经有39%的企业已经使用数据湖技术,未来1-2年有42%的企业将搭建自己的数据湖。
随着企业数据量的指数增长,一些厂商会利用机器学习及人工智能技术使得数据管理的流程自配置并自优化。这样可以解放企业员工的时间,有更多精力专注在与业务相关的工作上。Gartner预测到2022年,因为机器学习及自动服务水平管理的应用的推广,数据管理的手动工作会减少45%。
增强的数据管理是将机器学习技术应用在数据质量,主数据管理,原数据管理,数据血缘分析,数据库引擎自动调优等方面。目前很多数据厂商已经在做相关的产品功能的研发及推广。比如AWS的Lake Formation通过机器学习自动识别数据中的重复记录从而简化主数据的管理。Redshift利用机器学习技术自动进行数据的排序以及统计信息的生成从而自动优化数据仓库系统的性能。
数据交易市场是数据变现的另外一个途径。一些厂商已经提供数据交易市场的功能使得用户能够交换,使用第三方的数据。如何有效保护第三方数据的安全,并对第三方数据的可靠性进行追踪是数据交换的前提。区块链技术能够提供数据资产及交易的完整沿袭。Gartner预测,到2023年企业利用区块链技术使得数据质量提升50%,从而提升数据分析 ROI。
数据分析平台技术趋势
说完数据分析的行业应用趋势,再看看数据分析平台技术趋势。从以下三点阐述大数据的技术趋势:
基础设施平台发展趋势
云计算已经牢固地确立了企业IT的“新常态”的地位,云计算对于企业实现数字化转型变得越来越重要。因此,企业的IT必须更新其流程并提高员工的技能,以便在云计算迅速扩散的同时保持必要的控制能力。未来3-5年,主要的云计算厂商会提供像ATM一样的基础云服务给最终用户满足用户对低延时要求的应用场景。同样,在数据分析领域,云计算上提供的无限扩展的资源及灵活性让企业快速进行数据接入,分析,发现并分享数据中的价值。Gartner预测,到2022年,公有云服务将对90%的数据和分析创新起到至关重要的作用。
目前的数据分析系统通常与在线业务支撑系统是两套独立的系统。数据分析系统通常以天为单位或者小时为单位从业务系统进行数据抽取。数据从分散在各地的业务系统数据汇集到集中的数据分析中心,经过处理后提供数据消费者。从数据产生到可以消费的数据的时间延迟高,决策者很难根据数据做出实时决策。随着5G技术的发展,新的移动互联网及实时机器学习推理应用对数据延迟提出新的要求。企业自建的数据中心离最终用户的距离可能是几百甚至上千公里,网络延迟随着距离增加不断升高。而云厂商提供的ATM一样的基础设施服务满足企业低延时,高吞吐的需求。因此会不断的被更多企业用户采纳。
数据存储发展趋势
前面提到的X分析关键技术包括对非结构化数据的可以是结构化或者非结构化数据的文本分析,视频分析,自然语言处理分析。构建数据湖存储非结构化数据是进行分析的前提。目前数据湖的存储技术主要包括数据中心的分布式文件系统HDFS以及云上的对象存储技术比如S3。HDFS是一个Master-Slave架构,主节点NameNode是整个存储系统的关键节点,提供分布式文件命名空间管理及块对象管理等原数据管理功能。为了保证客户端访问元数据数据的性能,NameNode把所有原数据加载在内存中。受限Java对内存的大小,NameNode管理的文件/块的个数在4-6亿左右。另外HDFS集群规模在上千个节点后,NameNode RPC压力也非常大。因此HDFS在大规模存储的稳定性几扩展性遇到调整。而云上的对象存储架构能在数据持久性及可用性上都能很好满足数据湖数据扩展的需求。而且从存储成本上,HDFS的存储成本是S3的5倍左右。因此很多企业用户已经把数据湖技术搭建在对象存储S3上。Databricks公司有一篇博客,从成本,弹性,SLA,性能等几方面对比了S3与HDFS的区别,详细信息可以参考文后链接。
当然,开源社区开发者也意识到HDFS的一些不足,并且认识对象存储的优势。因此开源社区正在开发新的面向数据中心的对象存储技术OZone。Ozone架构的核心是借鉴了HDFS的扩展性问题,将命名空间管理及块管理2个模块拆分到不同的进程进行管理,Ozone Manager主要提供命名空间管理的功能,而Storage Container Manager主要提供块管理功能。Storage Container Manager管理的块大小是2-16GB,相比HDFS管理的128MB块有近160倍的提高。而且Ozone Manager和Storage Container Manager都可以根据数据量进行水平扩展。因此Ozone相比HDFS有几十倍的扩展性。同时,为了支持对象存储协议,Ozone通过S3 Gateway对外提供标准的S3对象存储协议。这样方便用户在数据中心及云上进行数据业务迁移。
通过对象存储的另外一个好处就是实现存储-计算隔离。计算任务完成后,可以随时关闭计算集群降低成本。另外,存储集群与计算集群可以独立扩展,避免存储-计算耦合代理扩展的资源浪费。最好,存储-计算隔离可以为不同的负载类型选择不同的计算实例(机型)。比如计算密集型的任务可以选择更多CPU资源的机型,而内存要求高的任务可以选择大内存机型支撑。
因此,在未来3-5年,对象存储将成为数据湖技术的核心技术。在数据中心,企业用户将HDFS迁移至扩展性更好的Ozone技术。在公有云上,用户将使用性价比更好的S3等作为对象存储。
计算资源调度技术趋势
Apache Hadoop经过十几年的发展积累的很多用户,YARN作为Hadoop之上的资源调度组建提供资源管理及调度功能。大数据生态系统的很多技术框架通过YARN进行资源调度,比如MapReduce, Tez, Hive, Spark, Flink等。但是YARN作为企业的统一资源调度还存在一些不足,比如:
1. 资源隔离:YARN主要调度的资源是内存;从Hadoop2.2开始,YARN可以通过cgroups调度CPU资源。然而,对于磁盘IO和网络IO,YARN还不能提供资源隔离和控制。开源社区针对磁盘IO正在进行一些探讨(YARN-2139),但是还没有彻底的方案。网络IO也有同样的问题(YARN-2140)。
2. 资源共享:目前数据分析(大数据)与业务系统通常单独部署。而两个系统的负载繁忙时间通常是相反,大数据系统通常在夜间需要运行很多ETL作业,负载相对比较高;白天,大数据系统处理的作业相对少因此负载相对低。业务系统则相反,白天要接受很多业务处理,负载相对高;晚上业务系统的业务少,负载相对低。但是由于两个系统单独部署,使用的调度框架不同(数据分析多数使用YARN,业务系统多数使用Kubernetes)很难在两个系统间进行资源共享。
3. 依赖管理:基于YARN调度的集群,通常是“单体”的大数据集群支持多租户的需求。但是单体的大数据集群要求所有上层应用的版本要统一,在运行以下组件比如PySpark会有系统版本冲突问题。因为要求所有应用版本统一,不利于版本个升级更新及业务创新。
4. 运维复杂:大数据系统与业务系统资源调用框架的不同会导致运维复杂度提升。需要开发两套不同的安全,管理,监控和告警等系统。
为了解决上述的一些问题,企业逐渐将两套资源调度系统进行合并。因为Kubernetes的一些技术优势(关于Kubernetes的技术优点暂不赘述),很多用户将大数据负载通过Kubernetes进行调度,架构如下:
通过Kubernetes调度大数据计算框架的好处:
-
资源隔离:Kubernetes很好的支持CPU,内存,磁盘IO,网络IO等资源的隔离。
-
资源共享:通过Kubernetes进行资源调度,可以将业务系统,大数据系统部署在一个平台,实现负载利用率的互补,提高资源利用率。
-
容器化:比如众所周知的让人痛苦的Spark的依赖管理,通过容器我们可以为不同的应用程序构建不同的容器镜像。我们也可以为所有应用构建通用的容器镜像,不同的应用在通用镜像基础上增加特有的代码,从而降低应用程序打包流程复杂度。
-
生态系统:利用Kubernetes比较成熟的生态系统进行安全管控,管理,监控和报警等功能。
当然,通过Kubernetes调度大数据计算框架也存在一些不足。比如产品功能还在迭代,需要一些时间和经验构造稳定的平台。
数据分析技术参考架构
综上所述,数据分析应用趋势为应用系统提供方向,同时也对底层的技术平台提出新的需求。而底层平台的技术演进又为不断演进应用新需求提供支撑。为了更好的解决“单体”大数据集群的弊端,建议未来数据分析的参考架构如下:
-
充分利用云基础设施的便利性,满足延迟,扩展等业务要求
-
对象存储可以实现存储-计算分离,并方便混合云的部署实现数据中心与云的业务迁移
-
通过支撑云原生的Kubernetes进行资源调度可以方便实现多云策略
-
-
利用云的无限资源及技术先进性,企业将更多的精力投入到与业务相关的应用开发上,而不需要关注底层的技术平台
总结
本文从数据分析的行业应用趋势,平台技术趋势阐述了数据分析技术在未来3-5年的发展方向。并结合业务及大数据系统的现状给出未来大数据平台的参考架构。希望对数据分析的领导者提供一些参考信息。
参考
[1].Gartner数据分析技术趋势预测 (2019):
https://www.gartner.com/smarterwithgartner/gartner-top-10-data-analytics-trends/
[2].Gartner数据分析技术趋势预测 (2020):
https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/
https://www.gartner.com/en/doc/721868-100-data-and-analytics-predictions-through-2024
[4].Databrick关于HDFS和S3的对比:
https://databricks.com/blog/2017/05/31/top-5-reasons-for-choosing-s3-over-hdfs.html
[5].Ozone官网:https://hadoop.apache.org/ozone/
[6].YARN的磁盘IO隔离:https://issues.apache.org/jira/browse/YARN-2139
[7].YARN的网络IO隔离:https://issues.apache.org/jira/browse/YARN-2140
[8].Kubernets生态系统:https://spot.io/blog/kubernetes-ecosystem/
欢迎关注“凌云建数”公众号,获取更多关于与技术与数据分析相关信息:
以上是关于云计算的浪潮下,数据分析技术趋势何去何从的主要内容,如果未能解决你的问题,请参考以下文章
云计算前景好么?
在人工智能的时代,云计算又该何去何从呢?
云原生下,如何实现高可用的MySQL?
金融云之上的“问”,浪潮云海下的“答”
云计算技术 — 数据中心基础架构变迁史
云计算技术 — 数据中心基础架构变迁史