6.数据中台 --- 数据开发:数据价值提炼工厂

Posted enlyhua

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了6.数据中台 --- 数据开发:数据价值提炼工厂相关的知识,希望对你有一定的参考价值。

第6章 数据开发:数据价值提炼工厂
	数据开发涉及的产品能力主要包括三个部分,分别是 离线开发、实时开发和算法开发。
		1.离线开发
			主要包括离线数据的开发、发布、运维管理,以及数据分析、数据探索、在线查询和即席分析相关的工作。
		2.实时开发
			主要涉及数据的实时接入和实时处理,简化流数据的加工处理过程。
		3.算法开发
			主要提供简单易用的可视化拖拽方式和Notebook方式来实现数据价值的深度挖掘。

	常见的加工场景有 离线和实时数仓建设、算法模型训练、数据化运营分析、数据探索等。在这个过程中,通过数据开发套件
对大数据的存储和计算能力进行封装,通过产品化的方式让用户更容易使用大数据。计算能力与上一章提到的存储能力是紧密联系的,
数据规模不断增加,除了存储能力需要细分,计算能力也一样需要细分,因此在建设过程中,也需要对不同场景下的计算能力有一定
的了解。


6.1 数据计算能力的4种类型
	将计算能力根据场景抽象分成4大类:批计算、流计算、在线查询和即席计算。

	1.批计算(海量数据,批量计算)
		主要用于批量数据的高延时处理场景,如离线数仓的加工、大规模数据的清洗和挖掘等。目前大多数是利用MaxReduce、Hive、
	Spark等计算框架进行处理,其特点是数据吞吐量大、延时高,适合人机交互少的场景。


		随着数据量的不断增加,原有的计算框架已经无法支撑TP、PB甚至EB级规模的数据处理,在这种情况下,提供成本低廉且可水平扩容的
	计算能力,采用分而治之的方法是必然的。传统的数据处理方式通常是将数据导入至专门的数据分析工具中,这样会面临2个问题:
		1.源数据非常大时,往往数据的移动就要花费很长时间;
		2.传统的数据处理工具往往是单机的,或系统架构无法快速扩容,面对海量数据时,数据处理的时间也是一个很大的问题。

		MapR

以上是关于6.数据中台 --- 数据开发:数据价值提炼工厂的主要内容,如果未能解决你的问题,请参考以下文章

数据中台建设:打破企业数据孤岛和提取数据价值

传统数据仓库与数据中台有哪些差异?

激活数据价值,探究DataOps下的数据架构及其实践丨DTVision开发治理篇

搞了三年,再看数据中台的价值与解决方案

搞了三年,再看数据中台的价值与解决方案

什么是数据中台?数据中台带来了哪些价值?_光点科技