浅谈数据湖和数据中台及数据仓库
Posted BigData2000
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浅谈数据湖和数据中台及数据仓库相关的知识,希望对你有一定的参考价值。
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
数据中台建设的基础还是数据仓库和数据中心,并且在数仓模型的设计上也是一脉传承,之所以我们现在处处推崇数据中台建设及应用,一个是因为数据中台确实有过人之处,另一个是这套模型在阿里体现了巨大的应用价值。数据中台一般包括了数据模型和数据资产管理,数据服务开放,上层的数据类应用和标签管理等。从构成上数据中台一般包括以下几个部分的内容。
1.数据仓库:用来存储数据的,结构性数据、非结构性数据等,还有离线数据和实时数据等;
2.大数据中间件:包含了大数据计算服务、大数据研发套件、数据分析及展现工具;
3.数据资产管理:按照企业体系应该分为垂直数据、公共数据和萃取数据3层;
从这个内容一看,更加明确了谈到的数据中台就是一个数据共享能力提供中心。在前期可以是一个基于大数据技术构建的分布式ODS库,在后期可以发展到数据仓库和大数据分析。底层的核心仍然是数据建模。
当我们把这个概念搞清楚后,我们才基本清楚了企业一个开始建设企业中台,如果仅仅是满足业务流程和业务处理需求,只会涉及到业务中台构建。在业务中台构建完成后,考虑到后续端到端流程监控分析,大数据分析的需求才会涉及到数据中台的构建。
当然数据中台本身也为上层应用提供各种数据服务能力,也可以理解为大数据应用支撑服务平台,比如上层的针对性营销,用户画像和标签化,这个就部署业务中台能够提供的能力,而是需要数据中台来提供这个能力。只有数据中台对用户相关的所有静态数据,动态行为数据进行了集中,也进行了关联分析和建模。
其次你会发现,当你在构建上层业务应用的时候,如果需要的不仅仅是传统业务中台的单个业务模块提供的单数据对象数据服务能力,而更多的是需要提供跨多个业务组件提供的整合后的数据能力,那么这件事情也应该是数据中台来做最合适。因为这个职责本身也不在业务中台。
因此数据中台是多个共享数据对象的汇总和集合,能够提供跨业务中台多组件的共享数据服务提供能力。正因为具备这个能力,你会发现当你构建上层一个分析类应用前台的时候,原来需要和业务中台多个业务组件打交道,同时自己还需要进行数据整合清理。但是新架构下你只需要消费和使用数据中台提供的共享数据服务能力即可。
一
数据仓库
数据仓库平台逐步从BI报表为主到分析为主、到预测为主、再到操作智能为目标。
图1.数据仓库发展阶段划分
商务智能(BI,Business Intelligence)是一种以提供决策分析性的运营数据为目的而建立的信息系统。是属于在线分析处理:On Line Analytical Processing(OLAP),将预先计算完成的汇总数据,储存于魔方数据库(Cube) 之中,针对复杂的分析查询,提供快速的响应。在前10年,BI报表项目比较多,是数据仓库项目的前期预热项目(主要分析为主的阶段,是数据仓库的初级阶段),制作一些可视化报表展现给管理者。
它利用信息科技,将分散于企业内、外部各种数据加以整合并转换成知识,并依据某些特定的主题需求,进行决策分析和运算;
用户则通过报表、图表、多维度分析的方式,寻找解决业务问题所需要的方案;
这些结果将呈报给决策者,以支持策略性的决策和定义组织绩效,或者融入智能知识库自动向客户推送。
1.1
数据仓库基本定义
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。[1]:引自全球数据仓库之父 W.H.Inmon。
图2.数据仓库逻辑架构
1.2
数据仓库系统作用和定位
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
图3.数据仓库的作用
是面向企业中、高级管理进行业务分析和绩效考核的数据整合、分析和展现的工具;
是主要用于历史性、综合性和深层次数据分析;
数据来源是ERP(例:SAP)系统或其他业务系统;
能够提供灵活、直观、简洁和易于操作的多维查询分析;
不是日常交易操作系统,不能直接产生交易数据;
数据仓库针对实时数据处理,非结构化数据处理能力较弱,以及在业务在预警预测方面应用相对有限。
1.3
数据仓库能提供什么
图4.数据仓库提供价值
1.4
数据仓库系统构成
数据仓库系统除了包含分析产品本身之外,还包含数据集成、数据存储、数据计算、门户展现、平台管理等其它一系列的产品。
图5.数据仓库产品构成
图6.数据仓库产品构成
二
数据湖
数据湖(Data Lake)是Pentaho的CTO James Dixon提出来的(Pentaho作为一家BI公司在理念上是挺先进的),是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。
2.1
百科对数据湖的定义
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。
图7.数据湖的处理架构
图8.数据湖示意图
2.2
数据湖能给企业带来多种能力
数据湖能给企业带来多种能力,例如,能实现数据的集中式管理,在此之上,企业能挖掘出很多之前所不具备的能力。另外,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。
2.3
数据仓库与数据湖差异
表1.数据仓库、数据湖和数据湖的区别如下:
数据仓库 |
数据湖 |
---|---|
主要处理历史的、结构化的数据,而且这些数据必须与数据仓库事先定义的模型吻合。 |
能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。 |
处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。 |
拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。 |
数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。 |
数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。 |
三
数据中台
3.1
产生的背景
企业在过去信息化的历程中形成了大量生产经营及专业业务应用成果,同时也累积了大量的企业数据资产。限于传统的数据仓库技术手段,数据管理和分析能力成为信息化工作中的短板。企业信息系统众多,系统管理独立,数据存储分散,横向的数据共享和分析应用仅由具体业务驱动,难以对全局数据开展价值挖掘,从规模上和效果上都无法真正体现集团庞大数据资产的价值。市场竞争和产业链日益全球化,企业不只满足于内部数据的分析,更要通过互联网、微信、APP等新技术手段结合外部市场数据进行整体分析。
(1)传统的数据仓库不能满足数据分析需求。
企业在数据分析应用方面呈现“五大转变”(从统计分析向预测分析转变、从单领域分析向跨领域转变、从被动分析向主动分析转变、从非实时向实时分析转变、从结构化数据向多元化转变),并且对统一的数据中台平台诉求强烈,对数据中台的运算能力、核心算法、及数据全面性提出了更高的要求。
(2)数据中台的处理架构发生了变化。
一是以Hadoop、Spark等分布式技术和组件为核心的“计算&存储混搭”的数据处理架构,能够支持批量和实时的数据加载以及灵活的业务需求。二是数据的预处理流程正在从传统的ETL结构向ELT转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。
3.2
数据中台建设是数字化转型的关键支撑
数据中台成为热点,“中台”这个概念,是相对于前台和后台而生,是前台和后台的链接点,将业务共同的工具和技术予以沉淀。数据中台是指数据采集交换、共享融合、组织处理、建模分析、管理治理和服务应用于一体的综合性数据能力平台,在大数据生态中处于承上启下的功能,提供面向数据应用支撑的底座能力。
广义上来给数据中台一个企业级的定义:“聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。
图9.数据中台建设是数字化转型的关键支撑
中台战略核心是数据服务的共享。中台战略并不是搭建一个数据平台,但是中台的大部分服务都是围绕数据而生,数据中台是围绕向上层应用提供数据服务构建的,中台战略让数据在数据平台和业务系统之间形成了一个良性的闭环,也就是实现应用与数据之间解藕,并实现紧密交互。
敏捷前台:一线作战单元,强调敏捷交互及稳定交付的组织能力建设。
业务中台:能力固化与赋能,固化通用能力,赋能前线部队,提升配置效率,加快前线响应,产品化业务化,开辟全新生态。
数据中台:资产整合与共享,整合多维数据,统一资产管理,连通数据孤岛,共享数据资源,深入挖掘数据,盘活资产价值。
稳定后台:以共享中心建设为核心,为前中台提供专业的内部服务支撑。
3.3
数据中台定义及处理架构
数据中台是指通过企业内外部多源异构的数据采集、治理、建模、分析,应用,使数据对内优化管理提高业务,对外可以数据合作价值释放,成为企业数据资产管理中枢。数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务。
图10.数据中台架构图
数据中台整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,并通过多租户技术进行资源打包整合,并进行开放,为用户提供“一站式”数据服务。
利用大数据技术,对海量数据进行统一采集、计算、存储,并使用统一的数据规范进行管理,将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,提供一致的、高可用大 数据服务。
数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台。
3.4
数据中台带来价值
数据中台对一个企业的数字化转型和可持续发展起着至关重要的作用。数据中台为解耦而生,企业建设数据中台的最大意义就是应用与数据解藕。这样企业就可以不受限制地按需构建满足业务需求的数据应用。
四
传统数据仓库与数据中台的差异点
图11.数据中台与传统数据仓库比较
表2.技术路线对比表
作为工业企业,一般采用混搭架构
表3.技术路线选型比较表
上文对数据仓库、数据湖、数据中台等作了说明,便于大家更好的理解和掌握数据领域相关概念。
总结一点:数据中台更好的支撑数据预测分析、跨领域分析、主动分析、实时分析、多元化结构化数据分析,数据中台建设是我们企业数据服务和共享奠定重要的基础,可以加速从数据到价值的过程,打造相应业务能力。那么数据中台和业务中台又有什么区别呢:
1.数据中台与业务中台的区别
业务中台更多偏向于业务流程管控,将业务流程中共性的服务抽象出来,形成通用的服务能力。比如电商平台,有C2C、B2C、C2B、B2B四种模式,其中订单、交易、商品管理、购物车等模块都是有共性的。
将这些组件沉淀出来,形成电商行业的业务中台,再基于这些业务中台组件的服务能力,可以快速搭建前台应用,譬如C2C模式的淘宝、B2C模式的天猫、B2B模式的1688、C2B模式的聚划算,用户通过这些前台业务触点使用业务服务。业务中台不直接面向终端用户,但可以极大提升构建面向终端用户的前台的速度和效率。
业务中台是抽象业务流程的共性形成通用业务服务能力,而数据中台则是抽象数据能力的共性形成通用数据服务能力。比如,原始业务数据通过资产化服务化,形成客户微观画像服务,这个服务可用于电商平台的商品推荐,也可能用于地产购房意愿,还可能用于金融领域的信用评级等。
同一个服务,在应用层面展现的内容可能不一致,但是底层的数据体系是一致的。数据中台也将极大提升数据开发的效率,降低开发成本,同时可以让整个数据场景更为智能化。
2.数据中台与业务中台的联系
如果同时拥有业务中台和数据中台,则数据中台与业务中台是相辅相成的。业务中台中沉淀的业务数据进入到数据中台进行体系化的加工,再以服务化的方式支撑业务中台上的应用,而这些应用产生的新数据又流转到数据中台,形成循环不息的数据闭环,如图2-8所示。
1.数据中台与业务中台的区别
业务中台更多偏向于业务流程管控,将业务流程中共性的服务抽象出来,形成通用的服务能力。比如电商平台,有C2C、B2C、C2B、B2B四种模式,其中订单、交易、商品管理、购物车等模块都是有共性的。
将这些组件沉淀出来,形成电商行业的业务中台,再基于这些业务中台组件的服务能力,可以快速搭建前台应用,譬如C2C模式的淘宝、B2C模式的天猫、B2B模式的1688、C2B模式的聚划算,用户通过这些前台业务触点使用业务服务。业务中台不直接面向终端用户,但可以极大提升构建面向终端用户的前台的速度和效率。
业务中台是抽象业务流程的共性形成通用业务服务能力,而数据中台则是抽象数据能力的共性形成通用数据服务能力。比如,原始业务数据通过资产化服务化,形成客户微观画像服务,这个服务可用于电商平台的商品推荐,也可能用于地产购房意愿,还可能用于金融领域的信用评级等。
同一个服务,在应用层面展现的内容可能不一致,但是底层的数据体系是一致的。数据中台也将极大提升数据开发的效率,降低开发成本,同时可以让整个数据场景更为智能化。
2.数据中台与业务中台的联系
如果同时拥有业务中台和数据中台,则数据中台与业务中台是相辅相成的。业务中台中沉淀的业务数据进入到数据中台进行体系化的加工,再以服务化的方式支撑业务中台上的应用,而这些应用产生的新数据又流转到数据中台,形成循环不息的数据闭环,如图2-8所示。
图2-8 业务中台与数据中台的数据应用闭环
业务中台与数据中台互相促进,为企业业务的发展、管理者更好的决策提供支持。其中,业务中台的存在是为了围绕公司业务运营进行服务,将获取的多维度数据传递给数据中台,由数据中台挖掘新的价值反馈给业务中台,以优化业务运营。
有人可能会有疑惑:数据中台和业务中台的建设是否有先后顺序?
笔者们以为,这两者的建设没有先后之分,主要依据企业的实际情况进行规划。
从数据层面看,业务中台只是数据中台的数据源之一,除此之外,企业还有很多其他的数据来源,如App、小程序、IoT等多源数据,可以将这些数据的价值直接赋能于现有业务或某个创新业务。
从服务层面看,数据中台的数据服务也不一定经过业务中台作用于业务,它可能直接被上层应用系统进行封装,如电商领域的“千人千面”系统。
而从业务中台的角度来看,如果没有数据中台,可以做一些简单的数据处理,如分析和统计等,而通过数据中台赋能,则可以使业务系统拥有“全维度”、“智能化”的能力,譬如推荐、圈人等,系统将从信息化升级成为一个智能化的业务系统。”
不仅仅是业务中台,目前各种中台层出不穷,但笔者们认为中台不是平台,平台可以有很多,可以有营销平台、风控平台、管理平台等,但是中台,一个企业只需要有一个。现在还有业务中台、数据中台之分,但我们预测未来数据与业务会更紧密地结合,完全融为一体,会统一成“企业中台”。
02 数据中台VS数据仓库
数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。数据中台持续不断地将数据进行资产化、价值化并应用到业务,而且关注数据价值的运营。
数据中台建设包含数据体系建设,也就是数据中台包含数据仓库的完整内容,数据中台将企业数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度,为业务提供速度更快、更多样的数据服务。
数据中台也可以将已建好的数据仓库当成数据源,对接已有数据建设成果,避免重复建设。当然也可以基于数据中台提供的能力,通过汇聚、加工、治理各类数据源,构建全新的离线或实时数据仓库。
另外,数据中台一般采用全新数据技术架构,可以更方便地进行数据价值的挖掘。随着企业数据量越来越大,智能化场景越来越多,传统架构的存储计算能力无法满足这类数据业务的需求。而随着机器学习、深度学习等技术的发展,从看似无用的数据中挖掘出新价值的能力也越来越强,新的技术架构为这些场景的建设提供了很好的能力支撑。
03 数据中台VS现有信息架构
如何唤醒沉睡的数据资产,把数据真正用起来,以支持自身业务的智能化升级,这是摆在所有传统企业面前的数字化转型难题。因此,对于是否有必要建设数据中台这件事情,似乎并无太多质疑之声,但真要建设数据中台,尤其是落实到具体建设的实操阶段,企业又开始担心,他们最担心的莫过于,建设数据中台是不是要将企业现有信息架构推倒重来。
信息化时代初期,随着公司的业务发展和战略调整,为了更好地支撑业务,企业的信息化系统不知道被推倒重来过多少次,经历了成千上万次取数,也生成了数以千计的报表。伴随着一批又一批的数据人员的成长和离开、行业专家和业务人员的晋升或转型,数据仓库之间的演进也经常是推倒重来,消耗了企业大量成本。
数据中台作为解决企业级数据应用难题的新方案,不是一套软件系统,也不是一个标准化产品。站在企业的角度,数据中台更多地指向企业的业务场景,即帮助企业沉淀能力,提升业务效率,最终完成数字化转型。因此,数据中台与企业现有信息架构不存在竞争关系,不会导致企业现有系统、功能和应用的重复建设。
举个简单的例子,笔者们此前与一家做轮胎制造的上市公司进行过交流,它当时就用到很多个业务系统,比如OA系统、ERP系统、工艺设计与管理系统、物流系统、生产系统等。该企业的一个核心痛点是:“无法准确知道当前的轮胎能否准时或者提前交付”。
制造型企业一般处于产业链的中间位置,非终端或者源头端,比如这家轮胎制造企业,它的上游是橡胶提供方,下游是汽车组装商或者汽车零部件厂商。轮胎的及时交付就意味着公司的生命线——稳定的现金流。
而影响轮胎能否及时交付的数据变量是散落在所有系统中的,诸如物流的及时性、对生产过程的控制力、是否有重大的经济压力、甲方工艺设计需求的变化等。
在有数据中台之前,他们是怎么做的呢?企业首先需要拉出所有系统数据库中的表,然后再用Excel去做对应关系,整个过程是非常琐碎且耗时的。
如果有数据中台体系,可以通过中台机制汇聚相关系统中的原始数据,并且面向轮胎这一公司经营的实体构建一系列场景化的标签特征。同时,通过离线或者实时的数据交互模式,不断更新特征值,将业务场景所关注的数据的价值直接展现出来。
从上面的例子能看出,数据中台在定位上与业务IT系统并不冲突。企业原有的IT系统依旧会根据业务和IT技术的迭代不断升级,依旧对企业的生产运营或者经营管理提供支撑。数据中台的定位则是在数据领域帮助企业不断沉淀数据能力。两者之间的关系是相互依托、相互赋能、相互促进的。
数据中台需要IT系统不断提供数据,而IT系统未来更加需要横向、综合的数据特征来支撑。只有形成了数据中台和IT系统良好的配合关系,才能更好地构建企业整体的IT支撑能力。
图2-8 业务中台与数据中台的数据应用闭环
业务中台与数据中台互相促进,为企业业务的发展、管理者更好的决策提供支持。其中,业务中台的存在是为了围绕公司业务运营进行服务,将获取的多维度数据传递给数据中台,由数据中台挖掘新的价值反馈给业务中台,以优化业务运营。
有人可能会有疑惑:数据中台和业务中台的建设是否有先后顺序?
笔者们以为,这两者的建设没有先后之分,主要依据企业的实际情况进行规划。
从数据层面看,业务中台只是数据中台的数据源之一,除此之外,企业还有很多其他的数据来源,如App、小程序、IoT等多源数据,可以将这些数据的价值直接赋能于现有业务或某个创新业务。
从服务层面看,数据中台的数据服务也不一定经过业务中台作用于业务,它可能直接被上层应用系统进行封装,如电商领域的“千人千面”系统。
而从业务中台的角度来看,如果没有数据中台,可以做一些简单的数据处理,如分析和统计等,而通过数据中台赋能,则可以使业务系统拥有“全维度”、“智能化”的能力,譬如推荐、圈人等,系统将从信息化升级成为一个智能化的业务系统。”
不仅仅是业务中台,目前各种中台层出不穷,但笔者们认为中台不是平台,平台可以有很多,可以有营销平台、风控平台、管理平台等,但是中台,一个企业只需要有一个。现在还有业务中台、数据中台之分,但我们预测未来数据与业务会更紧密地结合,完全融为一体,会统一成“企业中台”。
02 数据中台VS数据仓库
数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。数据中台持续不断地将数据进行资产化、价值化并应用到业务,而且关注数据价值的运营。
数据中台建设包含数据体系建设,也就是数据中台包含数据仓库的完整内容,数据中台将企业数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度,为业务提供速度更快、更多样的数据服务。
数据中台也可以将已建好的数据仓库当成数据源,对接已有数据建设成果,避免重复建设。当然也可以基于数据中台提供的能力,通过汇聚、加工、治理各类数据源,构建全新的离线或实时数据仓库。
另外,数据中台一般采用全新数据技术架构,可以更方便地进行数据价值的挖掘。随着企业数据量越来越大,智能化场景越来越多,传统架构的存储计算能力无法满足这类数据业务的需求。而随着机器学习、深度学习等技术的发展,从看似无用的数据中挖掘出新价值的能力也越来越强,新的技术架构为这些场景的建设提供了很好的能力支撑。
03 数据中台VS现有信息架构
如何唤醒沉睡的数据资产,把数据真正用起来,以支持自身业务的智能化升级,这是摆在所有传统企业面前的数字化转型难题。因此,对于是否有必要建设数据中台这件事情,似乎并无太多质疑之声,但真要建设数据中台,尤其是落实到具体建设的实操阶段,企业又开始担心,他们最担心的莫过于,建设数据中台是不是要将企业现有信息架构推倒重来。
信息化时代初期,随着公司的业务发展和战略调整,为了更好地支撑业务,企业的信息化系统不知道被推倒重来过多少次,经历了成千上万次取数,也生成了数以千计的报表。伴随着一批又一批的数据人员的成长和离开、行业专家和业务人员的晋升或转型,数据仓库之间的演进也经常是推倒重来,消耗了企业大量成本。
数据中台作为解决企业级数据应用难题的新方案,不是一套软件系统,也不是一个标准化产品。站在企业的角度,数据中台更多地指向企业的业务场景,即帮助企业沉淀能力,提升业务效率,最终完成数字化转型。因此,数据中台与企业现有信息架构不存在竞争关系,不会导致企业现有系统、功能和应用的重复建设。
举个简单的例子,笔者们此前与一家做轮胎制造的上市公司进行过交流,它当时就用到很多个业务系统,比如OA系统、ERP系统、工艺设计与管理系统、物流系统、生产系统等。该企业的一个核心痛点是:“无法准确知道当前的轮胎能否准时或者提前交付”。
制造型企业一般处于产业链的中间位置,非终端或者源头端,比如这家轮胎制造企业,它的上游是橡胶提供方,下游是汽车组装商或者汽车零部件厂商。轮胎的及时交付就意味着公司的生命线——稳定的现金流。
而影响轮胎能否及时交付的数据变量是散落在所有系统中的,诸如物流的及时性、对生产过程的控制力、是否有重大的经济压力、甲方工艺设计需求的变化等。
在有数据中台之前,他们是怎么做的呢?企业首先需要拉出所有系统数据库中的表,然后再用Excel去做对应关系,整个过程是非常琐碎且耗时的。
如果有数据中台体系,可以通过中台机制汇聚相关系统中的原始数据,并且面向轮胎这一公司经营的实体构建一系列场景化的标签特征。同时,通过离线或者实时的数据交互模式,不断更新特征值,将业务场景所关注的数据的价值直接展现出来。
从上面的例子能看出,数据中台在定位上与业务IT系统并不冲突。企业原有的IT系统依旧会根据业务和IT技术的迭代不断升级,依旧对企业的生产运营或者经营管理提供支撑。数据中台的定位则是在数据领域帮助企业不断沉淀数据能力。两者之间的关系是相互依托、相互赋能、相互促进的。
数据中台需要IT系统不断提供数据,而IT系统未来更加需要横向、综合的数据特征来支撑。
以上是关于浅谈数据湖和数据中台及数据仓库的主要内容,如果未能解决你的问题,请参考以下文章