从技术流到实战派:数据中台建设路径探索
Posted 大数据v
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从技术流到实战派:数据中台建设路径探索相关的知识,希望对你有一定的参考价值。
导读:数据中台要想成功,靠的是3分工具、7分实施、12分运营。
作者:数澜科技
来源:数澜(ID:DTWAVE)
《关于构建更加完善的要素市场化配置体制机制的意见》《关于加快推进国有企业数字化转型工作的通知》《“十四五”国家信息化规划》等政策落地实施,数字化转型已步入了一个全新的阶段,数据中台(后文单说“中台”时,特指“数据中台”)作为数字化建设的基本设施,在其中发挥了重要的作用。
纵观数据中台产业的发展,自成长之初,就具备了“天时地利人和”多重利好条件。
在技术架构层面,随着云计算、大数据的技术发展,数据中台在技术上逐渐走向成熟。在资源型平台方面,从Hadoop体系开始,到Spark、Flink;从传统的OLTP,到OLAP、HTAP;从一般批调度,到Lambda架构、流批一体;从数据仓库到湖仓一体……琳琅满目的技术体系,足以支持数据中台的存储及技术上不同的架构。
在建设工具层面,数据中台所需的开发体系、数据体系、管理体系、运营体系、服务体系,在各头部互联网企业、独立中台开发商的竞争下,也不乏选择。在应用服务层面,数据分析查询、数据可视化、BI等通用型服务工具也在高速发展。在业务价值层面,数据智能应用也给原来传统软件解决方案带来新的思路。
站在技术发展成熟度的视角,数据中台这座大厦理应拔地而起,高速成长。但在实际市场中,数据中台还是各互联网大厂、传统龙头企业的专属,大部分企业还是只能观望。为什么呢?
01 建设困境:基于建设路径、技术选择、组织支撑视角
1. 数据中台的实现方式
首先从数据中台的实现方式说起,一般来说,建设数据中台有着独立建设数据中台、附属于业务(业务中台)建设数据中台、业务中台和数据中台结合共建三种模式。它们各有优缺点,不同企业不同目的,应该选择不同建设方式,短时间建设是不能做到殊途同归的。
独建中台,受业务干预少,所以在基础设施上比较自由,总体建设难度小。但由于通用性或单一性,业务接入难度大(或者说效率低),中台价值很难最大化。这种方式比较适合业务数据相对集中,数据有统一性的价值出口,比如ToC带有互联网属性的企业。
依附业务,有明确的价值输出点,在建设初期可以根据业务来确定数据相关体系标准,工具交互可以有强业务逻辑,总体建设难度适中,而且一定程度(业务没有大变化的情况下)中台价值能最大化。但这样的中台不利于其他业务接入,不能适应业务的快速变化。这种方式比较适合没有足够规模的技术团队支撑数据中台全面发展的中小型企业。
相互共建,有高度统一性,能持续发展,平台价值能最大化。但实现难度十分大,需要有完整规划,以及全方位的人才投入,建设周期长。这种方式比较适合政府机构、大型集团性企业。
其次,再来看看技术层面的影响。技术一般不是影响数据中台建设的重要原因,但很多时候是阻碍其建设的重要因素。主要影响可能是以下三点:
1)存储及计算引擎选择
因为这块的变动需要做大量的迁移工作(如:阿里由Hadoop转成自有技术MaxCompute),所以前期选型工作要做深远的考虑。但现行大数据技术还在不断迭代中,过去的选择当前可能有更好的替代品。
2)成本效益的考虑
数据中台的一个核心是数据的“复用”,这个“复用”的效果很多程度上反映在数据使用的效率上。这里面具体有两方面问题。
一方面,性能的效率,如存储成计算成本等。在数据量上去后,这块成本是十分可观的,往往会影响上层决策;另一方面,工具串联下来的所能带来的工作效率的提升,以及入手门槛的降低,这块往往是中台是否能能长期发展的一个重要影响因素。
3)技术使用惯性
相对中大规模中台建设的公司,一般都会有自己的技术团队,他们已经有存在一些技术使用的惯性,技术的选择是考虑业务的长足发展还是要兼顾当前的研发成本和效率,也是一个重要的考量。
2. 组织支持
接着,我们说组织支持方面的原因。数澜科技数据中台构建方法论中,重点提到组织文化在其中的重要作用(单纯的引入行业领先数据文化并强制执行一定是不可取的,要培养数据文化不能局限于技术专业人员,更要让业务部门深入参与共创,并有意识的培养员工在数据认知的突破,通过数据赋能业务的落地实践,可进一步拉动企业组织对“数据素养”的人才需求)。
在IBM《数据治理能力成熟度模型》中,组织结构和文化也是数据治理工作的重要支撑部分。
▲IBM《数据治理成熟度评估模型》
组织结构与文化是描述业务、IT、数据之间的相互责任和组织结构,针对组织不同层级上的管理提出受托责任且做出承诺。很多时候,负责承建数据中台是其中一个业务部门,或者是IT部门。特别是IT部门的情况下,是很难拉通全局来调度资源的,作为下游的业务部门如果不参与进来,很多时候中台就是一个架子,不能发挥实际作用徒增成本。
这样的问题不是技术层面或者独立部门就能解决的事情,需要组织层面的权力操作。
另外,在组织支撑下建立的数据相关体系,如:信息生命周期、数据安全和隐私管理等,是建设中台的重要支撑。这些体系准则不是特意为数据中台准备的,就是没有数据中台这样的机制,这些体系准则也会依附其他工具或流程运转。
所以说,这些是数据中台运转的一个基础,是为平台工具注入灵魂的所在,中台的形态也会根据注入的内容会有所不同。
3. 社会认知
最后,说说大环境上原因。在确立数据作为第五类生产要素后,政府企业的数字转型的步伐陡然加快。整个社会对数据平台的认知,有质的改变。从过去任务中台只是一个生产工具,到现在一套完整的运作机制,政企在建设中台广度上跳出了技术范畴,调度更多的资源配合。
数据中台的建设,已经从应用工具的建设,到整套数字化转型机制转变。也正是因为这个原因,对建设中台的期待也更大。然而这种期待放大和投入变大不一定是正比的,也就导致中台建设难度就更大了。
02 建设路径:从组织认知提升到标准化体系建设
基于困境,我们接下来谈谈数据中台建设在当前阶段有哪些重点要去关注。
目前,数据的价值属性已经获得业界的广泛认可,但是选择观望的企业依旧占据大多数,数据中台在认知和推广上仍然面临着多方面的挑战。
政府企业在组织层面,如何支撑数据中台的落地或者支撑数据中台良性运营,业界上也给出了些标准答案。比如数据中台的建设方法论、IBM的数据治理成熟度模型、信通院的数据管理能力成熟度管理模型。这些都定义了组织上需要做哪些事情让数据中台建设得到足够的支撑。
▲数据中台一般建设路径
其次是体系建设,这是数据中台落地最困难的部分。一般在数据上,我们会从数据体系、资产体系、生命周期管理、风险管理、安全及隐私、数据运营(业务价值)等方面来构建完整的数据流转的体系。但要完整构建这些体系是一个漫长的过程,而且不同企业/政府着重建设的点也不一样。
数据体系、资产体系是中台使用的基础。数据体系是在全域数据资源的基础上,进行标准定义及分层建模,最终呈现的结果是一套完整、规范、标准、准确的数据体系,可以方便支撑数据应用。
资产体系是指规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。
数据资产管理需要充分融合业务、技术和管理,以确保数据资产保值增值。这两块一般按公司实际业务情况来落地,没有最好,只有最合适。
对于中大型企业来说,可量化来衡量数据及数据中台的价值是十分重要,毕竟数据中台是长期的投入,它的ROI是怎样会直接影响中台投入的资源,因此会十分关注数据运营来实现业务价值。
而对政务组织而言,情况又不太一样。数据安全性是他们当前要重点考虑的事情。根据《大数据蓝皮书:中国大数据发展报告No.5》数据显示:在二十国(G20)之中,除数字安全外,中国在其他指标都排行前列的。
所以,国家在近两年公布了大量相关的法制、法规,加强数字法治性的发展。当前研究热点,多集中在数据安全、数权、个人信息保护及权利行使等领域,所以数据中台建设要更多考虑安全及隐私。
03 技术维度:从DataOps能力看数据中台建设
上面已经说过中台的能力,但它们过于复杂,现在我们把它缩小,单单套用在技术层面的能力,也就是DataOps能力,来讨论数据中台成功的一些必要条件。
在DataOps数据工程化、数据集成、数据质量、数据安全及隐私这四个能力下,数据应该应该要做到Process->Analyze->Learn->Re-Use这个闭环。
DataOps的常见定义:
DataOps(数据运营)是以一种敏捷的方法,用来设计、实施和维护分布式数据架构,支持广泛的开源工具和框架,数据运营的目的是从大数据中获取业务价值。
DataOps是一个自动的、面向流程的方法论,被数据和分析团队使用,从而提高质量缩短数据分析的周期。
DataOps是在一个组织中控制数据旅程从而产生价值的一个职能。
DataOps对开发,测试和部署代码进行了严格的管理,这些代码管理数据流并创建分析解决方案。
简单来说,数据中台是实现DataOps的一种方法,他的成功应该要满足DataOps该有的条件,但数据中台不仅仅是DataOps,DataOps的成功不代表数据中台的成功,因为DataOps往往只决定技术价值,但数据中台更多时候要考虑业务价值。
当前很多数据中台,只考虑集成、质量的问题,而忽略工程化、安全/隐私的问题。但DataOps上最重要的是工程化部分,也是数据中台中”复用“的关键所在(ERP系统能成功,就是把核心业务都标准化、工程化掉,任何人操作都是由准则和流程可依的)。工程化本质是建立执行标准的事情,难度是十分大,而且在后期改动比较困难。
所以我们经常会见到,数据中台建成后,前期参与的团队使用比较顺畅,后期加入的使用的团队就有可能不适用,这就是工程化做的不好的结果。在实现中台是只考虑了当前参与团队处理数据流程的,而不是一个标准自动化过程。比如数据智能应用上工程化流程比一般数仓数据分析要复杂的多。
数据中台能否被高效用起来,工程化问题就是核心,这个做好了,至少中台的作用就在了。
▲数据工程化的一个样例
当前数据中台还是处于发展初期阶段,可能也像ERP需要10年甚至更长时间沉淀,才能形成一套产品、服务的行业标准。但不可否认的是,它是具备成为数字化转型必备的基础设施的潜力。现在可能没有一套构建数据中台的标准答案,但套用ERP实施的老话——“数据中台要想成功,靠的是3分工具、7分实施、12分运营。”
关于作者:许锡彬,数澜科技CTO&数澜研究院院长。
延伸阅读👇
延伸阅读《数据中台:让数据用起来》
推荐语:数据中台领域领先企业数澜科技出品,阿里巴巴集团联合创始人推荐!萃取百家头部企业数据中台建设经验,系统总结数据中台建设方法论。
👇
延伸阅读《标签类目体系》
推荐语:数澜科技出品,标签类目体系已获专利,萃取百家头部企业数据资产设计经验,系统总结数据资产设计方法论。
干货直达👇
更多精彩👇
在公众号对话框输入以下关键词
查看更多优质内容!
读书 | 书单 | 干货 | 讲明白 | 神操作 | 手把手
大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 | 数学 | 算法 | 数字孪生
据统计,99%的大咖都关注了这个公众号
👇
以上是关于从技术流到实战派:数据中台建设路径探索的主要内容,如果未能解决你的问题,请参考以下文章
数据中台应用实战50篇-企业级数据中台的建设方法&架构和技术栈