云原生数据中台 1 —— 来源建设与评价

Posted xingoo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了云原生数据中台 1 —— 来源建设与评价相关的知识,希望对你有一定的参考价值。

本书最初以为着重介绍了数据中台与云原生的结合方法,没想到大篇幅的还是在介绍概念,颇有些失望,不过重新整理下数据中台的概念也是值得一读的。

数据中台的来源

数据中台最近很火,它在国内主要由阿里推广,最初是马云去荷兰的游戏公司supercell参观,该公司每个团队只有几人却可以快速开发新游戏,原因就是很多周边能力如会员、社区、技术能力等都进行复用。因此阿里也可以组件自己的中台,把各个业务线相同的功能进行整合(但是这样也带来一个弊端,新的业务如果与旧业务不同,改造成本很大,因此也出现了“拆中台”的说法)

数据中台的建设之路

对于企业来说,一般要经历几个阶段完成数据中台的建设:

信息化阶段,即所有的业务都使用软件系统管理起来,比如进销存、财务系统、客户管理系统、供应链系统等等。

数仓/集市阶段,此阶段需要针对业务数据进行整合,解决数据孤岛问题,并进行建模实现面向历史、基于主题、支持分析的数据集。其中数仓目前流行的建模方法是采用kimball维度建模的思想。为了快速支撑业务访问,还会基于数仓进行ETL构建业务集市表。

数据湖/大数据平台阶段,传统的数据仓库无法支撑过多的数据,因此会采用Hadoop等大数据生态,组件大数据平台。

人工智能/数据中台阶段,当业务线比较多,一些功能重复浪费后,就可以开始组建数据中台,实现统一的数据管理、分析、服务与治理。

数据平台到数据中台

这个阶段可以作为一般企业数据平台的发展路线:

起步阶段,搭建hadoop环境,至少需要hdfs、hive、yarn、spark、oozie;为了方便日常管理可以搭配hue进行大数据环境的管理,使用zeppelin进行大数据ETL的开发。

2 数据引入,可以使用sqoop或者基于spark自研集成服务,把业务库的数据导入到hive中,并支持增量的每天同步,以保持数据的及时性。

自动化任务,基于oozie进行分布式调度,把数据引入的过程部署成定时任务,并使用spark进行数据分析,提供基础的BI报表、分析模型或者大屏。

保证平台的生产可用,及时监控大数据集群,做好数据的备份与硬件监控。比如硬盘故障、服务器故障、外部延迟数据源、数据库的宕机、网络问题、运维误操作等。

湖仓建设,整理流程跑通后,可以着重进行数据仓库的建模设计。比如基于顶层业务架构,梳理业务域与数据域;确定数据规范;面向业务流程的数据建模;数据的导入、清洗、治理、转换部署成定时任务。

数据管理,及时监测数据的完整、正确与准时性;针对数据质量进行测试与告警;监控任务运行时间,配置ETA(预期完成时间);管理数据血缘,了解数据的生成过程;自动处理元数据变更,出现并报告非法变更;维护ETL程序的版本控制与数据关联。

强化数据安全,完善hadoop集群的kerberos认证,避免用户在集群内非法操作;基于ranger进行数据权限隔离。做好数据审计、多租户管理、单点登录等

提供统一的数据复用和共享能力,建立数据能力的责权利机制、提供全局数据能力和目录的访问控制、提供统一的数据共享机制和流程、完善数据的管控和审计。

数据中台的建设评价

数据中台的建设可以从以下几个方面进行评估:

复用能力度,多少数据进行了复用可协作程度,如何实现跨团队协作可理解性,系统当前状况、数据和应用使用情况、数据如何使用可适应性,新的业务多快能加入到系统,新加的数据源需要多长时间自动化程度,需要手动操作的工作有多少?可衡量性,系统使用与资源消耗管理程度,人员、数据、应用、资源是否都在管理之下系统复杂度,是否随着使用无法管理用户易用程度,用户需要学习多长时间才能使用弹性和扩展性安全管理复杂度,人员的加入和离开如何管理可靠程度,如何处理数据失效、故障等问题

数据中台中的人员角色

数据中台会涉及到多种角色,一般小公司往往要身兼多职:

参考

《云原生数据中台》