云原生数据中台 2 —— 建设方法论

Posted xingoo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了云原生数据中台 2 —— 建设方法论相关的知识,希望对你有一定的参考价值。

上一篇总结了数据中台的起源以及建设过程,本篇就总结各个环节的实现方法论——“业务驱动,使用可衡量的成果激发自主积极性;敏捷式的实施和迭代,快速落地和见效;强调规范的制定和工具的使用,可持续发展”。


总览

以上图为例,建设数据中台的大体流程为:

选择合适的基础平台架构与工具体系进行顶层架构设计,如数仓、数据域或者数据规范明确业务需求和痛点发现数据、导入数据、清洗治理完成数据分析、报表、应用的开发和测试数据通过平台发布到其他部门使用重复上面3-6,能不断迭代在过程中关注数据表现、使用,确定ROI,及时剔除无用数据

基础架构

首先是针对传统的数据平台建设,往往基于物理机部署,耗费人力物力,因此可以考虑使用云原生架构,比如云主机或K8S作为底层引擎,这样可以快速开发、测试、上线数据应用。

同时也要支持多种处理引擎,比如Hive+Spark作为批处理,Kafka和Flink作为流式处理,实时查询时使用HBase或Cassandra,多维查询使用Kylin,时序数据库使用InfluxDB,图计算使用Neo4j。

同时支持灵活的多用户管理,不同的用户在系统中使用不同的数据。

数据工具

在中台系统中会涉及到多种系统模块,如数据发现、数据探索、数据运维、数据可视化、资产管理、数据共享、数据服务、模型服务、多租户管理、异常检测、行为审计等。

顶层架构设计

根据业务分析,划分中台中的数据组织。如:哪些属于主数据、如何划分数据域、业务流程与主数据由谁负责。

数据规范

目的在于针对中台内输入的数据和输出的数据进行管理,如:

存储格式,如何进行压缩或底层文件格式命名规则,数仓、集市等的命名规范元数据规则,表/字段的注释或使用规则数据隐私规则,针对敏感数据的处理数据服务的访问规则数据访问的行为规范数据表的默认字段,如增加创建时间、修改时间、全局id等

业务驱动

一般建设数仓或数据湖有两种思路,一种是不管业务直接把所有的数据搜集起来,后期使用的时候就方便了;另一种则是以业务求为导向,优先处理高优先级的业务相关数据,落地实施更快。

关键指标

在进行中台实施时,量化其对业务的价值很重要,因此需要制定关键的指标,即ROI,return on investment。一般的指标包括:

数据发现时间,需要多久找到自己需要的数据数据理解时间,需要多久知道如何使用数据数据导入时间,需要多久将想要的数据导入到系统中数据治理时间,需要多久达到可使用的程度数据延迟时间获取结果时间结果发布时间数据应用到生产的时间问题发现时间数据合规性检测时间应用迭代时间应用优化时间

明确责权利

这个感觉就是提前避免后期扯皮的工作,但是在之前大约200人左右的公司中,往往数据团队需要承担数据的全部责任。如果是大型的公司,则要分清数据的产生者、拥有者、管理者、使用者,明确各自的责任。

管理迭代

由于业务、市场、客户、公司都在不停的变革,数据中台也会随之改变,因此需要不断变化迭代,尤其注意要将上层应用,尽量与底层数据架构解耦,并不断扩展中台的边界,容纳更先进的技术解决问题。

参考

《云原生数据中台》