基于元数据的数据治理分析功能说明

Posted 数通畅联

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于元数据的数据治理分析功能说明相关的知识,希望对你有一定的参考价值。

数据对于企业来说是非常重要的,因为企业数据需要保证其完整性和准确性,所以需要数据治理。MDM基础数据平台是对各个业务系统的主数据进行治理,而各个业务系统中的业务数据则需要在DAP数据分析平台进行治理。

DAP数据分析平台通过与ESB应用集成平台结合使用场景主要是通过配置调度任务,通过执行调度任务调用ESB数据同步流程,实现数据的采集、校验、转换、传输、调度等操作,基础数据为DAP提供同源并标准的、一致的数据保障数据分析分析数据的准确性,而通过血缘分析和影响分析就看清整个DAP全生命周期数据的轨迹。 

1整体介绍 

DAP数据分析平台就是采集各个业务系统的数据,进行数据筛选(表和字段、数据)、质量校验等步骤建立数仓,保证了数据标准性、完整性、准确性,从而实现企业业务数据的统一,通过数据可视化展现、数据服务来展现DAP数据分析平台的价值。 

1.1产品体系 

首先介绍一下我们数通畅联的产品体系: 

我们数通畅联的所有产品都是通过K8S云平台进行部署搭建产品环境,通过不同的产品组合方案来解决企业面临的不同信息化困境,帮助企业完善信息化发展。 

上图所示通过DAP数据分析平台+MDM基础数据平台+ESB企业服务总线组成了数据中台方案,本次介绍的DAP数据分析平台就是此方案的核心,基础数据进行主数据治理,DAP数据分析平台进行业务数据治理,通过ESB进行数据的集成,帮助整合企业数据,统一管理,提升企业的数据价值。 

1.2产品说明 

数据分析平台全生命周期是通过采集各个业务系统数据构建数仓,从而进行有效分析的过程,能够真实、准确、有效的将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。 

数据分析平台功能有: 

1.数据来源(应用系统定义、数据源头配置、ODS数据定义)数仓模型。 

2.数仓模型(业务主题、维度配置、事实配置、模型配置、指标管理)。 

3.数据调度(规则校验、调度资源(同步资源、加工资源)、调度任务、调度日志(同步日志、加工日志)、质量日志、通知日志)。 

4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。 

5.展现模型(导航管理、组件管理、展现主题、装饰管理)。 

6.数据服务(接收服务、查询服务、统计服务、指标服务、业务服务)。 

7.算法模型(算法配置、标签管理、算法日志)。 

8.统计分析(数据地图、质量分析、血缘分析、影响分析)。 

9.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。 

1.3数据治理 

各个业务系统中的数据需要在DAP数据分析平台中进行治理分析,数据治理是通过ODS定义功能筛选业务系统表,在从ODS选择维度表和基础事实表,进行数据的校验清洗,保证维度表和基础数据中的数据是完整的、准确的,这样在进行汇总事实表加工,这样就建立起了数仓,并通过数仓中创建数仓模型,通过数仓模型创建想要数据集、立方体、报表等分析模型。 

2功能场景 

业务数据治理需是从数据源头到数仓建设、在通过模型创建分析模型,这个过程是很复杂的,所以通过血缘分析和影响分析帮助客户清晰便捷的查看或者调整对应功能中。 

2.1场景介绍 

血缘分析和影响分析贯穿整个DAP产品的生命周期,通过血缘分析和影响分析功能能够清晰查看数仓建设、数据的来源和去向,可以查看每个功能模块的每个操作步骤,把整体功能关联关系准确呈现出来,让使用者能够把控好全局。 

 

2.2血缘分析 

血缘分析是对其模型的来源进行查询,通过血缘分析能够清晰地查询到模型来源有哪些维表、事实表,查看到来源表(维度表、基础事实表、汇总事实表)的字段、查看到有哪些中间库表,查看到有哪些来源系统。 

  

2.3影响分析 

影响分析是对其所用的功能进行查询,比如一个模型它有哪些数据集立方体使用,然后它哪些导航、哪些页面、哪些组件实例所用到,从而分析它们的关联关系。 

  

3血缘分析 

血缘分析是对其来源进行查询,通过血缘分析能够清晰地查询到配置所用字段来源那些表、哪个来源系统。 

3.1功能说明 

血缘分析:进入右侧是主题树、左侧血缘关系图(中间是模型、下面是应用系统、上面是数据表,点击应用系统,下面是数据表,点击数据关系图上面高亮显示,点击数据表,下面列表显示字段,双击字段弹出影响支脉图)。 

3.2技术要点 

在创建ODS时候插入下面表里一条信息(逻辑主键、ODS的ID)。在数仓建设时候进行更新这个表(维度表ID或者事实表ID、数仓资源类型),然后创建模型的时候更新下面表组件(模型ID)。 

ODS关联数仓表关联模型表: 

3.3功能展示 

血缘分析主页面属于列表页:左侧是主题树、右侧是分析模型。右侧显示模型,显示字段:模型编码、模型名称、模型分组、来源表个数、来源字段个数。 

点击模型进入分析页面:左侧是不同主题树,右侧是血缘关系图,点击分析模型进入分析首页展现形式采用血缘关系图的方式: 

1.中间是对应分析模型。 

2.下面是来源应用系统。 

3.上面是模型关联的数据。 

点击应用系统下面是对应的关联数据表对象信息。 

1.点击数据表关系图上面的数据表高亮显示。 

点击上面数据表,下面显示对应表的字段信息。 

3.选择一条数据表然后点击查看引用按钮,弹出影响支脉图。 

4影响分析 

影响分析是对其所用的功能进行查询,比如一个模型它有哪些数据集立方体使用,然后它哪些导航、哪些页面、哪些组件实例所用到,从而分析它们的关联关系。 

4.1功能说明 

影响分析:进入右侧是主题树、左侧影响关系图(中间是模型、下面是立方体、上面是页面,点击立方体,下面是2个标签,一个是立方体字段、一个是数据集字段,点击页面,下面显示的是组件双击字段或者组件弹出影响支脉图,点击不同显示不同支脉)。 

4.2技术要点 

在创建模型时候插入下面表里一条信息(逻辑主键、模型ID)。然后通过数据集选择模型时候更新这个表(数据集ID),然后组件实例选择组件数据集的时候更新下面表组件(组件实例ID)。 

模型关联数据集组件实例表。 

 

4.3功能展示 

影响分析主页面属于列表页:左侧是主题树、右侧是分析模型。 

右侧显示模型,显示字段:模型编码、模型名称、模型分组、页面个数、组件实例个数。 

点击模型进入分析页面:左侧是不同主题树,右侧是血缘关系图,点击分析模型进入分析首页展现形式采用影响分析关系图的方式: 

1.中间是对应分析模型。 

2.下面是立方体。 

3.上面是页面。 

点击立方体下面是立方体字段和数据集信息对象信息。 

点击上面数据表,下面显示对应表的字段信息。 

选择一条数据表然后点击击查看引用按钮,弹出影响支脉图。 

5数据治理 

数据治理过程主要说的就是数据从业务系统到ODS中间库,再到数仓建设(维度表、基础事实表、汇总事实表),基于数仓创建数据模型,最后形成相应的数据集立方体的过程。 

5.1数据来源 

数据来源是就对各个业务系统的定义、各个业务系统数据库和ODS、数仓数据库的配置,通过各个业务系统来获取表创建ODS,通过血缘分析能够查看到ODS来源有哪些应用系统、使用那些数据库。 

应用系统定义: 

数据库配置选择来源那些应用系统: 

这样在创建ODS后,在ODS中就可以看到来源那些应用系统: 

5.2数仓模型 

数仓模型是从ODS到数仓,分别是ODS到维度表、ODS到基础事实表、然后进行汇总事实表加工处理,然后通过这些表创建模型,这个过程也可以通过血缘分析功能注册到了关联表中,这样通过模型能查看引用关联关系。 

维度表配置: 

列表页面: 

编辑页面: 

基础事实表配置: 

列表页面: 

编辑页面: 

汇总事实表: 

通过上述创建的表创建数据模型。 

通过数据模型能查看到引用信息: 

5.3分析模型 

分析模型是通过数据模型创建的数据集、立方体和报表分析模型,通过血缘分析和影响分析能够查看到来源数据模型和使用组件实例。 

数据集配置: 

可以查看到来源那个数据模型。 

支持跳转到对应数据模型功能: 

可以查看使用数据集所被那些组件引用: 

立方体来源是数据集: 

6心得总结 

在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动,所以数据一定是标准的、完整的、准确的,通过上述质量校验功能把业务系统中不正确数据过滤掉、调整后,使数仓中的数据具有可用性,这样分析出来的信息才能正确引导公司的发展。 

6.1产品作用 

血缘分析、影响分析是统计数仓数据,数据资产的盘点,查看数仓建设全生命周期,了解建设东西把握它们的关联关系,从而保障数仓建设的完整性、正确性,提高数据分析的价值,帮助企业有效的进行决策分。 

DAP数据分析平台就大大加强了数据治理这块,加强数据应用,通过本文所讲的质量校验功能,保证数仓中数据具有完整性、准确性,这样无论数据服务和数据可视化展现都会提升企业数据价值。 

6.2产品应用 

数据分析平台应用分为可视化展现和数据服务的提供,通过数据可视化,业务组织可以提高他们在需要时查找所需信息的能力,也通过数据服务对外提供服务,业务系统可以通过服务抽取数据来保证系统的运行,企业中数据统一管理,统一规划。 

DAP数据平台是我们数据中台的一部分,数据中台也是看作dPaaS,通过PaaS构建SaaS,PaaS平台可以根据自身优势采用与SaaS应用合作的模式,最终让SaaS应用的交付结果更具有行业适配能力。 

6.3产品发展 

在未来企业数字化转型中“平台+应用”成为企业数字化转型的IT建设新模式,通过dPaaS(DAP数据分析平台+MDM主数据管理平台+ESB企业服务总线)整合各个业务系统数据,这样为SaaS应用合作的模式打下坚实基础,就可以帮助企业快速稳健数智化升级转型来提升它们的商业价值。 

DAP还可以通过数据检索可以搜索到不同主题、不同类型的业务数据(比如:文档类的数据),数仓数据进行机器学习进行计算,通过计算让客户了解企业了解企业发展趋势,未来走向,通过数据报告配置出企业会议的PPT演讲报告,从而提高企业的数据价值。 

以上是关于基于元数据的数据治理分析功能说明的主要内容,如果未能解决你的问题,请参考以下文章

数据治理:元数据管理 数据血缘(补充学习)

数据治理:元数据管理 数据血缘(补充学习)

数据治理工具

数据治理中Oracle SQL和存储过程的数据血缘分析

马哈鱼血缘分析器用户体系介绍

大数据平台下的数据治理