DAP质量校验实现及数据应用说明
Posted 数通畅联
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DAP质量校验实现及数据应用说明相关的知识,希望对你有一定的参考价值。
数据是企业生产、经营、战略等几乎所有的经营活动所依赖的、不可或缺的信息,数据是企业的根本,数据包括基础数据、业务数据,通过相关性分析将客户、用户和产品串联起来,帮助企业有效运营,用数据来指引企业的成长。
DAP数据分析平台就是通过企业中的数据构建数仓,把从业务系统中获取的数据进行高效采集、校验、计算等操作,将有价值的数据以可视化或者数据服务的形式进行展现或者提供出去,能够帮助企决策者可用通过分析出来的信息调整企业策略,加快企业的信息化发展与整体竞争力。
1整体介绍
DAP数据分析平台就是采集各个业务系统的数据,进行数据筛选(表和字段、数据)、质量校验等步骤建立数仓,保证了数据标准性、完整性、准确性,从而实现企业业务数据的统一,通过数据可视化展现、数据服务来展现DAP数据分析平台的价值。
1.1产品方案
首先介绍DAP的数据中台方案组合框架:数据中台方案方案主要是的产品组合DAP+MDM+ESB这三款产品组成。
DAP数据分析平台与ESB应用集成平台结合生成对应的业务系统到ODS、ODS转换到数仓、汇总事实表加工流程,通过执行调度任务调用ESB数据同步流程,实现数据的采集、抽取、校验等操作。
通过MDM基础数据管理平台来管理各个业务系统的基础数据,为DAP提供同源并标准的、一致的基础数据,保障数据分析维表数据的准确性。
最后可以添加Portal门户集成平台这款产品,通过页面集成方式基础DAP可视化展现,也可以通过数据服务提供数据构建其它的展现方式。
1.2产品说明
数据分析平台全生命周期是通过采集各个业务系统数据构建数仓,从而进行有效分析的过程,能够真实、准确、有效地将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。
数据分析平台功能有:
1.数据来源(应用系统定义、数据源头配置、ODS数据定义)数仓模型。
2.数仓模型(业务主题、维度配置、事实配置、模型配置、指标管理)。
3.数据调度(规则校验、调度资源(同步资源、加工资源)、调度任务、调度日志(同步日志、加工日志)、质量日志、通知日志)。
4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。
5.展现模型(导航管理、组件管理、展现主题、装饰管理)。
6.数据服务(接收服务、查询服务、统计服务、指标服务、业务服务)。
7.算法模型(算法配置、标签管理、算法日志)。
8.统计分析(数据地图、质量分析、血缘分析、影响分析)。
9.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。
1.3功能介绍
质量校验是对数据的一种清洗,把不规范的、不正确的、不完整的数据找出来,把数仓中的数据变成具有完整性、准确性的数据,这样就在DAP分析、汇总时候才是表达出真实的有效的,才能体现数据的价值。
DAP质量校验功能主要是在DS到维度表质量校验、ODS到基础事实表进行质量校验,因为业务系统到ODS主要是选择表的过程,而汇总事实表是需要汇总计算的所以数据一定要校验后的数据,所以质量校验就在中间环节进行的。
2功能场景
DAP中ODS到数仓是需要进行数据质量校验的,这样才能保证数据准确性,才能保证数据在数仓中是准确完整的,这样数据应用才能发挥价值。
2.1场景介绍
ODS到数仓主分为到维度表和到基础事实表,主要是对字段的筛选,通过数仓的数据进行应用处理的,所以数仓里的数据需要进行质量校验,质量校验分为ODS到维度表质量校验、ODS到事实表质量校验,通过校验接口把校验信息插入到质量日志中,从而进行清洗数仓数据帮助数据准确性。
2.2维度校验
维度表是通过ODS中找到适合维度分析表进行定义创建的,校验通过配置字段校验规则,然后在ESB选择维度的集成流程创建会自动生成一个支持质量校验的抽取数据流程,通过流程把ODS数据进行校验(不规范的、不正确的、不完整)的数据踢错插入到质量日志中,其他清洗后的数据才同步到维度实体表中。
2.3事实校验
事实表分为基础事实表和汇总事实表,上述所说汇总事实表是进行汇总计算是需要清洗后的数据,所以质量校验是在同步基础事实表中完成,也是同样需要配置校验字段,然后生成对应的ESB集成流程,通过流程把(不规范的、不正确的、不完整)的数据插入到质量日志中,其他清洗后的数据才同步到基础实体表中。
3维度校验
上述所说维度校验是从ODS到维度表同步数据时候进行校验的,通过维度表校验配置过滤错误的数据,保证同步到维度表的数据具有完整性、准确性。
3.1 功能说明
维度表的来源是ODS,是在ODS选择表和字段的过程,选择适合维度表和字段,因为ODS是从各个业务系统中直接拉取的全部数据,业务系统中数据可能存在历史残留或者手工录入错误的数据,所以为了保证数据分析出来是准确的,所有同步维表时候是需要校验的,下面是如何配置定义维度表和集成流程质量校验的过程。
3.2功能配置
1.维度表配置:
(1)列表页面:对维度表进行增删改查操作:
(2)编辑页面:选择来源表(支持多表),配置层级策略指标需要的配置和日志标题。
(3)选择表后进行导入字段,添加字段只能选择来源表的字段或者自己手动添加:
配置校验规则:
维度表字段配置关联校验规则:
3.3集成流程
在ESB选择ODS转换到数仓,生成对应集成流程:
集成流程图如下:
扩展变量如下:
1.校验规则集合。
2.数据个数。
3.单条数据集合。
4.循环自增变量。
5.要放入表的集合dataSet。
6.错误校验集合。
7.调用插入质量日志入参变量。
8.错误日志个数。
1.首先添加一个http调用组件用了获取配置的校验规则的。
访问接口地址:维表:dim、维表逻辑主键:
出参是:jsonObj (在全局变量中定义、类型是java.lang.String)。
然后通过ESB循环机制进行质量校验:
数据处理校验:通过正则表达式校验和表达式校验处理每一条数据。然后把正确的数据放到stickDataSet变量中,把错误的数据放到verifyLogJson变量集合中。
然后通过构建质量日志节点构建质量日志入参变量。
然后通过分支判断错误集合是否为空,如果是空就不用调用插入质量日志节点。
在调度资源点击执行,质量日志会显示对应错误信息。
4事实校验
上述所说维度校验是从ODS到基础事实同步数据时候进行校验的,通过基础事实表校验配置过滤错误的数据,保证同步到基础事实表的数据具有完整性、准确性。
4.1功能说明
基础事实表的来源是ODS和维度表,维度表上述已经校验完事,已经是完整的数据,而ODS是从各个业务系统中数据可能存在历史残留或者手工录入错误的数据,所以为了保证数据分析出来是准确的所有同步维表时候是需要校验的,下面是如何配置定义基础表和集成流程质量校验创建的过程。
4.2功能配置
1.事实表配置:
(1)列表页面:对维度表进行增删改查操作:
(2)编辑页面:选择来源表(支持多表),来源表可以选择维度表,也可以选择事实表、选择日志标题展现那些字段。
(3)选择表后进行导入字段,添加字段只能选择来源表的字段或者自己手动添加。
配置校验规则:
事实表只有基础事实表才能配置校验规则,配置方式如下:
4.3集成流程
在ESB选择ODS转换到数仓,选择基础事实表,生成对应集成流程。
集成流程图如下:
也是扩展对应的变量如下:
1.校验规则集合。
2.数据个数。
3.单条数据集合。
4.循环自增变量。
5.要放入表的集合dataSet。
6.错误校验集合。
7.调用插入质量日志入参变量。
8.错误日志个数。
2.首先添加一个http调用组件用了获取配置的校验规则的。
访问接口地址:入参:事实表类型:fact、事实表逻辑主键。
出参是:jsonObj (在全局变量中定义、类型是java.lang.String)。
然后通过ESB循环机制进行质量校验:
数据处理校验:通过正则表达式校验和表达式校验处理每一条数据。然后把正确的数据放到stickDataSet变量中,把错误的数据放到verifyLogJson变量集合中。
然后通过构建质量日志节点构建质量日志入参变量。
然后通过分支判断错误集合是否为空,如果是空就不用调用插入质量日志节点。
在调度资源点击执行,质量日志会显示对应错误信息。
双击查看错误信息:
5数据应用
通上述质量检测过程帮企业完成数仓建设,保证汇总的数据是准确的、完整的,通过数仓数据创建不同分析数据模型,通过这些数据模型来进行可视化展现,使客户了解公司动态,从而提升企业数据价值。
5.1组件应用
不同组件来呈现不同数据是一种数据价值体现,通过组件管理配置对应的组件(柱形图、饼图、折线图等)html和js引擎、默认值等,然后在实现类中选择组件结合数据集、立方体、指标数据配置出可视化图表,组件实例配置:组件需要的字段配置、过滤条件、穿透配置。
5.2报表应用
报表是一种数据展现形式,他可以把一个业务数据清晰地展现给业务人员,报表分为业务报表和多维报表。
1.业务报表:
2.多维分析:多维分析是通过立方体进行配置多维度多表头的表格。
5.3服务应用
服务应用,是通过数据服务API的形式提供数据查询,通过数据集、立方体、指标创建不同的服务,其他业务系统或者BI系统调用这些服务获取数仓中的数据。
1.查询服务:
2.统计服务:
3.业务服务:
4.指标服务:
6心得总结
在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动,所以数据一定是标准的、完整的、准确的,通过上述质量校验功能把业务系统中不正确数据过滤掉、调整后,使数仓中的数据具有可用性,这样分析出来的信息才能正确引导公司的发展。
6.1产品作用
数据分析也就是说必须要以数据为先,分析为后,准确、有效地发挥数据的作用,也是为了提取有用信息和形成结论的过程,所以数据如何加工处理是做这样项目的难点也是重点。
DAP数据分析平台就大大加强了数据治理这部分内容,加强数据应用,通过本文所介绍的质量校验功能,保证数仓中数据具有完整性、准确性,这样无论数据服务和数据可视化展现都会提升企业数据价值。
6.2产品应用
数据分析平台应用分为可视化展现和数据服务的提供,通过数据可视化,业务组织可以提高他们在需要时查找所需信息的能力,也通过数据服务对外提供服务,业务系统可以通过服务抽取数据来保证系统的运行,企业中数据统一管理,统一规划。
DAP数据平台是数据中台的一部分,数据中台也是看作dPaaS,通过PaaS构建SaaS,PaaS平台可以根据自身优势采用与SaaS应用合作的模式,最终让SaaS应用的交付结果更具有行业适配能力。
6.3产品发展
DAP还可以通过数据检索可以搜索到不同主题、不同类型的业务数据(比如:文档类的数据),数仓数据进行机器学习进行计算,通过计算让客户了解企业了解企业发展趋势、未来走向,通过数据报告配置出企业会议的PPT演讲报告,从而提高企业的数据价值。
在数据中台项目中难点和重点是各个业务系统的采集,并进行校验、治理、整合、汇总,把数据变成完整的、可观察的数据,从而建立一个标准、可持续应用的数仓,而DAP产品把这个过程变成自动化,这样为SaaS应用合作的模式打下坚实基础。
以上是关于DAP质量校验实现及数据应用说明的主要内容,如果未能解决你的问题,请参考以下文章