DAP数据加工流程梳理
Posted 数通畅联
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DAP数据加工流程梳理相关的知识,希望对你有一定的参考价值。
DAP数据分析平台是数通畅联自主研发的一款专为企业大数据平台构建的,能够高效存储、计算、分析并处理海量数据的大数据分析产品,能够准确、清晰、有效的将企业内部及行业外部相关数据进行可视化展现,帮助企业提升行业洞察力,加强决策力,从而提升整体竞争力。
数据中台通常是按照主题进行数据分析,不同主题分析的数据各不相同,在分析过程中,需要明确数据的来源,通过获取到的数据将会从ODS到数仓—>数仓中维表和事实表加工汇总—>加工汇总后进行数据模型的创建—>数据模型生成数据集和立方体最终进行可视化展现。下面针对DAP数据的加工流程进行梳理。
1总体概述
DAP数据分析平台主要是为了满足企业数据分析的需要而开发的一款产品,不同于一般的BI平台,DAP数据分析平台更侧重数据的聚合,平台预置有数据源注册、ODS注册与管理、数仓配置与数据聚合,从而实现企业业务数据的统一,构建企业统一的、标准的、完整的数据仓库,而数据展现、数据分析、数据报表,以及外部系统数据交互提供支持。
1.1产品说明
数据分析平台是一款能够高效存储、计算、分析并处理海量数据的数据分析产品,能够真实、准确、清晰、有效的将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力、加强决策力,从而提升整体竞争力。
数据分析平台功能有:
1.数据来源(应用系统定义、数据源头配置、ODS数据定义)数仓模型。
2.数仓模型(业务主题、维度配置、事实配置、模型配置、指标管理)。
3.数据调度(规则校验、调度资源、调度任务、调度日志、质量日志、通知日志)。
4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。
5.展现模型(导航管理、组件管理、展现主题、装饰管理)。
6.数据服务(接收服务、查询服务、统计服务、指标服务、业务服务)。
7.算法模型(算法配置、标签管理、算法日志)。
8.统计分析(数据地图、质量分析、血缘分析、影响分析)。
9.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。
1.2数据架构
DAP数据分析平台只进行数据采集,不进行数据生产,所以DAP中的分析数据会从多个业务系统中抽取。
1.源头系统数据提供业务数据,ESB通过数据集成、业务系统接口调用,或者DAP通过读取源库等方式,将源头系统的业务数据抽取到ODS中,其中MDM主数据平台提供基础数据,业务系统提供业务数据;
2.ODS中的基础数据、业务数据,通过ESB的聚合流程将按照类别汇聚到数仓的维表或事实表中;
3.维表与事实表中的数据根据业务主题、业务指标需要再次进行加工汇总,形成数仓中的汇总事实表;
4.DAP的分析模型根据汇总数据进行整合计算;
5.经过分析模型整合计算后的数据,结合DAP预置的展现组件形成直观的图形图表展现,最终配置成各类展现看板、报表等,完成可视化效果的最终呈现。
1.3解决方案
DAP产品主要和ESB、MDM等产品结合形成不同的解决方案,包含方案如下:
1.应用数据集成方案 MDM + ESB + DAP + Portal
2.应用数据集成方案 MDM + ESB + DAP + IDM
3.数据中台方案 MDM + ESB + DAP (dPaaS方案)
4.全域集成方案 ESB + MDM + DAP + Portal + IDM (ePaaS方案)
2加工流程
DAP数据加工流程分为三步:ODS数据同步、数仓数据同步、汇总事实表加工。其中ODS数据同步包含了源库读取、接口同步、流程同步的三种数据获取方式,数仓数据同步包括ODS到维度表、ODS到基础事实表,最终数据通过维度表和基础事实表进行加工汇总。后续基于维表和事实表进行模型、数据集、立方体的创建。
2.1ODS数据同步
ODS的数据来源于不同的业务系统,通过数据分析模块可以将需要分析的业务数据以表的形式注册到ODS库中,ODS支持源库读取、接口同步、流程同步三种数据抽取方式。
ODS同步方式如下图所示:
2.2数仓数据同步
ODS中的数据分为两种,一种是作为支撑数据分析维度的数据;另一种为相关业务数据,通过维度类数据与业务类数据汇聚计算最终将作为企业数据分析的指标。
2.2.1ODS到维度表
下图是ODS数据同步维度表的过程:
2.2.2ODS到基础事实表
下图是ODS数据同步基础事实表的过程:
2.3汇总事实表加工
汇总事实表是根据基础事实表中的维度横向合并或者纵向汇总生成,基础事实表表中的维度通常包含组织维度、项目维度、日期维度等,汇总事实表汇总计算方式根据业务规则、分析指标、展现方式等进行制定,基于DAP数据分析平台元数据配置自动在ESB生成数据集成流程,实现数据聚合。
3ODS数据同步
ODS的数据来源于不同的业务系统,通过DAP平台可以将需要分析的业务数据以表的形式注册到ODS库中,ODS支持源库读取、接口同步、流程同步三种数据抽取方式。下面介绍ODS数据同步的同步方式、配置方式以及如何创建调度资源。
3.1同步方式
1.源库读取
DAP数据分析平台对于需要分析的业务数据不做数据生产,只会进行存储。所以DAP的数据都是从各个源头系统中抽取获得的。源头系统如果需要通过源库读取的方式提供数据,那么业务系统需要在数据中台中注册。通过这种方式注册的数据表在发生变更后,DAP会实时获取到变更信息。
2.接口同步
当DAP创建了ODS表后将同步方式设置为接口同步,那么在接收服务中生成对应的接口,接口地址如下:
将接口提供至业务系统后,业务系统发生数据变更调用提供的接口将数据写入到对应的ODS表中。
3.流程同步
由源头系统将业务信息表注册至DAP中,DAP通过注册的表信息进行参考表创建,ODS同步方式选择流程同步后,就可以选择调度资源或者生成ESB流程时,自动生成调度并且插入到对应表字段中。
业务系统也可以提供数据查询接口,DAP手动创建ODS表,通过ESB进行数据集成,但是源头系统提供的接口每次调用时需要提供新增或变更的数据,由ESB调用源头系统提供的接口获取变更数据写入ODS表中。
3.2配置方式
1.源库读取
如果选择源库读取的方式获取数据信息,在ODS数据定义页面选择源库读取。
选择源库读取后根据实际需求选择原系统的字段信息。
源库读取的表在源头系统发生数据变更后会实时同步至DAP中。
2.接口同步
如果通过接口同步需要通过参考表创建,并选择接口推送的方式创建数据表。
选择对应的源头表及需要字段后保存。
双击查看ODS表,同步方式为接口推送。
在接收服务中会生成对应的数据写入接口。
3.流程同步
通过参考表创建选择类型为流程同步,通过ESB生成对应的调度流程。
3.3资源调度
在ESB中新建流程,选择流程模板为业务系统到ODS:
点击next后,可以选择刚刚创建好的同步流程:
创建完毕保存后,会生成对应的同步流程:
创建完毕后,会在调度资源中自动生成对应的流程:
4数仓数据同步
DAP通常是按照主题进行数据分析,而在数据分析平台上线过程中,可能会遇到企业上线的业务系统已经具有部分的数据分析功能,这个时候如果需要进行统合的数据分析可以直接进行数据抽取,而更多情况是企业并没有对应的数据分析功能,甚至还停留在线下的报表填写,而这个时候针对于填写的报表和指标需要去划分哪些是标准的维度数据、哪些是可以分析的业务数据。在梳理好后数据同步至ODS中,针对划分和区分同步至对应的维表或事实表中。
4.1ODS到维表
在维表新增页面选择来源表,会从ODS中选择相应的表。
选择对应的数据表后填写相应的名称。
创建完毕后可以看到关联调度中没有关联调度的流程。
切换到ESB后选择ODS转换到EDW,生成对应的流程后会自动将关联调度回写到维表中。
4.2ODS到事实表
在事实配置中选择事实表类型为基础事实表:
有时在获取ODS数据表时,ODS中的数据信息从其他业务系统同步至DAP中,但是没有做维度信息的统一,所以在创建基础事实表时需要选择对应的ODS表或维度表来创建基础事实表:
创建完毕后可以看到关联调度中没有关联调度的流程:
切换到ESB后选择ODS转换到EDW,生成对应的流程后会自动将关联调度回写到基础事实表中。
4.3加工资源
与ODS数据同步不同,维度表、事实表中的资源为加工资源,所以由维表和事实表生成的流程会存储在加工资源中。
其中维度表的加工资源会存储在主题对应的根目录下。
基础事实表的加工资源会存储在对应的主题下。
5汇总事实表加工
汇总事实表是根据基础事实表中的维度横向合并或者纵向汇总生成,横向合并是与时间、组织等维表关联,将基础事实表根据维度信息进行汇总。纵向合并是将基础事实表中的字段合并,如根据基础事实表中的枚举类数据进行字段合并。
5.1汇总方式
数据中台对于需要分析的业务数据不进行数据生产,只进行存储,并根据源头系统提供的指标计算规则进行计算。所以数据的汇总方式一般由源头系统定义,但是有部分客户不清楚自己应该如何进行数据的加工汇总,他们更多地是通过线下方式获取数据,所以在这个过程中需要我们与客户多次沟通,明确如何汇总数据。
5.2配置方式
汇总事实表创建也需要到事实配置中新建配置,事实表类型选择为汇总事实表。
保存完毕后可以为来源表配置相应的关联关系。
切换到ESB后选择汇总事实表加工,生成对应的流程后,会自动将关联调度回写到汇总事实表中。
相应的加工资源中也会生成对应的调度资源。
5.3调度任务
在数据通过汇总事实表加工完毕后,就可以构建相关的数据模型,通过数据模型构建模型、数据集、立方体的创建,根据分析指标生成多维报表及业务类报表。结合DAP预置的展现组件形成直观的图形图表,通过这些图形图表配置成各类展现看板、报表等,完成可视化效果的最终呈现。
DAP在ODS数据同步、数仓数据同步、汇总事实表加工的过程中都会生成对应的调度资源。而调度任务可以将一套整体的架构流程作为一个大的任务进行资源调度,通过定时或手动调用的方式进行数据加工汇总。
6心得体会
通过本次的DAP的数据加工流程梳理,使自己明确整体的DAP数据加工过程,提升自己的整体认知能力。
6.1勤于总结
项目是最好的炼钢炉,对产品是考验,对于个人来说,也是一种考验。善于总结,善于记录,把好的经验总结记录下来,把走过的弯路进行反思总结,就会不断提升自己的能力,打磨自己的棱角,让自己逐渐强大起来。
6.2认知收获
对于DAP使用的方式不能仅停留在业务上,只了解相应的皮毛和形式,更多的还要理解认证的原理,从原理出发,才能更好地进行理解,才能对业务的形式更加清楚,而总停留在皮毛上,总会在特殊情况下显露自己的不足,出现问题靠的不仅是经验,还有实力。
6.3积累沉淀
产品来源于项目,用于项目,在项目中打磨,在项目中完善,没有一个功能是闭门造车就可以完成的,都是通过不断使用、完善,逐渐变得强大的。因此,除了我们自己要不断地模拟使用,还要交付给客户不断使用,在使用过程中不断完善,不断修改,直至让客户认可,只有经过洗礼的产品,才能变得越来越强大。
在软件行业,活到老学到老才是王道,不是做研发工作就一定比做项目工作厉害,也不是做项目工作就学不到知识。真正的区别在于发现和积累,只有了解自己的缺点,知道如何弥补完善,不断地提升自己能力,丰富自己的知识,沉淀自己的经验才能取得最终的成功。
以上是关于DAP数据加工流程梳理的主要内容,如果未能解决你的问题,请参考以下文章
加工制造业智慧采购系统解决方案:助力企业实现全流程采购一体化协同
加工制造业智慧采购系统解决方案:助力企业实现全流程采购一体化协同