DAP数仓模型及数据集成过程说明

Posted 数通畅联

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DAP数仓模型及数据集成过程说明相关的知识,希望对你有一定的参考价值。

科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,当今数据时代背景下更加强调、重视数据的价值,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营,为企业打造自助模式的数据分析成果,以数据驱动决策

数据分析,无论是现在的互联网企业,还是传统型企业,都需要数据分析。公司需要决定一些发展方向或者推出某种新型产品时,就需要数据分析来将一些凌乱的数据进行整合汇总,从而判断出具体的方向。 

1整体产品介绍 

可以通过不同的产品组合来解决不同公司面临的企业困难,帮助企业范围内建立起了一整套统一、规范的IT架构标准体系,包括数据规范、服务规范、流程规范、界面规范、接口规范等,彻底解决了当前面临的信息孤岛问题,有利于提高效率和降低成本。 

1.1产品体系 

首先介绍一下我们数通畅联的产品体系: 

我们数通畅联的所有产品都是通过K8S云平台进行部署搭建产品环境,通过不同的产品组合方案来解决企业面临的不同信息化困境,帮助企业完善信息化发展。 

DAP数据分析平台通过与ESB应用集成平台结合使用场景主要是通过配置调度任务,通过执行调度任务调用ESB数据同步流程,实现数据的采集、抽取、转换、传输、调度等操作,基础数据为DAP提供同源并标准的、一致的数据保障数据分析分析数据的准确性。 

1.2产品说明 

数据分析平台是一款能够高效存储、计算、分析并处理海量数据的数据分析产品,能够真实、准确、清晰、有效地将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。 

数据分析平台功能有: 

1.数据来源(应用系统定义、数据源头配置、ODS数据定义)数仓模型。 

2.数仓模型(业务主题、指标配置、维度配置、事实配置、模型配置)。 

3.数据调度(规则校验、调度资源、调度任务、日志管理(质量日志、调度日志、通知日志))。 

4.分析模型(数据集配置、立方体配置、多维度分析、业务类报表)。 

5.展现模型(导航管理、组件管理、展现主题、装饰管理)。 

6.统计分析(数据地图、质量分析、血缘分析、影响分析)。 

7.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。 

1.3功能说明 

数据集成是从业务系统到ODS,ODS转换到数仓(到维度表、基础事实表),汇总事实加工与ESB结合调用DAP接口创建ESB预制的集成流程,生成数据调度,数据调度此功能主要是提供传输的效率,通过数据血缘把分析相关数据拉取到数仓中后依次进行创建模型,通数仓模型指标、数据集、立方体,报表,进行对外发布的数据服务和可视化展现(看板、大屏、移动化)。 

创建数据调度流程的方式不仅可以用DAP平台新增调度流程,还可以使用ESB设计器创建三种调度流程,分别是业务源到ODS中间库的调度流程、数据集加工的调度流程和立方体加工的调度流程,然后可以在每个流程的各个节点中设置数据源、映射等信息,最后也是到DAP平台查看并启动执行这些流程完成同步数据的功能。 

2业务系统到ODS 

数据来源都在不同的业务系统中,DAP会把需要分析数据相关的表注册到ODS中间库中,ODS同步数据方式分为源库读取、接口同步、流程同步、外部同步,通过上述的方式把业务系统的数据同步到中间库。 

2.1功能介绍 

1.下图是ODS同步方式框图,ODS同步数据方式分为源库读取、接口同步、流程同步、外部同步。 

(1)源库读取:把业务系统变成从库,直接会通过业务系统同步到数仓中。 

(2)接口同步:接口同步是业务系统调用此接口进行数据同步。 

(3)流程同步:流程同步是与ESB结合生成调度流程进行数据同步。 

(4)外部同步:外部同步是通过外部组件进行数据同步。 

 

2.下图是业务系统到ODS集成步骤图,ODS同步方式选择流程同步,通过ESB流程生成流程进行同步数据。 

2.2功能配置 

ODS通过参考表创建、参考SQL创建、SQL语句创建和手动创建,参考表创建只能在ODS库中选择表,而手动创建的区别在于选择完字段后,二次添加的时候是自定义的字段而不是在原表中进行读取的。 

SQL创建,SQL创建存在两种,一种是SQL创建、一种是参考SQL创建,这里区别就是两种SQL的书写形式,正常的SQL创建只是create语句,而参考SQL创建直接读取而一张表进行创建,当然这里既然如此读法,当然是已经创建了表因此是否创建表字段直接为是,具体页面样式如下: 

DIM维度表属性添加,选中后便会出现该表中的相应字段,在选择后再次进入后已选择的字段将不会再次选择,同时在字段信息页面中存在删除功能,当我们删除了通过导入字段功能导入的字段,该字段便会复原在原来的表格中,如下: 

 

同步方式选择:同步接口,对比模式也是两种模式:时间戳、字段对比。

ODS同步对比模型分为时间戳和字段对比。 

下图是字段对比:配置比较字段: 

还可以配置通过时间戳查询:需要配置时间戳字段。 

2.3数据集成 

下面是选择对应信息,通过集成接口生成对应的流程。 

点击flash后,会生成调度资源: 

下面是集成流程,根据来源配置查询语句进行查询数据,进行调用插入更新组件进行数据同步、构建日志集合、调用回写日志。 

下图是时间戳查询流程图: 

下图是对比字段生成的流程图: 

通过调度任务点击执行,会调用此流程,然后就会把数据同步到ODS中: 

集成结果: 

3ODS转换到数仓 

ODS转换到数仓,是创建数仓的过程,主要分为两部分,一个是ODS到维度表配置,一个是ODS到基础事实表配置,通过这两个配置生成对应集成流程,然后根据任务执行进行数据同步。 

3.1功能介绍 

下图是同步维度表过程,通过维度表配置生成对应ESB流程,然后调用流程同步数据到维度表中。 

下图是基础事实表集成过程,通过维度表配置生成对应ESB流程,然后调用流程同步数据到基础事实表集成。 

3.2功能配置 

数仓分为维度表配置和事实表配置(基础事实表、汇总事实表)。 

下面是维度表配置,维度表的来源表就是ODS表因此点击选择表会进入相应的ODS表选择页面,选中相应的ODS表后,便可回写到前端页面上,如下: 

之后填完对应的数据后,这里为了限制维表必须选择来源表添加对应限制,当选择来源表后点击保存,为了更加人性化我们直接弹窗提示是否为已经选择的表添加相应的关联关系,如下: 

选择ok进入点击页面,下面我们就可以为两表的字段设置相应的关联关系,之后点击确定录入相应的关联关系,并且首页的状态调整为编辑样式,如下: 

我们可以在编辑状态下的明细页面找到我们配置的关联关系,如下: 

因为我们在明细页面选择了来源表,因此在字段信息页面的倒入字段功能中,仅可以在你选择的来源表中倒入字段,具体样式如下: 

这里表名的下拉选中只有我们上文中选中的表名称,如下: 

选中后便会出现该表中的相应字段,选择后再次进入后已选择的字段将不会再次选择,同时在字段信息页面中存在删除功能,当我们删除了通过导入字段功能导入的字段,该字段便会复原在原来的表格中,如下: 

下面是基础事实表配置过程事实表会根据不同的类型进行选择相应的来源表,首先选择基础事实表,基础事表来源可以是维表、ODS,如下: 

配置映射字段和来源字段: 

3.3数据集成 

ODS到维度表集成流程,通过选择ODS转换到数仓,点击下一页面显示如图所示:选择一个维度表流程创建。 

  

根据ESB选择类型来进行维度表还是基础事实表,会生成对应集成流程,流程分为根据时间戳查询ODS对应的数据,然后进行数据更新,构建日志计划,调用回写日志接口。 

生成集成流程后会生成对应调度资源: 

任务调度: 

执行调度任务结果: 

4汇总事实表加工 

汇总事实表加工是对维度表到汇总事实表或者集成事实表到汇总事实表,维度表是进行汇总事实通过关联维度进行SQL计算表达式,基础事实表到汇总事实表是使用基础事实表数字类型字段,通过上述两种合并成对应的汇总事实表。 

4.1功能介绍 

汇总事实是通过汇总维度表和基础事实表,通过ESB进行SQL查询汇总进行字段的映射更新到汇总事实表中,然后通过回写日志调用计算处理类,然后从DAP内部进行更新数据。  

4.2功能配置 

1.汇总事实表可选择的来源表包含基础事实表、维表配置,事实表类型是汇总事实表,然后根据选择表进行字段导入。 

2.通过选择的来源进行字段导入、也支持手动添加,添加需要计算的度量字段。 

3.在技术配置中配置计算公式和映射字段。 

4.3数据集成 

汇总事实表加工集成流程,点击下一页面显示如图所示:选择一个汇总事实表进行流程创建。 

  

会生成对应集成流程,流程分为根据汇总SQL语句查询对应的数据,然后进行数据更新,构建日志计划,调用回写日志接口,在回写日志接口调用汇总计算处理类进行二次计算进行更新新添加的度量字段。 

生成集成流程后会生成对应调度资源: 

 

任务调度: 

执行调度任务结果: 

5数仓模型建设 

数据模型是数仓的概念,是指有维表和事实表组成的关系结构,在DAP中将事实表进行再次扩展,包含基础事实表和汇总事实表。数据模型是构建数据指标的基础。 

5.1功能介绍 

通过上述数据集成的创建数仓,通过维度表和事实表的关联构建数仓模型,通过数仓模型可以生产任务,通过任务来进行调度从而进行数据抽取,这个是数仓建设集数据集成的全部过程,也是一个闭环,通过数仓模型就可以创建指标、数据集/立方体,在通过指标、数据集/立方体对外发布服务,或者可视化展现,比如看板、大屏、报表类等。 

  

5.2功能配置 

通过事实表关联不同的维度来构建数仓模型,下图所示是不同主题下创建的数仓模型列表页面: 

配置页面如下:基本信息页面选择事实表和关联维度表。 

配置事实表和维度表的关联关系:选择不同库和表配置它们之间的关联关系。 

保存后在列表页面显示关联信息: 

5.3功能应用 

任务生成: 

下图所示创建完模型后,先点击发布,发布后就会出现生成任务按钮,点击就会通过血缘分析关联关系找到每个表对应的调度资源,进行打包生成一个调度任务。

调度任务如下图所示: 

指标配置: 

下图所示通过模型可以创建对应的指标: 

数据来源选择对应模型: 

就可以在指标服务或者看板中配置对应指标可视化展现: 

点击预览就可以查看根据指标实例查询的数据了: 

数据集配置: 

数据集是通过数仓模型创建的,如下图所示通过选择数仓模型创建对应的数据集: 

在列表页面先点击提交,这样导航看板就可以使用该数据模型,点击发布就可以对外发布数据服务。 

数据服务: 

导航看板: 

6总结分析心得 

无论是现在的互联网企业,还是传统型企业,都需要数据分析。公司需要决定一些发展方向或者推出某种新型产品时,就需要数据分析来将一些凌乱的数据进行整合汇总。 

6.1.数据集成  

通过本次数据集成能够快速地帮助企业建设自己的数仓,帮助企业把一些凌乱的数据进行整合汇总,提升企业数据价值,提供一个决策分析用的工具,帮助决策人员更好地制定企业策略,或找出企业的潜在问题,提高客户满意度,最终提高企业竞争力。

6.2数据调度 

数据调度作用是把从业务系统到ODS,从ODS转换到数仓、汇总处理里的数据进行一次抽取工作,帮助数仓的快速创建,调度过程这也是支持清洗校验过程,帮助数仓数据更加完整准确,使数据分析更加真实有效,帮助企业领导掌握过去企业整体运营情况,分析现在所存在的隐患,预测未来公司的发展趋势。 

6.3产品发展 

产品要从功能性、易用性、开发性、扩展性、高性能、稳定性、美观性不同角度来扩展迭代每个产品,通过到项目中去,在再从项目中来,通过客户的需求筛选出我们产品需要的,进而升级产品功能,增强产品的功能性,通过不同项目来深度了解行业,预制样例通过不同产品组合来快速搭建,使我们做起项目更加敏捷。 

产品不管怎么发展都是一个目的,那就是解决每个阶段企业面临的困境,帮助企业完善信息化发展,能够抓住每个企业的业务痛点,这样才能体现出产品的价值,一款好且稳定的产品可以帮助工作人员快速而方便的工作,大大提高了工作效率,也会让客户满意,增加客户对公司的信任度。 

以上是关于DAP数仓模型及数据集成过程说明的主要内容,如果未能解决你的问题,请参考以下文章

基于DAP数仓建设过程说明

DAP质量校验实现及数据应用说明

DAP质量校验实现及数据应用说明

DAP可视化组件升级开发说明

DAP事实表加工汇总功能应用说明

DAP组件外部服务开发说明