DAP+ESB数据仓库构建过程说明
Posted 数通畅联
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DAP+ESB数据仓库构建过程说明相关的知识,希望对你有一定的参考价值。
科技飞速发展的时代,企业信息化建设越来越完善,越来越体系化,当今数据时代背景下更加强调、重视数据的价值,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营,为企业打造自主模式的数据分析成果,以数据驱动决策。
随着企业发展以及信息化的建设,在初步搭建企业整体IT框架后,业务系统所产生的数据也在逐渐增多,通过系统数据挖掘数据价值,促进业务升级已成为企业信息化发展的必经之路。对于大多数企业来说,不断积累的数据蕴含了大量的潜在价值,这时数仓的作用就得到了体现,数仓可以存储大量的历史数据,企业可以根据这些历史数据进行分析,做出后续发展决策。
1整体介绍
数据分析,无论是现在的互联网企业,还是传统型企业,都需要数据分析。公司需要决定一些发展方向或者推出某种新型产品时,就需要数据分析来将一些凌乱的数据进行整合汇总,从而判断出具体方向。
1.1整体说明
数据分析平台是一款能够高效存储、计算、分析并处理海量数据的数据分析产品,能够真实、准确、清晰、有效地将企事业内部及行业外部的相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。
数据集成是从业务系统到ODS,ODS转换到数仓(到维度表、基础事实表),汇总事实加工与ESB结合调用DAP接口创建ESB预制的集成流程,生成数据调度,将相关数据拉取到数仓后依次进行创建模型,通过数仓模型创建指标、数据集、立方体,报表,进行对外发布的数据服务和可视化展现(看板、大屏、移动化)。
1.2集成架构
本次工作集成架构如下:
1.源头系统:源头系统使用数据库来模拟业务系统,源头系统中包含人力资源管理系统、财务管理系统、地产管理系统、旅游管理系统、成本管理系统、销售管理系统共六类系统;
2.使用ESB将各业务系统数据抽取至ODS当中,采用时间戳或字段对比同步的方式;
3.业务系统当中的数据维度直接通过主数据库获取,将维度提前在数仓构建完成,便于数据模型的配置,同时也大大减少ODS从维表的工作量;
4.在数仓构建对应数据模型、分析模型,基于模型进行数据可视化配置,将数据展现分析。
1.3功能需求
DAP+ESB样例工程是公司ESB预制样例的一部分,本次工作是样例工作的一部分,通过本次工作可以让使用者快速掌握数仓的构建方法,以及与数仓相关的模型、数据集和立方体配置,本次工作核心内容如下:
1.业务系统同步至ODS需包含源库注册、接口同步、流程同步三种数据同步方式;
2.基于ODS当中的数据信息配置对应的指标、维表、事实表等数仓表;
3.根据数据加工的顺序配置数据调度资源及调度任务,任务配置方式包含手动生成及自动生成;
4.配置数据分析模型,包含数据集、立方体、多维分析报表及综合业务报表。
2需求分析
构建数仓的步骤主要可分为三部分:首先是业务系统到中间库;其次是中间库到数仓;最后则是在数仓中完成加工汇总的操作形成汇总事实表,在本篇文档中将对这三部分的实现步骤进行介绍。
2.1工作目标
数仓构建由DAP与ESB两款产品共同完成,在DAP中完成相关配置,然后在ESB中调用DAP的接口完成相关流程创建,即可在DAP中进行调度,完成数据的同步操作。在本次工作中,主要目标就是实现上述操作,在DAP中完成业务系统到中间库、中间库到数仓以及最后加工汇总的相关配置,同时在ESB中创建对应流程,最终在DAP中调度生成的任务,实现各步骤数据的同步操作。
2.2实现思路
本次工作实现思路如下:
1.使用数据库虚拟业务系统,在数据库内创建业务单据表,业务单据表所有维度均在主数据库内创建;
2.在ODS以源库读取、参考表创建等方式创建ODS表结构,并以接口同步、源库读取、流程同步等方式同步数据;
3.在数仓模型中创建维表、基础事实表、汇总事实表,并配置数据模型,描述其关联关系。
2.3前置工作
本次工作是样例工作的一部分,现对开展工作前需要做出的准备进行说明:
1.产品版本:
(1)DAP数据分析平台产品使用版本:dap_server_x64_v3.5.1_20220531;
(2)ESB企业服务总线产品使用版本:esb_server_x64_v3.5.6.20220516;
(3)ESB企业服务总线设计器版本:设计器版本同Server版本保持一致。
2.数据库资源配置:
3.由于本次工作设计到ESB调用DAP的接口,所以需要在DAP中完成IP白名单的配置,如图:
3数仓构建
数仓配置主要针对数据分析平台ODS数据定义配置、维度配置及事实表配置,其中事实表配置包括汇总事实表及基础事实表,在配置完成后会生成对应的集成流程,完成调度工作。
3.1ODS配置
本次将以财务管理系统为例,介绍以参考表创建方式完成ODS数据同步,如图:
选择对应的数据库以及数据表,如图:
双击编辑ODS,选择对比模式,本次以时间戳为例,如图:
选择完成,即可在设计器中选择生成对应的ODS流程,如图:
点击下一步,点击刷新,即可选择对应的流程,如图:
生成的流程如图:
如此,已完成ODS的相关配置,可以开始同步数据,效果如图:
3.2维度配置
在维度配置中点击新增,配置相关基础信息,如图:
为维表配置相关字段信息以及关联关系,并点击创建表生成对应的维表,如图:
在设计器中选择ODS转换到EDW,如图:
选择维表,点击刷新,如图:
生成的维表流程如图:
3.3事实配置
事实配置包含基础事实表及汇总事实表,基础事实表为将业务表数据进行字段调整并结合维度进行数据清洗转换,汇总事实表配置是根据基础事实表结合维度,进行基础指标的横向或纵向汇总计算。
3.3.1基础事实表
基础事实表数据同步主要完成字段的清洗转换,并不对数据进行计算、汇总等处理操作,在事实配置中点击新增,配置基础事实表的基本信息,如图:
双击事实表,配置事实表的字段信息以及关联关系,如图:
在设计器中选择ODS转换到EDW,如图:
选择基础事实表,点击刷新,如图:
生成的基础事实表流程如图:
3.3.2汇总事实表
汇总事实表在基础事实表的基础上,完成对数据的计算、汇总等加工处理操作,在事实配置中点击新增,配置汇总事实表的基本信息,如图:
双击事实表,配置事实表的字段信息以及关联关系,如图:
在设计器中选择汇总事实表加工,如图:
点击刷新,如图:
生成的汇总事实表流程如图:
4数据模型
数据模型是数仓的概念,是指有维表和事实表组成的关系结构,在DAP中将事实表进行了再次的扩展,包含基础事实表和汇总事实表。数据模型是构建数据指标的基础。
4.1模型介绍
通过上文的操作步骤即可完成数仓构建,同时通过维度表和事实表的关联可以构建数仓模型,通过数仓模型可以生产任务,通过任务来进行调度从而进行数据抽取,这是数仓建设集数据集成的全部过程,也是一个闭环,通过数仓模型就可以创建指标、数据集/立方体,在通过指标、数据集/立方体对外发布服务,或者可视化展现,比如看板、大屏、报表类等。
4.2配置过程
在模型配置中点击新增,填入模型基本信息,如图:
双击创建完成的模型,进一步配置模型信息,配置模型数据来源表如图:
配置来源表之间的关联关系,如图:
如此可完成模型的配置。
4.3模型应用
通过模型可以实现很多操作,在此以数据集为例,在数据集配置中点击新增,选择数据集来源数据模型,同时配置数据集基本信息,如图:
双击创建的数据集,配置数据集中的字段信息,如图:
配置完成后点击提交→发布,即可完成数据集的相关配置。
5工作总结
本次工作主要围绕着DAP+ESB预置样例中数仓配置开展,完成了从BIZ到ODS、ODS到EDW,再到最后的加工汇总等操作,现就本次工作做出如下总结,便于后续工作进行回顾、反省。
5.1功能总结
站在功能角度来看,在本次开发工作中可以看出,调度流程的创建已经更为便捷,通过在页面中选择配置,即可在ESB设计器中生成对应的调度流程,提升了对非技术人员的友好度;同时通过本篇文档,以及后续开发完成的预置样例,使用者可以快速的掌握对DAP这款产品的使用方法,从而更快的去开展工作,提高整体工作效率。
5.2后续规划
通过本篇文档可以看出,对DAP功能介绍的并不全面,只是单独对数仓的构建方式进行了阐述,在后续工作中,将对DAP组件的使用方式以及组件与组件之间的穿透、联动等效果进行实现,丰富预置样例的使用场景,尽可能的覆盖到各种可能用到的场景,为后续通过样例进行学习或是开展工作的使用者提供更友好的服务。
5.3总结归纳
在DAP这款产品中,数仓构建是各种操作的基础,无论是后续的分析展现或是其他操作,都是基于数仓中的数据进行的。数仓将各个异构的数据源数据库的数据给统一管理起来,并且完成了对质量较差数据的剔除、格式转换,最终按照一种合理的建模方式来完成源数据组织形式的转变,最终用于企业的数据分析、数据挖掘、数据报表等方向。
通过DAP这款产品,使用者可以快速生成综合业务报表,提高了工作效率,同时也不必担心数据准确性。在数仓中存储的数据包含了大量的历史数据,可以通过可视化展现,以一种非常直观的方式展现出来,企业可以根据这些历史数据对某一时期企业的趋势进行分析,从而预测未来的发展趋势。
以上是关于DAP+ESB数据仓库构建过程说明的主要内容,如果未能解决你的问题,请参考以下文章