如何才能让数仓构建成本降低80%,维护成本降低70%?

Posted softeasy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何才能让数仓构建成本降低80%,维护成本降低70%?相关的知识,希望对你有一定的参考价值。

       构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。

      通常数据抽取工作分抽取、清洗、转换、装载几个步骤:

       抽取主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。

       清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等数据质量问题,允许通过数据抽取设定的数据质量规则,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。

       转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。

       装载主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。

SEDWA高效数据仓库处理平台为整个 ETL 过程提供了一个可视化的开发,测试,生产环境,它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和高效数据处理,并将其输出数据仓库或语义模型的数仓高效构建平台。一个功能强大易用的数据仓库构建平台应该具备以下能力:

一.    数据源连接能力:

        ETL工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范围。SEDWA能够直接连接非常多的数据源,包括:

1、      文本文件

2、      Excel数据源

3、      主流数据库类型:SQL、mysql、Oracle、DB2

4、      通用连接器:ADO.NET、OLEDB、ODBC、CDATA

5、      智能适配器:金蝶数据源、用友数据源等行业软件适配

二.    并行运行能力:

        SEDWA可以支持并行任务运行能力,执行引擎自动判断任务的先后顺序。机器学习可以自动优化并学习提供最优执行方案。这也是传统的手工编码方式难以做到的。这样,SEDWA就可以充分利用硬件资源。而且,当你的硬件资源升级的时候也不用修改已经开发好的ETL 调度任务,只需要修改执行方案的配置信息。并行执行能力是SEDWA所能处理数据的速度可以得到很大的提升,轻松处理大量数据。

三.    强大易用的开发环境:

       SEDWA开发环境是基于 C/S 模式的,构建数据仓库全程可视化拖拽操作。核心功能如下:

1、      多数据源与智能适配

     多种数据源一键接入,并提供多种插件帮助您对接最流行的源系统(如国内的金蝶、用友以及各行业业务系统),简单快速方便的获取您想要的数据

2、      团队协作与版本控制

      帮助多人在同一个项目上进行协作,另外还加入版本控制,记录项目内的所有对象的状态,在发生错误时快速回滚到之前任何一个版本,极大的提升项目开发进度及有效的管控项目质量

3、      智能引擎与机器学习

      内置的智能执行引擎,让您可以获得更快执行速度、更敏捷的项目变更以及最佳的性能,机器学习在每次执行项目时都会进行对象顺序优化分析,确保ETL工作高效运转

4、      增量抽取和历史跟踪

      增量抽取和缓慢简渐变作为数据仓库开发最棘手的问题,您只需简单几步操作即可启用,我们利用独特优化模型帮助您快速设置增量抽取规则和创建缓慢渐变维度,同时这一切完全遵循维度建模理论

5、      代码片段

      代码片段模板,让所有重复的输入工作一次输入,多次使用。如指标的同比、环比等,我们内置了数据处理,指标计算等常用模板,让这一切成为您高效数据处理的加速度

6、      多环境管理

     开发、测试环境、生产环境之间通过使用差异化部署技术,仅重新部署已经修改了的或者只部署当前环境中所需的必要更改,真正帮助您完成数据仓库的持续集成,持续开发,持续部署

7、      血缘和影响分析

       血缘分析帮助您你轻松回答:‘我正在查看的报告数据来源是什么?‘以及‘对当前分析的数据应用了哪些转换处理?‘等问题,影响分析可以让您轻松应对变更可能产生的影响,自动识别与其相关的依赖项和潜在的影响还可以跟踪所有对象及其依赖关系,最后我们还提供数据全生命周期的可视化显示

8、      数据质量及安全

       数据质量跟踪功能根据设定的规则帮助您过滤出有问题的数据,并智能分析数据质量缺陷,另外还内置安全机制,极大降低数据安全管控成本,帮助您快速设置用访问权限,确保经过身份验证的用户仅访问他们有权查看的数据

9、      语义模型

       业务用户在自助服务分析中面临的挑战之一是他们不是很了解数据仓库从而无法正确解释数据,语义层建模功能,使用易于业务用户理解的描述来转换数据,并可实现一键分发到多个BI可视化前端

      四、项目维护能力

      做项目时大家都知道应对客户的需求变更是最让人头疼的事情。BI项目需求的变更很有可能会推翻之前辛辛苦苦编写的大量SQL抽取逻辑。使用SEDWA完全不用担心这些问题,客户需求变更只需要在可视化的界面拖拽就可以完成抽取逻辑,项目任何的需求修改都只需要拖拽处理数据后部署执行即可完成项目的调整,无需编写代码。轻松应对需求变更,降低维护成本。

    想要了解更多详细请观看视频:SEDWA核心功能

    体验SEDWA产品地址:体验SEDWA核心功能

    欢迎加入PowerBI高效数据处理ETL交流群:684598807

以上是关于如何才能让数仓构建成本降低80%,维护成本降低70%?的主要内容,如果未能解决你的问题,请参考以下文章

存储成本降低80%,“大智慧”的选择

鸿蒙内核源码分析(管道文件篇) | 如何降低数据流动成本 | 百篇博客分析OpenHarmony源码 | v70.01

弃用 AWS 后,我们服务器的年成本降低了 80%

弃用 AWS 后,我们服务器的年成本降低了 80%

弃用 AWS 后,我们服务器的年成本降低了 80%

通过AWS EMR降低集群计算成本