关于数据仓库不得不说的那些“事”

Posted 2021-04-24 厦门巨龙信息

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了关于数据仓库不得不说的那些“事”相关的知识，希望对你有一定的参考价值。

对于大多数非从业者或者初学者来说，数据仓库（Data Warehousing）与数据挖掘（Data Mining）是很容易混淆的两个概念。有个形象的比喻说：如果把数据仓库比做一个大型的矿坑，那么数据挖掘就是入坑采矿的工作，数据挖掘需要有非常好的数据基础，没有丰富完整的数据，是挖掘不出好内容的。数据仓库可以说是数据挖掘最理想的地基。

关于数据仓库不得不说的那些“事”

数据仓库

要将非常庞大又复杂的数据转化成有用的信息，首先需要做的是有效率地收集数据，于是数据仓库应运而生。数据仓库是一个环境，而不是一件产品；数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化（不同时间）的数据集合，提供用户用于决策支持的当前和历史数据。数据仓库技术是为了有效的把操作型数据集成到统一的环境中，以提供决策型数据访问的各种技术和模块的总称。

根据这个定义，数据仓库也可看成是某个组织的数据存储库，用于支持战略决策。数据仓库的功能是以集成的方式存储某组织的历史数据，来反应这个组织和企业的多个方面。数据仓库中的数据永远不会更新，仅用于相应终端用户的查询。一般来说，数据仓库非常的大，存储了数以亿计的记录。

数据仓库的数据全部来源于外部，它本身并不“生产”任何数据，同时自身也不需要“消费”任何数据。在数据架构上面，数据仓库通常采用层次化的模型架构，这种模式成本最低，基础数据和应用指标的一致性最好。

虽然存在数据仓库并不是数据挖掘的先决条件，但实际上，若能访问数据仓库，数据挖掘的任务就会变得容易的多。数据仓库的主要目标是增加决策过程的“情报”和此过程的相关人员的知识。

关于数据仓库不得不说的那些“事”

从业务数据库到数据仓库的的转化过程中，需要运用到ETL技术（extract提取、transform转换、load加载）。在整个数据仓库的构建中，ETL工作占整个工作的50%-70%。

ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后，进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘提供决策支持的数据。

在业务背景中，用户需要通过构建海量历史数据的区域，海量结构化的存储、管理和查询分析服务，来满足数据的归档、即时在线查询以及离线统计分析需求。

巨龙大数据集成管理系统——高效的ETL抽取工具

巨龙大数据集成管理系统，是基于云计算和分布式存储之上的ETL抽取工具，采用标准化、规范化的抽取模式，实现对结构化、半结构化、非结构化资源的统一抽取、整合、加工、转化、和装载。

关于数据仓库不得不说的那些“事”

产品架构图

关于数据仓库不得不说的那些“事”

产品特点

全面适配主流大数据库技术的ETL任务

关于数据仓库不得不说的那些“事”

全面支持海量异构数据分析，按业务标准化需求进行整合、清洗、转换

关于数据仓库不得不说的那些“事”

插件化整合业务，方便整合逻辑提升ETL的扩展性

巨龙大数据集成管理系统，为公安海量数据历提供集数据转换、库抽取、库加载、文件处理、预评估等服务，不仅解决了海量异构数据的抽取和管理难题，还可为未来进一步的数据挖掘打造基础数据平台。同时构建于普通PC Server之上的Hadoop平台具有硬件廉价，系统高容错、水平灵活扩展、运行高效等特点。

以上是关于关于数据仓库不得不说的那些“事”的主要内容，如果未能解决你的问题，请参考以下文章

SQL开发实战技巧系列:关于SQL不得不说的那些事

SQL开发实战技巧系列（十八）：数据仓库中时间类型操作（进阶）INTERVALEXTRACT以及如何确定一年是否为闰年及周的计算

从孕育到长者，一个不得不说的故事：数据仓库设计的六个阶段

盘点数据仓库建设需要知道的那些事

关于DNS不得不说的一些事