一个数据仓库是一个统一的架构下组织不同数据源的异类集合。有两种构建数据仓库的方法:解释自上而下的方法和自下而上的方法。
1.自上而下的方法:
基本组件讨论如下:
- 外部源–
外部源是从中收集数据的源,与数据类型无关。数据也可以是结构化,半结构化和非结构化的。 - 阶段区域–
由于从外部源提取的数据没有遵循特定的格式,因此需要验证此数据以加载到数据仓库中。为此,建议使用ETL工具。- E(提取):从外部数据源提取数据。
- T(转换):数据转换为标准格式。
- L(加载):将数据转换为标准格式后,将其加载到数据仓库中。
- 数据仓库–
清除数据后,将其作为中央存储库存储在数据仓库中。它实际上存储元数据,而实际数据存储在数据集市中。请注意,数据仓库以这种自顶向下的方法以最纯粹的形式存储数据。 - 数据
集市–数据集市也是存储组件的一部分。它存储由单个权限处理的组织特定功能的信息。一个组织中取决于功能的数量可以有很多。我们也可以说数据集市包含存储在数据仓库中的数据子集。 - 数据挖掘–
分析数据仓库中存在的大数据的实践是数据挖掘。它用于借助数据挖掘算法查找数据库或数据仓库中存在的隐藏模式。Inmon将这种方法定义为–数据仓库作为整个组织的中央存储库,并在创建完整的数据仓库之后从中创建数据集市。
自上而下方法的优势–
- 由于数据集市是从数据仓库创建的,因此提供了数据集市的一致尺寸视图。
- 此外,该模型被认为是业务变更的最强模型。因此,大型组织更喜欢采用这种方法。
- 从数据仓库创建数据集市很容易。
自上而下方法的缺点–
- 设计的成本,时间及其维护成本很高。
2.自下而上的方法:
- 首先,从外部来源提取数据(与自顶向下方法相同)。
- 然后,数据通过暂存区域(如上所述)并装入数据集市而不是数据仓库。首先创建数据集市并提供报告功能。它涉及单个业务领域。
- 然后将这些数据集市集成到数据仓库中。
Kinball提供了这种方法,因为–首先创建了数据集市,并在创建完整的数据集市之后为分析提供了一个简单的视图并创建了数据仓库。
自下而上方法的优势–
- 由于首先创建了数据集市,因此可以快速生成报告。
- 我们可以在此处容纳更多数量的数据集市,这样就可以扩展数据仓库。
- 而且,设计该模型所需的成本和时间相对较低。
自下而上方法的缺点–
- 该模型不像自顶向下方法那样强大,因为数据集市的维度视图与上述方法不一致。