ETL 中的分层数据

Posted

技术标签:

【中文标题】ETL 中的分层数据【英文标题】:Hierarchical data in ETL 【发布时间】:2011-09-19 12:25:15 【问题描述】:

我是 ETL 工具的新手,但我发现评估它们都适用于平排模型。 IE。如果您的数据需要一些图形对象转换(即检查父字段或其他依赖项),这非常不方便(可以通过非规范化等解决以映射到更简单的 RDB 模型)。我想问我是否理解正确。以及为什么 ETL 避免使用更易于理解的面向业务对象的模型。是否有支持 Document 相关或 OOP 相关转换的 ETL?

【问题讨论】:

【参考方案1】:

我不确定我是否完全理解这个问题,但需要考虑一些想法:

大部分ETL 范式来自数据集成和决策支持领域,即来自数据仓库设计和实施。这个世界传统上是面向关系数据库的,大多数数据源以数据库表或 CSV 文件的形式存在。这可能是“平排模型”的原因。 简单数据模型对于高吞吐量性能很有用,并且在大多数情况下不会过度限制:ETL 工具用于数据密集型任务。 我知道的大多数工具都假定源记录是相互独立处理的,它们不会相互影响。但是,情况并非总是如此,因为某些工具可以聚合数据(例如 Informatica 聚合器元素) - 数据模型不再那么平坦。 扩展平面模型的其他示例包括检查外键依赖项(“父字段”)、使用字典表(甚至 Web 服务)、定义执行任意操作 (“OOP”) 的外部类等。但是,ETL数据模型总是停留在较低的抽象层次上。

【讨论】:

【参考方案2】:

Altova MapForce 可以处理分层数据。

【讨论】:

以上是关于ETL 中的分层数据的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库的分层架构

详解数仓中的数据分层:ODSDWDDWMDWSADS

详解大数据数据仓库分层架构

数据仓库分层

ARCGIS如何字段分层

4. 数据仓库架构分层(重点)