ETL 中的分层数据
Posted
技术标签:
【中文标题】ETL 中的分层数据【英文标题】:Hierarchical data in ETL 【发布时间】:2011-09-19 12:25:15 【问题描述】:我是 ETL 工具的新手,但我发现评估它们都适用于平排模型。 IE。如果您的数据需要一些图形对象转换(即检查父字段或其他依赖项),这非常不方便(可以通过非规范化等解决以映射到更简单的 RDB 模型)。我想问我是否理解正确。以及为什么 ETL 避免使用更易于理解的面向业务对象的模型。是否有支持 Document 相关或 OOP 相关转换的 ETL?
【问题讨论】:
【参考方案1】:我不确定我是否完全理解这个问题,但需要考虑一些想法:
大部分ETL 范式来自数据集成和决策支持领域,即来自数据仓库设计和实施。这个世界传统上是面向关系数据库的,大多数数据源以数据库表或 CSV 文件的形式存在。这可能是“平排模型”的原因。 简单数据模型对于高吞吐量性能很有用,并且在大多数情况下不会过度限制:ETL 工具用于数据密集型任务。 我知道的大多数工具都假定源记录是相互独立处理的,它们不会相互影响。但是,情况并非总是如此,因为某些工具可以聚合数据(例如 Informatica 聚合器元素) - 数据模型不再那么平坦。 扩展平面模型的其他示例包括检查外键依赖项(“父字段”)、使用字典表(甚至 Web 服务)、定义执行任意操作 (“OOP”) 的外部类等。但是,ETL数据模型总是停留在较低的抽象层次上。【讨论】:
【参考方案2】:Altova MapForce 可以处理分层数据。
【讨论】:
以上是关于ETL 中的分层数据的主要内容,如果未能解决你的问题,请参考以下文章