ETL 工具或临时解决方案?
Posted
技术标签:
【中文标题】ETL 工具或临时解决方案?【英文标题】:ETL tool or ad-hoc solutions? 【发布时间】:2012-07-12 15:04:12 【问题描述】:我正在设计一个数据仓库系统,原始数据源有两个:文件(十六进制格式,记录结构已知)和PostgreSQL数据库。 ETL 阶段必须读取两个源(文件和数据库)的内容并组合/集成/清理它们。之后,将数据加载到 DW 中。
为此,工具(例如 Talend)或 ad-hoc 解决方案(使用编程语言编写 ad-hoc 例程)更好吗?
【问题讨论】:
【参考方案1】:我建议您使用Bulk Loader 将您的平面文件放入数据库。这允许您自定义加载规则,然后使用常规 SQL 处理/清理结果数据集(无需编写其他自定义代码)
【讨论】:
也许是个好主意,但我需要深入阅读十六进制文件的内容。我的意思是,读取前两个字节并获取我的对象的 ID,然后读取接下来的 n 个字节并获取我的对象的时间戳,依此类推......一旦收集到从文件中提取的信息,清理它们,将它们与一些数据集成数据库,然后加载到数据集市中。以上是关于ETL 工具或临时解决方案?的主要内容,如果未能解决你的问题,请参考以下文章
ETL常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle
ETL常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle