用于 ETL 的 Spark SQL 与 Impala
Posted
技术标签:
【中文标题】用于 ETL 的 Spark SQL 与 Impala【英文标题】:Spark SQL vs Impala For ETL 【发布时间】:2017-06-02 05:23:56 【问题描述】:目前,我们使用的是传统的数据仓库 ETL 工具 IBM DataStage。我们正在寻求迁移这些工作。这些工作主要包括连接和转换以派生事实表。迁移此类工作的更好技术是什么?我们在 ETL 的 Impala 查询中使用了 hue oozie,我们是否应该将 spark sql 用于 ETL 而不是 Impala 查询?
【问题讨论】:
【参考方案1】:你如何实现类型 2 等。在 Hive、Impala 等中。至于我,整个大数据堆栈对于 Prod env 是无用的
U 不仅追加数据,而且批量更新以加载数据,如 Type 2 。 对于数据更正,您需要大量即席查询、更新、删除插入。 从支持 /dev 团队运行大量临时查询以查找结果 差异等 以上 3 点都让这个栈没用了。
用例是 大量数据,其中输出是一些估计不正确,一张大胖表,带有删除和删除或非结构化数据
【讨论】:
以上是关于用于 ETL 的 Spark SQL 与 Impala的主要内容,如果未能解决你的问题,请参考以下文章