我们可以使用 spark-sql 或 apache spark 运行 sqoop 导入语句吗

Posted

技术标签:

【中文标题】我们可以使用 spark-sql 或 apache spark 运行 sqoop 导入语句吗【英文标题】:Can we run sqoop import statement using spark-sql or apache spark 【发布时间】:2020-08-25 16:56:59 【问题描述】:

有什么方法可以将 sqoop 作为 spark 作业运行。通过它我们可以将 MapReduce 执行替换为 Spark 执行引擎

【问题讨论】:

问题是为什么要将它作为 spark 运行? Sqoop 执行 sql 语句或将整个表复制到 HDFS 位置,sqoop 不做任何转换。只有它在 MAP 阶段创建与数据库的并行连接并复制数据,sqoop 没有 REDUCE 阶段。也许我错了,但在这种情况下 Spark 和 MR 将执行相同的操作。 【参考方案1】:

Sqoop 没有像 Pig 或 Hive 这样的执行引擎,它们都可以连接到 JDBC 源并转储到 HDFS 中

【讨论】:

以上是关于我们可以使用 spark-sql 或 apache spark 运行 sqoop 导入语句吗的主要内容,如果未能解决你的问题,请参考以下文章

我们什么时候应该使用Spark-sql,什么时候应该使用Spark RDD

spark-sql 自定义函数

使用 spark-sql cli 将 csv 数据直接加载到 parquet 表中

Spark-SQL的具体编程场景

spark-sql的进阶案例

spark-sql 查询报错:Invalid method name: ‘get_table_req‘