大数据(spark sql 和 spark dataframes 连接)

Posted

技术标签:

【中文标题】大数据(spark sql 和 spark dataframes 连接)【英文标题】:Big data(spark sql and spark dataframes connection) 【发布时间】:2020-06-08 17:20:15 【问题描述】:

我是大数据平台的新手。您能否让我知道不同的方式: 1)我们如何连接到 Spark sql 的 spark? 2)我们如何连接到 spark 数据帧或数据集的 spark ?

对于 hive,我们使用 beeline 通过 unix 连接,如果我们有 sql 工具,例如:teradata,我们必须通过安装了 hive 驱动程序的 odbc 连接到 hive。

如何连接到 spark sql 和 spark 数据帧或数据集?

另外,如果有人可以为我这样的新手提供一个很好的链接或资源,以便轻松理解概念、命令及其使用。那真的很有帮助。

【问题讨论】:

【参考方案1】:

要将 spark sql 与 SQL 类似的查询一起使用,您只需键入

spark-sql --master yarn # when you are testing on a Hadoop cluster

spark-sql --master local[2]   # when you are testing on local machine

您可以简单地在spark-sql> shell 中运行在beeline> shell 上运行的所有查询。

或者,如果您想简单地测试一些 scala 代码:

spark-shell --master yarn # on cluster

spark-shell --master local[2] # on Local setup

【讨论】:

以上是关于大数据(spark sql 和 spark dataframes 连接)的主要内容,如果未能解决你的问题,请参考以下文章

大数据之Spark:Spark SQL

大数据学习:Spark SQL入门简介

spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析

大数据 - spark-sql 常用命令

大数据Spark SQL 快速入门(第二集)

spark sql怎么去获取hive 表一定日期范围内的数据