大数据（spark sql 和 spark dataframes 连接）

Posted 2023-04-18

技术标签:

【中文标题】大数据（spark sql 和 spark dataframes 连接）【英文标题】：Big data(spark sql and spark dataframes connection) 【发布时间】：2020-06-08 17:20:15 【问题描述】：

我是大数据平台的新手。您能否让我知道不同的方式： 1）我们如何连接到 Spark sql 的 spark？ 2）我们如何连接到 spark 数据帧或数据集的 spark ？

对于 hive，我们使用 beeline 通过 unix 连接，如果我们有 sql 工具，例如：teradata，我们必须通过安装了 hive 驱动程序的 odbc 连接到 hive。

如何连接到 spark sql 和 spark 数据帧或数据集？

另外，如果有人可以为我这样的新手提供一个很好的链接或资源，以便轻松理解概念、命令及其使用。那真的很有帮助。

【问题讨论】：

【参考方案1】：

要将 spark sql 与 SQL 类似的查询一起使用，您只需键入

spark-sql --master yarn # when you are testing on a Hadoop cluster

或

spark-sql --master local[2]   # when you are testing on local machine

您可以简单地在spark-sql> shell 中运行在beeline> shell 上运行的所有查询。

或者，如果您想简单地测试一些 scala 代码：

spark-shell --master yarn # on cluster

或

spark-shell --master local[2] # on Local setup

【讨论】：

以上是关于大数据（spark sql 和 spark dataframes 连接）的主要内容，如果未能解决你的问题，请参考以下文章