大数据(spark sql 和 spark dataframes 连接)
Posted
技术标签:
【中文标题】大数据(spark sql 和 spark dataframes 连接)【英文标题】:Big data(spark sql and spark dataframes connection) 【发布时间】:2020-06-08 17:20:15 【问题描述】:我是大数据平台的新手。您能否让我知道不同的方式: 1)我们如何连接到 Spark sql 的 spark? 2)我们如何连接到 spark 数据帧或数据集的 spark ?
对于 hive,我们使用 beeline 通过 unix 连接,如果我们有 sql 工具,例如:teradata,我们必须通过安装了 hive 驱动程序的 odbc 连接到 hive。
如何连接到 spark sql 和 spark 数据帧或数据集?
另外,如果有人可以为我这样的新手提供一个很好的链接或资源,以便轻松理解概念、命令及其使用。那真的很有帮助。
【问题讨论】:
【参考方案1】:要将 spark sql 与 SQL 类似的查询一起使用,您只需键入
spark-sql --master yarn # when you are testing on a Hadoop cluster
或
spark-sql --master local[2] # when you are testing on local machine
您可以简单地在spark-sql>
shell 中运行在beeline>
shell 上运行的所有查询。
或者,如果您想简单地测试一些 scala 代码:
spark-shell --master yarn # on cluster
或
spark-shell --master local[2] # on Local setup
【讨论】:
以上是关于大数据(spark sql 和 spark dataframes 连接)的主要内容,如果未能解决你的问题,请参考以下文章