DataFrame DataSet Spark SQL学习
Posted blog-lmk
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DataFrame DataSet Spark SQL学习相关的知识,希望对你有一定的参考价值。
RDD加上结构,比如说类名,就可以变成DataFrame,DataFrame,将每一类同这一类的类名绑定在一起就可以称为DataSet.
spark sql 就是来处理dataframe和dataset这样的结构数据的。
spark sql使用的时候需要提供spark session环境。
// Spark 初始化 val sparkConf = new SparkConf() .setAppName("logv_learning") .setMaster("local") val sparkContext = new SparkContext(sparkConf) val sparkSession = SparkSession.builder().config(sparkConf) .getOrCreate()
上面的代码是创建sparkcontext sparkconf sparksession的创建方法。
dataFrame的创建方式有三种,通过spark的数据源,直接读取之后就是dataframe类型了。
二是从一个存在的rdd创建,通过toDF方法,方法中的参数是你为数据每一列加的列名。
三是从Hive Table进行查询返回。
spark sql既可以通过传统sql的方式来进行查询,也可以使用DSL风格,类似于:
df.select("name").show()的感觉,感觉和MongoDB提供给go语言的接口相似
以上是关于DataFrame DataSet Spark SQL学习的主要内容,如果未能解决你的问题,请参考以下文章
Spark——RDD和DataFrame和DataSet三者间的区别
`filter`/`where` 有条件地应用到 Spark `Dataset`/`Dataframe`