Spark编程--Spark SQL DataFrame

Posted conquorer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark编程--Spark SQL DataFrame相关的知识,希望对你有一定的参考价值。

DataFrame与RDD的区别

技术图片

从示例文件people.json中创建DataFrame,保存成csv格式的文件

package com.zwq
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession;
object DataFrame {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("DataFrameApp")
    val spark = SparkSession.builder().config(conf).getOrCreate()
    import spark.implicits._

    // val df  = spark.read.json("resources/people.json")
    // df.show()
    val peopleDF = spark.read.format("json").load("resources/people.json")
    peopleDF.select("name", "age").write.format("csv").save("resources/people.csv")
  }
}

DataFrame常用操作

df.printSchema 打印模式信息

df.select(df("name"), df("age")+1).show()

df.filter(df("age">20).show()

df.groupBy("age").count().show()

//排序

df.sort(df("age").desc).show()

//多列排序

df.sort(df("age").desc, df("name").asc).show()

//对列进行重命名

df.select(df("name").as("username"), df("age")).show()

 

以上是关于Spark编程--Spark SQL DataFrame的主要内容,如果未能解决你的问题,请参考以下文章

第五周周二练习:实验 5 Spark SQL 编程初级实践

Spark学习记录:Spark SQL编程

DataFrame编程模型初谈与Spark SQL

Spark SQL 编程

Spark Graphx编程指南

Spark Window Functions 需要 HiveContext?