RDD转换为DataFrame

Posted 2022-05-23 鄙人阿彬

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RDD转换为DataFrame相关的知识，希望对你有一定的参考价值。

spark官方提供了两种方法实现从RDD转换到DataFrame。第一种方法是利用反射机制来推断包含特定类型对象的Schema，这种方式适用于对已知的数据结构的RDD转换；第二种方法通过编程接口构造一个 Schema ，并将其应用在已知的RDD数据中。

（一）反射机制推断Schema

在Windows系统下开发Scala 代码,可以使用本地环境测试,因此首先需要在本地磁
盘准备文本数据文件，这里将HD FS中的/spark/person.txt文件下载到本地D:/spark person.txt路径下。从文件4-1可!以看出，当前数据文件共3列，可以非常容易地分析出这3列分别是编号、姓名、年龄。但是计算机无法像人一样直观地感受字段的实际含义，因此需要通过反射机制来推断包含特定类型对象的Schema信息。

接下来打开IDEA开发工具，创建名为 spark01 的Maven工程，讲解实现反射机制推断Schema的开发工具。

1、添加 Spark SQL 依赖，代码如下：

<dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_2.11</artifactId>

<version>2.3.2</version>

</dependency>

2、编写代码：

文件名：CaseClassSchema.scala

package cn.itcast

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.DataFrame, Row,SparkSession

//定义样例类
case class Person(id:Int,name:String,age:Int)

object CaseClassSchema 
  def main(args: Array[String]): Unit = 
    //构建SparkSession
    val spark : SparkSession = SparkSession.builder()
      .appName("CaseClassSchema")
      .master("local[2]")
      .getOrCreate()
    //获取SparkContext
    val sc : SparkContext = spark.sparkContext

    //设置日志打印级别
    sc.setLogLevel("WARN")

    //读取文件
    val data:RDD[Array[String]]=
      sc.textFile("D://spark//person.txt").map(x=>x.split(" "))

    //将RDD与样例类关联
    val personRdd : RDD[Person] = data.map(x=>Person(x(0).toInt,x(1),x(2).toInt))

    //获取DataFrame
    //手动导入隐式转换
    import spark.implicits._
    val personDF : DataFrame = personRdd.toDF

    //------------DSL风格操作开始----------
    // 显示DataFrame的数据，默认显示20行
    personDF.show()

    //显示DataFrame的schema信息
    personDF.printSchema()
    //统计DataFrame中年龄大于30岁的人
    println(personDF.filter($"age">30).count())
    //-----------------DSL风格操作结束------------

    //----------------SQL风格操作开始-------------
    //将DataFrame注册成表
    personDF.createOrReplaceTempView("t_person")
    spark.sql("select * from t_person").show()
    spark.sql("select * from t_person where name='kuli'").show()
    //---------------------SQL风格操作结束--------------------
    //关闭资源操作
    sc.stop()
    spark.stop()

运行结果：

（二）编程方式定义Schema

当case类不能提前定义的时候，就需要采用编程方式定义Schema信息，定义DataFrame主要包含3个步骤，具体如下:

(1)创建一个Row对象结构的RDD;(2)基于StructType类型创建Schema;

(3)通过SparkSession提供的createDataFrame(()方法来拼接Schema。

根据上述步骤，创建 SparkSqlSchema.scala文件,使用编程方式定义Schema信息的具体代码如文件所示。

文件名：SparkSqlSchema.scala

package cn.itcast


import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.DataFrame, Row, SparkSession
import org.apache.spark.sql.types.StructType, StructField, StringType,IntegerType
object SparkSqlSchema 
  def main(args: Array[String]): Unit = 
    // 创建SparkSeeion
    val spark : SparkSession = SparkSession.builder()
      .appName("SparkSqlSchema")
      .master("local[2]")
      .getOrCreate()

    // 获取sparkContext对象
    val sc : SparkContext = spark.sparkContext

    //设置日志打印级别
    sc.setLogLevel("WARN")

    //加载数据
    val dataRDD : RDD[String] = sc.textFile("D://spark//person.txt")

    // 切分每一行
    val dataArrayRDD : RDD[Array[String]] = dataRDD.map(_.split(" "))

    //加载数据到Row对象中
    val personRDD : RDD[Row] = dataArrayRDD.map(x=>Row(x(0).toInt,x(1),x(2).toInt))

    //创建Schema
    val schema : StructType = StructType(Seq(
      StructField("id",IntegerType,false),
      StructField("name",StringType,false),
      StructField("age",IntegerType,false)
    ))
    //利用personRDD与Schema创建DataFrame
    val personDF : DataFrame = spark.createDataFrame(personRDD,schema)

    //DSL操作显示DataFrame的数据结果
    personDF.show()

    //将DataFrame注册成表
    personDF.createOrReplaceTempView("t_person")

    //sql语句操作
    spark.sql("select * from t_person").show()

    //关闭资源
    sc.stop()
    spark.stop()

运行结果：

以上是关于RDD转换为DataFrame的主要内容，如果未能解决你的问题，请参考以下文章