RDD转dataframe

Posted muyue123

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RDD转dataframe相关的知识,希望对你有一定的参考价值。

from pyspark.sql import SparkSession,Row
from pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType
data = [(Alex,male,3),(Nancy,female,6),[Jack,male,9]] # mixed
rdd_ = spark.sparkContext.parallelize(data)

# schema
schema = StructType([
        # true代表不为空
        StructField("name", StringType(), True),
        StructField("gender", StringType(), True),
        StructField("num", StringType(), True)
    ])
df = spark.createDataFrame(rdd_, schema=schema)  # working when the struct of data is same.
print(df.show()) 

 

以上是关于RDD转dataframe的主要内容,如果未能解决你的问题,请参考以下文章

数据框架到RDD这段代码无法工作。

spark sql 之 RDD与DataFrame互相转化

SparkSQL 之旅

RDDDataFrame与DataSet的相互转换

将 Dataframe 转换为 RDD 减少了分区

Dataframe.rdd.map().collect 在 PySpark 中不起作用 [重复]