使用python对pyspark数据帧进行转置操作

Posted

技术标签:

【中文标题】使用python对pyspark数据帧进行转置操作【英文标题】:Transpose operation on pyspark data frame using python 【发布时间】:2017-08-10 11:56:08 【问题描述】:

我是 python 和 pyspark 的新手,我使用 pandas df.T 完成了转置操作。我发现对pyspark数据框没有直接操作(pyspark版本= 2.2.0和python版本= 3.6.2)

我正在使用以下代码为上述操作加载一个 CSV 文件

from pyspark.sql import SQLContext sql = SQLContext(spark_context) path = 'sample.csv' df = (sql.read.format("com.databricks.spark.csv").option("header","true").option("inferSchema", "true").load(path))

【问题讨论】:

你有什么问题? 我想对pysaprk数据帧进行转置操作 Transpose column to row with Spark的可能重复 【参考方案1】:

您的数据架构是什么?

如果它是某种稀疏矩阵,您可以使用常规 RDD 加载并映射 + 交换您的坐标。

【讨论】:

以上是关于使用python对pyspark数据帧进行转置操作的主要内容,如果未能解决你的问题,请参考以下文章

使用 pyspark 和 aws 胶水进行数据转置

PySpark 数据帧操作导致 OutOfMemoryError

pyspark对Mysql数据库进行读写

如何在 pyspark 数据帧上应用 group by 并对结果对象进行转换

使 Spark 结构化流中的 JSON 可以在 python (pyspark) 中作为没有 RDD 的数据帧访问

按组规范化pyspark数据帧