使用python对pyspark数据帧进行转置操作
Posted
技术标签:
【中文标题】使用python对pyspark数据帧进行转置操作【英文标题】:Transpose operation on pyspark data frame using python 【发布时间】:2017-08-10 11:56:08 【问题描述】:我是 python 和 pyspark 的新手,我使用 pandas df.T
完成了转置操作。我发现对pyspark数据框没有直接操作(pyspark版本= 2.2.0和python版本= 3.6.2)
我正在使用以下代码为上述操作加载一个 CSV 文件
from pyspark.sql import SQLContext
sql = SQLContext(spark_context)
path = 'sample.csv'
df = (sql.read.format("com.databricks.spark.csv").option("header","true").option("inferSchema", "true").load(path))
【问题讨论】:
你有什么问题? 我想对pysaprk数据帧进行转置操作 Transpose column to row with Spark的可能重复 【参考方案1】:您的数据架构是什么?
如果它是某种稀疏矩阵,您可以使用常规 RDD 加载并映射 + 交换您的坐标。
【讨论】:
以上是关于使用python对pyspark数据帧进行转置操作的主要内容,如果未能解决你的问题,请参考以下文章
PySpark 数据帧操作导致 OutOfMemoryError
如何在 pyspark 数据帧上应用 group by 并对结果对象进行转换