Pyspark 将 RowMatrix 转换为 DataFrame 或 RDD

Posted

技术标签:

【中文标题】Pyspark 将 RowMatrix 转换为 DataFrame 或 RDD【英文标题】:Pyspark converting RowMatrix to DataFrame or RDD 【发布时间】:2016-11-17 15:42:10 【问题描述】:

我有一个方形 pyspark RowMatrix,看起来像这样:

>>> row_mat.numRows()
100
>>> row_mat.numCols()
100
>>> row_mat.rows.first()
SparseVector(100, 0: 0.0, 1: 0.0018, 2: 0.1562, 3: 0.0342...)

我想运行pyspark.ml.feature.PCA,但它的fit() 方法只接受DataFrame。有没有办法将此RowMatrix 转换为DataFrame

或者有更好的方法吗?

【问题讨论】:

【参考方案1】:

用途:

row_mat.rows.map(lambda x: (x, )).toDF()

【讨论】:

谢谢!这真的很快,正是我想要的。

以上是关于Pyspark 将 RowMatrix 转换为 DataFrame 或 RDD的主要内容,如果未能解决你的问题,请参考以下文章

如何将 json 转换为 pyspark 数据帧(更快的实现)[重复]

将列表转换为pyspark中的数据框列

pySpark - 在插入数据库之前将整个数据框列转换为 JSON 对象

Pyspark:将 sql 查询转换为 pyspark?

将列表转换为 pyspark 数据框

将 pyspark 数据框转换为 python 字典列表