PySpark 在 Dataframe 列中插入一个常量 SparseVector

Posted

技术标签:

【中文标题】PySpark 在 Dataframe 列中插入一个常量 SparseVector【英文标题】:PySpark insert a constant SparseVector in a Dataframe column 【发布时间】:2019-01-15 10:18:35 【问题描述】:

我希望在我的数据框tfIdfFr 中插入一个名为"ref" 的列,其类型为pyspark.ml.linalg.SparseVector

当我尝试这个时

ref = tfidfTest.select("features").collect()[0].features # the reference
tfIdfFr.withColumn("ref", ref).select("ref", "features").show()

我收到此错误AssertionError: col should be Column

当我尝试这个时:

from pyspark.sql.functions import lit
tfIdfFr.withColumn("ref", lit(ref)).select("ref", "features").show()

我收到了那个错误AttributeError: 'SparseVector' object has no attribute '_get_object_id'

您知道在 Dataframe 列中插入常量 SparseVector 的解决方案吗?*

【问题讨论】:

【参考方案1】:

在这种情况下,我会跳过收集:

ref = tfidfTest.select(col("features").alias("ref")).limit(1)
tfIdfFr.crossJoin(ref)

一般你可以使用udf:

from pyspark.ml.linalg import DenseVector, SparseVector, Vector, Vectors, \
 VectorUDT 
from pyspark.sql.functions import udf

def vector_lit(v): 
    assert isinstance(v, Vector) 
    return udf(lambda: v, VectorUDT())() 

用法:

spark.range(1).select(
  vector_lit(Vectors.sparse(5, [1, 3], [-1, 1])
).alias("ref")).show()
+--------------------+
|                 ref|
+--------------------+
|(5,[1,3],[-1.0,1.0])|
+--------------------+
spark.range(1).select(vector_lit(Vectors.dense([1, 2, 3])).alias("ref")).show() 
+-------------+
|          ref|
+-------------+
|[1.0,2.0,3.0]|
+-------------+

也可以使用中间表示:

import json
from pyspark.sql.functions import from_json, lit
from pyspark.sql.types import StructType, StructField

def as_column(v):
    assert isinstance(v, Vector) 
    if isinstance(v, DenseVector):
        j = lit(json.dumps("v": 
          "type": 1,
          "values": v.values.tolist()
        ))
    else:
        j = lit(json.dumps("v": 
          "type": 0,
          "size": v.size,
          "indices": v.indices.tolist(),
          "values": v.values.tolist()
        ))
    return from_json(j, StructType([StructField("v", VectorUDT())]))["v"]

用法:

spark.range(1).select(
    as_column(Vectors.sparse(5, [1, 3], [-1, 1])
 ).alias("ref")).show()  
+--------------------+
|                 ref|
+--------------------+
|(5,[1,3],[-1.0,1.0])|
+--------------------+
spark.range(1).select(as_column(Vectors.dense([1, 2, 3])).alias("ref")).show()
+-------------+
|          ref|
+-------------+
|[1.0,2.0,3.0]|
+-------------+

【讨论】:

以上是关于PySpark 在 Dataframe 列中插入一个常量 SparseVector的主要内容,如果未能解决你的问题,请参考以下文章

如何将日期转换为 PySpark Dataframe 列中的第一天?

正则表达式在 PySpark Dataframe 列中查找所有不包含 _(Underscore) 和 :(Colon) 的字符串

PySpark查找另一列中是否存在一列中的模式

批量从Dataframe插入到DB,忽略Pyspark中的失败行

PySpark DataFrame的逐行聚合

从 pyspark 中的数据框数组类型列中获取“名称”元素