PySpark 在文本文件中读取为密集向量

Posted 2023-04-15

技术标签:

【中文标题】PySpark 在文本文件中读取为密集向量【英文标题】：PySpark read in a textfile as Dense vectors 【发布时间】：2017-10-30 18:57:23 【问题描述】：

我正在使用 PySpark 并尝试加载以下格式的文件，其中每一行都是一个计数向量

[1394, 56692, 0, 10, 22]
[0, 0, 0, 0, 0]
[2235, 123, 678, 0, 999]

我正在尝试使用sc.textFile(path/to/counts.txt) 将其加载到 Spark 中。如何将文件的每一行转换为类似于以下格式的 pyspark ML 矢量？我假设它是一个 lambda 函数，但不确定如何将字符串转换为 ML Vector。

from pyspark.ml.linalg import Vectors as MLVectors
data = [(MLVectors.dense([0.0, 1.0, 0.0, 7.0, 0.0]),), 
(MLVectors.dense([2.0, 0.0, 3.0, 4.0, 5.0]),), (MLVectors.dense([4.0, 0.0, 
0.0, 6.0, 7.0]),)]

【问题讨论】：

您的文本文件中的数字实际上是否包含在[ ] 中，或者它们只是每行用逗号分隔的 5 个数字？附在 [ ] 基本上，我可以将向量放入任何格式，但现在它们是那种格式。我遇到的问题是 sc.textfile 不像 Python 中的 readcsv 函数那么简单。 【参考方案1】：

您可以使用map 处理每一行

import re
from pyspark.ml.linalg import Vectors as MLVectors
rdd = sc.textFile("path/to/counts.txt")\
    .map(lambda l: MLVectors.dense([int(x) for x in (re.sub("[\[\]]", "", l).split(","))]))
rdd.take(3)

    [DenseVector([1394.0, 56692.0, 0.0, 10.0, 22.0]),
     DenseVector([0.0, 0.0, 0.0, 0.0, 0.0]),
     DenseVector([2235.0, 123.0, 678.0, 0.0, 999.0])]

数据框

import pyspark.sql.functions as psf
from pyspark.ml.feature import VectorAssembler
df = spark.read.csv("path/to/counts.txt")
df = df.select([psf.regexp_replace(c, '[\]\[]', '').cast("float").alias(c) for c in df.columns])
va = VectorAssembler(inputCols=df.columns, outputCol="vector")
df2 = va.transform(df)

【讨论】：

非常感谢，这回答了问题！我赞成该解决方案，但不幸的是，在它公开出现之前我需要更多的声誉。我问这个问题的原因是创建一个类似于 df = sqlContext.createdataframe(data, "features") 的数据框，为此我需要添加一个额外的步骤并使用 toDF 函数，所以 rdd.map(lambda x: (x, )).toDF(["features"]) 然后可以将其加载到其他函数中。如果您打算将其转换为数据框，您应该考虑像 csv 一样加载它并使用vectorAssembler。查看我的更新答案希望对您有所帮助！不要忘记将您的问题标记为已解决:) 谢谢@desertnaut，感激不尽

以上是关于PySpark 在文本文件中读取为密集向量的主要内容，如果未能解决你的问题，请参考以下文章