如何将 CSV 数据转换为 LabelledPoint 格式?

Posted

技术标签:

【中文标题】如何将 CSV 数据转换为 LabelledPoint 格式?【英文标题】:How to convert CSV data into LabelledPoint format? 【发布时间】:2016-06-09 10:59:51 【问题描述】:

在此处提供的示例http://spark.apache.org/docs/latest/mllib-clustering.html#streaming-k-means 中,数据已经是 LabelledPoint 格式,但我有一个 csv 文件,其中包含单独的标签和特征列(它们都是文本)。

【问题讨论】:

【参考方案1】:

没有将 CSV 转换为 LabeledPoint 的直接方法。

这是我常用的代码:

val csv = sc.textFile("PATH/TO/CSVFILE")

val lPoint = csv.map  line =>
  val values = line.split(",").map(_.toDouble)
  val features = Vectors.dense(values.init)
  //Assuming that the label is always in the last column.
  val label = values.last
  LabeledPoint(label, features)

【讨论】:

这是在 Scala 中,而最初的问题是要求 Python 实现

以上是关于如何将 CSV 数据转换为 LabelledPoint 格式?的主要内容,如果未能解决你的问题,请参考以下文章

如何将lmd文件转换为csv? 【流式细胞仪数据】

如何将包含 JSON 的输入 CSV 数据转换为 spark 数据集?

如何将csv文件转换为numpy数组格式?

如何自动将csv转换为pandas?

如何使用熊猫将csv转换为字典

如何将 JSON 转换为 CSV 格式并存储在变量中