如何使用类型化数据集将多值列拆分为单独的行?

Posted

技术标签:

【中文标题】如何使用类型化数据集将多值列拆分为单独的行?【英文标题】:How to split multi-value column into separate rows using typed Dataset? 【发布时间】:2017-04-21 20:19:43 【问题描述】:

我面临如何将多值列(即List[String])拆分为单独行的问题。

初始数据集有以下类型:Dataset[(Integer, String, Double, scala.List[String])]

+---+--------------------+-------+--------------------+
| id|       text         | value |    properties      |
+---+--------------------+-------+--------------------+
|  0|Lorem ipsum dolor...|    1.0|[prp1, prp2, prp3..]|
|  1|Lorem ipsum dolor...|    2.0|[prp4, prp5, prp6..]|
|  2|Lorem ipsum dolor...|    3.0|[prp7, prp8, prp9..]|

生成的数据集应具有以下类型:

Dataset[(Integer, String, Double, String)]

properties 应该这样拆分:

+---+--------------------+-------+--------------------+
| id|       text         | value |    property        |
+---+--------------------+-------+--------------------+
|  0|Lorem ipsum dolor...|    1.0|        prp1        |
|  0|Lorem ipsum dolor...|    1.0|        prp2        |
|  0|Lorem ipsum dolor...|    1.0|        prp3        |
|  1|Lorem ipsum dolor...|    2.0|        prp4        |
|  1|Lorem ipsum dolor...|    2.0|        prp5        |
|  1|Lorem ipsum dolor...|    2.0|        prp6        |

【问题讨论】:

【参考方案1】:

explode 经常被建议使用,但它来自无类型的 DataFrame API,并且鉴于您使用 Dataset,我认为 flatMap 运算符可能更合适(请参阅org.apache.spark.sql.Dataset)。

flatMap[U](func: (T) ⇒ TraversableOnce[U])(implicit arg0: Encoder[U]): Dataset[U]

(特定于 Scala)返回一个新的 Dataset,方法是首先将一个函数应用于此 Dataset 的所有元素,然后将结果展平。

你可以这样使用它:

val ds = Seq(
  (0, "Lorem ipsum dolor", 1.0, Array("prp1", "prp2", "prp3")))
  .toDF("id", "text", "value", "properties")
  .as[(Integer, String, Double, scala.List[String])]

scala> ds.flatMap  t => 
  t._4.map  prp => 
    (t._1, t._2, t._3, prp) .show
+---+-----------------+---+----+
| _1|               _2| _3|  _4|
+---+-----------------+---+----+
|  0|Lorem ipsum dolor|1.0|prp1|
|  0|Lorem ipsum dolor|1.0|prp2|
|  0|Lorem ipsum dolor|1.0|prp3|
+---+-----------------+---+----+

// or just using for-comprehension
for 
  t <- ds
  prp <- t._4
 yield (t._1, t._2, t._3, prp)

【讨论】:

您也可以使用 DataFrame,但使用 DataSet 当然更好。我借用了您的示例并将其更改为 DataFrames ***.com/questions/40397740/…【参考方案2】:

你可以使用explode:

df.withColumn("property", explode($"property"))

示例

val df = Seq((1, List("a", "b"))).toDF("A", "B")   
// df: org.apache.spark.sql.DataFrame = [A: int, B: array<string>]

df.withColumn("B", explode($"B")).show
+---+---+
|  A|  B|
+---+---+
|  1|  a|
|  1|  b|
+---+---+

【讨论】:

【参考方案3】:

这是一种方法:

val myRDD = sc.parallelize(Array(
  (0, "text0", 1.0, List("prp1", "prp2", "prp3")),
  (1, "text1", 2.0, List("prp4", "prp5", "prp6")),
  (2, "text2", 3.0, List("prp7", "prp8", "prp9"))
)).map
  case (i, t, v, ps) => ((i, t, v), ps)
.flatMapValues(x => x).map
  case ((i, t, v), p) => (i, t, v, p)

【讨论】:

哦,不。这是RDD API吗?为什么人们要在 Dataset 时代这样做? 我认为 RDD 和 DataSet have their place,尽管在这种情况下我同意直接处理 DataSet 是更好的方法。

以上是关于如何使用类型化数据集将多值列拆分为单独的行?的主要内容,如果未能解决你的问题,请参考以下文章

通过 vba ms 访问将多值列的数据绑定到组合框中

使用类型在过程的输入参数中传递多值

从访问中读取多值列到c#

将多值字段作为视图/网格处理的最佳方法

如何将单独列中冒号前后的单词拆分为sql中的行

gstreamer 将多通道 wav 文件拆分为单独的通道并将每个通道编码为 mp3、alac 等并保存到文件