Scala RDD[(String,String)] 到 RDD[String]

Posted

技术标签:

【中文标题】Scala RDD[(String,String)] 到 RDD[String]【英文标题】:Scala RDD[(String,String)] to RDD[String] 【发布时间】:2021-10-16 17:14:19 【问题描述】:

我们正在以 RDD[(String,String)] 格式读取 UTF_8 文件,需要帮助将其转换为 RDD[String]。

val textRdd = sparkSession.sparkContext.binaryFiles(filePath,12)
     .mapValues(content => new String(content.toArray(), StandardCharsets.UTF_8))

【问题讨论】:

【参考方案1】:

您只需要从元组中提取值,即(字符串,字符串)。

val outRDD = textRdd.map(t=>t._2) // To get first value use t._1

【讨论】:

以上是关于Scala RDD[(String,String)] 到 RDD[String]的主要内容,如果未能解决你的问题,请参考以下文章

Scala groupBy 获取 RDD[String, vector]

Scala - 将 RDD[String] 转换为地图

如何在 scala 中将 RDD[(int, string)] 转换为 Dataframe

如何取消嵌套具有以下类型的 spark rdd ((String, scala.collection.immutable.Map[String,scala.collection.immutable.M

Scala RDD 反向键值对

将 String RDD 转换为 Int RDD