Scala RDD[(String,String)] 到 RDD[String]
Posted
技术标签:
【中文标题】Scala RDD[(String,String)] 到 RDD[String]【英文标题】:Scala RDD[(String,String)] to RDD[String] 【发布时间】:2021-10-16 17:14:19 【问题描述】:我们正在以 RDD[(String,String)] 格式读取 UTF_8 文件,需要帮助将其转换为 RDD[String]。
val textRdd = sparkSession.sparkContext.binaryFiles(filePath,12)
.mapValues(content => new String(content.toArray(), StandardCharsets.UTF_8))
【问题讨论】:
【参考方案1】:您只需要从元组中提取值,即(字符串,字符串)。
val outRDD = textRdd.map(t=>t._2) // To get first value use t._1
【讨论】:
以上是关于Scala RDD[(String,String)] 到 RDD[String]的主要内容,如果未能解决你的问题,请参考以下文章
Scala groupBy 获取 RDD[String, vector]
如何在 scala 中将 RDD[(int, string)] 转换为 Dataframe
如何取消嵌套具有以下类型的 spark rdd ((String, scala.collection.immutable.Map[String,scala.collection.immutable.M