如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数?

Posted

技术标签:

【中文标题】如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数?【英文标题】:How to find duplicates in Schema RDD [created out of Case Class] in Spark Scala and respective duplicate counts? 【发布时间】:2021-09-27 01:36:37 【问题描述】:

我有一个从案例类创建的模式 RDD。考虑到 Spark Scala 中的所有列和重复计数,我需要找到重复条目

【问题讨论】:

【参考方案1】:

因为它是一个案例类,它会有自己的哈希函数。您可以使用它来对元素进行分组。

val yourRdd: RDD[YourCaseClass] = ???

val duplicateCountRdd: RDD[(Int, Iterable[YourCaseClass])] = 
  yourRdd
    .groupBy(_.hashCode)
    .map( case (hash, duplicates) => (duplicates.size, duplicates) )

【讨论】:

嗨@sarvesheri,我是这个 Spark Scala 的新手。你能解释一下上面的代码吗?我可以看到它返回的不同元素。

以上是关于如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数?的主要内容,如果未能解决你的问题,请参考以下文章

spark dataframe 和 scala Map互相转换

Spark:使用 Spark Scala 从 Kafka 读取 Avro 消息

如何在 Spark 的 github 中查看 Functions.Scala 中的代码

如何规范化 spark (scala) 中的列中的全角字符

如何从 Scala 中的 DataFrame 在 Spark 中创建分布式稀疏矩阵

如何在 Scala 中将数据帧转换为 Apache Spark 中的数据集?