如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数?
Posted
技术标签:
【中文标题】如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数?【英文标题】:How to find duplicates in Schema RDD [created out of Case Class] in Spark Scala and respective duplicate counts? 【发布时间】:2021-09-27 01:36:37 【问题描述】:我有一个从案例类创建的模式 RDD。考虑到 Spark Scala 中的所有列和重复计数,我需要找到重复条目
【问题讨论】:
【参考方案1】:因为它是一个案例类,它会有自己的哈希函数。您可以使用它来对元素进行分组。
val yourRdd: RDD[YourCaseClass] = ???
val duplicateCountRdd: RDD[(Int, Iterable[YourCaseClass])] =
yourRdd
.groupBy(_.hashCode)
.map( case (hash, duplicates) => (duplicates.size, duplicates) )
【讨论】:
嗨@sarvesheri,我是这个 Spark Scala 的新手。你能解释一下上面的代码吗?我可以看到它返回的不同元素。以上是关于如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数?的主要内容,如果未能解决你的问题,请参考以下文章
spark dataframe 和 scala Map互相转换
Spark:使用 Spark Scala 从 Kafka 读取 Avro 消息
如何在 Spark 的 github 中查看 Functions.Scala 中的代码