GroupBy 多列作为键并对多列求和,如 sql?

Posted

技术标签:

【中文标题】GroupBy 多列作为键并对多列求和,如 sql?【英文标题】:GroupBy multiple columns as key and sum multiple columns like sql? 【发布时间】:2019-07-08 19:59:32 【问题描述】:

我使用的是 scala 2.12。

我有一个案例类如下:

case class MyClass(date: java.util.Date, book: String, priceLocal: Double, priceConv: Double)

我可以根据日期和书籍进行分组。

例如,对于:

val listOfMyClass = List(
  MyClass(20190708, "book1", 100, 120),
  MyClass(20190708, "book1", 200, 220),
  MyClass(20190708, "book2", 50, 60),
  MyClass(20190708, "book2", 60, 70)
)

val groupedData = listOfMyClass.groupBy(t => (t.date, t.book))

我想要 SQL 中的数据:

(20190708, "book1", 300, 340)
(20190708, "book2", 110, 130)

我可以对一列进行映射和求和,但不能同时使用这两列。

val groupedDataSum = listOfMyClass.groupBy(t => (t.date, t.book)).mapValues(_.map(_.priceLocal).sum)

但是如何将第二列也用作总和?

【问题讨论】:

【参考方案1】:

您可以混合使用groupBy(按日期和书籍对元素进行分组)和reduce 来累积分组值:

// val list = List(
//   MyClass(Date(2019, 7, 8), "book1", 100, 120),
//   MyClass(Date(2019, 7, 8), "book1", 200, 220),
//   MyClass(Date(2019, 7, 8), "book2", 50, 60),
//   MyClass(Date(2019, 7, 8), "book2", 60, 70)
// )
list
  .groupBy  case MyClass(date, book, _, _) => (date, book) 
  .mapValues  values =>
    values
      .map  case MyClass(_, _, priceLocal, priceConv) => (priceLocal, priceConv) 
      .reduce((x, y) => (x._1 + y._1, x._2 + y._2))
  
  .map  case ((date, book), (priceLocal, priceConv)) =>
    (date, book, priceLocal, priceConv)
  
// List(
//   (Date(2019, 7, 8), "book1", 300, 340),
//   (Date(2019, 7, 8), "book2", 110, 130)
// )

这个:

按日期和书籍对字符进行分组 (groupBy)

按以下方式映射每个分组值 (mapValues):

将值映射为价格元组 并通过逐部分求和来减少这些元组

将元组(日期、书籍)映射到元组(价格、价格)到 4 个元素的元组

【讨论】:

谢谢,这帮助很大。我现在可以使用了。【参考方案2】:

您可以将priceLocalpriceConv 设为元组,然后按元素设置reduce 来对各个元组元素求和:

listOfMyClass.groupBy(t => (t.date, t.book)).mapValues(
  _.map(s => (s.priceLocal, s.priceConv)).
    reduce((acc, x) => (acc._1 + x._1, acc._2 + x._2))
)

【讨论】:

感谢大家的协助。在我的情况下减少将起作用。接受第一个答案,因为我尝试了它并且它的工作。【参考方案3】:

mapValues 后跟 reduce 应该可以解决问题。这是一个示例代码。

  val grouped = listOfMyClass.groupBy(t => (t.date, t.book))
    .mapValues(lst => lst.reduce((m1, m2) => 
      MyClass(m1.date, m1.book, m1.priceLocal + m2.priceLocal, m1.priceConv + m2.priceConv))).values

这会返回一个迭代器到 MyClass 实例的简化列表。

【讨论】:

感谢大家的协助。在我的情况下减少将起作用。接受第一个答案,因为我尝试了它并且它的工作。【参考方案4】:

要获得您说需要的类似 SQL 的输出,您只需对 mapValuesreduce 操作生成的 Map[(Date,String],(Double, Double)] 执行最后一个映射。

listOfMyClass groupBy(a => (a.date, a.book)) 
mapValues(a => a.map(e => (e.priceConv, e.priceLocal)) reduce((a,b) => (a._1+b._1, a._2+b._2)))
map (x => (x._1._1, x._1._2, x._2._1, x._2._1)) //final map will give you the SQL-type output you were looking for

【讨论】:

感谢大家的协助。在我的情况下减少将起作用。接受第一个答案,因为我尝试了它并且它的工作。

以上是关于GroupBy 多列作为键并对多列求和,如 sql?的主要内容,如果未能解决你的问题,请参考以下文章

Groupby对python中的多列求和并计数

对 SQL 中多列中的行计数求和的查询

如何在 SQL 中对多列求和

如何对sql查询引用组中的多列求和

将滚动功能应用于多列的 groupby

如何对按客户分组的多列和多行求和