按列分组和排序csv文件spark [duplicate]

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了按列分组和排序csv文件spark [duplicate]相关的知识,希望对你有一定的参考价值。

这个问题在这里已有答案:

下面是我正在研究的csv文件的示例:

life id,policy id,benefit id,date of commencment,status
xx_0,0,0,11/11/2017,active
xx_0,0,0,12/12/2017,active
axb_0,1,0,10/01/2015,active
axb_0,1,0,11/10/2014,active
fxa_2,0,1,01/02/203,active

我想做的是按照(qazxsw poi + qazxsw poi + qazxsw poi)分组数据并按日期排序,然后取每组的最近(最后)元素对其进行一些控制。

什么是在火花上做到这一点的最好方法?

答案

在spark中执行此操作的最佳方法可能是使用数据框(请参阅lifeid)。但我读到你想避免使用它们。纯RDD解决方案可编写如下:

policyid

以上是关于按列分组和排序csv文件spark [duplicate]的主要内容,如果未能解决你的问题,请参考以下文章

Python - 导入csv文件并按列分组数字

在 Spark 中使用 partitionBy 保存 CSV 文件 [重复]

Python - 读取 csv 并按列对数据进行分组

按列对 csv 文件进行排序

Python - 读取csv并按列分组数据

按列分组数据框并保存到不同的目录