按列分组和排序csv文件spark [duplicate]
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了按列分组和排序csv文件spark [duplicate]相关的知识,希望对你有一定的参考价值。
这个问题在这里已有答案:
下面是我正在研究的csv文件的示例:
life id,policy id,benefit id,date of commencment,status
xx_0,0,0,11/11/2017,active
xx_0,0,0,12/12/2017,active
axb_0,1,0,10/01/2015,active
axb_0,1,0,11/10/2014,active
fxa_2,0,1,01/02/203,active
我想做的是按照(qazxsw poi + qazxsw poi + qazxsw poi)分组数据并按日期排序,然后取每组的最近(最后)元素对其进行一些控制。
什么是在火花上做到这一点的最好方法?
答案
在spark中执行此操作的最佳方法可能是使用数据框(请参阅lifeid
)。但我读到你想避免使用它们。纯RDD解决方案可编写如下:
policyid
以上是关于按列分组和排序csv文件spark [duplicate]的主要内容,如果未能解决你的问题,请参考以下文章