Spark中sortByKey是如何进行全局排序的
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark中sortByKey是如何进行全局排序的相关的知识,希望对你有一定的参考价值。
参考技术A 首先有一个问题有一台服务器:24core 128G内存,要处理一个1T的数据怎么办?
要采用拆分策略,将1T的数据拆分成128G大小的块进入服务器计算。
1T数据拆分成了8个块P1-P8
而且要使P1的数据全部小于P2 P2数据全部小于P3以此类推
这就是分而治之的思想
在sortByKey之前将数据使用partitioner根据数据范围来分区,使得p1所有数据小于p2,p2所有数据小于p3。然后利用sortByKey算子对每一个partition进行分区,这样全局的数据就被排序了
以上是关于Spark中sortByKey是如何进行全局排序的的主要内容,如果未能解决你的问题,请参考以下文章
大数据:Spark 算子排序算子sortByKey来看大数据平台下如何做排序