Spark中sortByKey是如何进行全局排序的

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark中sortByKey是如何进行全局排序的相关的知识,希望对你有一定的参考价值。

参考技术A 首先有一个问题
有一台服务器:24core 128G内存,要处理一个1T的数据怎么办?

要采用拆分策略,将1T的数据拆分成128G大小的块进入服务器计算。
1T数据拆分成了8个块P1-P8
而且要使P1的数据全部小于P2 P2数据全部小于P3以此类推

这就是分而治之的思想

在sortByKey之前将数据使用partitioner根据数据范围来分区,使得p1所有数据小于p2,p2所有数据小于p3。然后利用sortByKey算子对每一个partition进行分区,这样全局的数据就被排序了

以上是关于Spark中sortByKey是如何进行全局排序的的主要内容,如果未能解决你的问题,请参考以下文章

大数据:Spark 算子排序算子sortByKey来看大数据平台下如何做排序

Spark 使用sortByKey进行二次排序

如何在 Scala Spark 中对 RDD 进行排序?

spark wordcont Spark: sortBy和sortByKey函数详解

如何在 Apache Spark 上对整数列表进行排序?

spark常用转换操作:sortByKey()和sortBy()