Spark性能优化第三季

Posted 靖-Drei

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark性能优化第三季相关的知识,希望对你有一定的参考价值。

一:Spark程序数据结构的优化

1,Java的对象:对象头是16个字节(例如指向对象的指针等元数据信息),如果对象只有一个int的property,则此时会占据20字节,也就是说对象的元数据占用了大部分的空间,所有在封装数据的时候尽量不要使用对象!例如说使用JSON格式来封装数据;

2,Java中的基本的数据类型会自动的封箱操作,例如int会自动变成Integer,这会额外增加对象头的空间占用;

3,Java的String在实际占用内存方面要额外使用40个字节(String的内部使用char[]来保存字符序列),另外需要注意的是String每个字符是2字节(UTF-16),如果内部有5个字符的话,实际上会占用50个字节;

4,Java中的集合List,HashMap等等其内部一般使用链表,具体的每个数据使用Entry等,这些也非常消耗内存;

5,优先使用原生数组,尽可能不要使用ArrayLiast、HashMap、LinkedList等数据结构,例如说List list = new ArrayList()需要考虑替换为int[] array = new int[];

6,优先使用String(推荐使用JSON),而不是采用HashMap、List等来封装数据,例如Map<Integer,Worker> workers = new HashMap<Integer,Worker>(),建议使用JSON字符串或者自己构建的String字符串对象,例如“id:name,salary||id:name,salary||id:name,salary”;

二:Spark内存消耗诊断

1,JVM自带众多内存消耗诊断的工具如JMAP、JCONSOLE等,第三方IBM JVM Profile Tools等;

2,在开发、测试、生产环境下用的最多的是日志?Driver产生的日志!!!最简单也是最有效就是调用RDD.cache,当进行cache操作的时候Driver上的BlockManagerMaster会记录该信息并写进日志中!!!

三:persist和checkpoint

1,当反复使用某个(些)RDD的时候强烈建议使用persist来对数据进行缓存(MEMORY_AND_DISK);

2,如果某个RDD就算特别耗时或者经历了很多步骤的计算,如果数据丢失则重新计算的代价特别大,此时考虑使用checkpoint,因为checkpoint是把数据写入HDFS,天然具有高可靠性;

1.作业:使用cache诊断内存消耗。

程序如下:

scala> val lines = sc.parallelize(Array(1,2,3,4,5,6,7,8,9))

lines: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :21

scala> lines.cache

res0: lines.type = ParallelCollectionRDD[0] at parallelize at :21

scala> lines.count

res1: Long = 9

以上是关于Spark性能优化第三季的主要内容,如果未能解决你的问题,请参考以下文章

自适应查询执行:在运行时提升Spark SQL执行性能

Android性能优化典范 - 第3季

CANN训练营第三季_基于昇腾PyTorch框架的模型训练调优_读书笔记

Spark布隆过滤器(bloomFilter)

spark的一些经验

万字宝典 |《 Spark性能优化全书》推荐收藏!