spark记录

Posted 渚之汐酱

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark记录相关的知识,希望对你有一定的参考价值。

版本 spark2.0

1.在SparkSession类里存在变量SparkContext,而一个spark任务只能有一个SparkContext且只能存在driver里,更改参数可以设置允许存在多个SparkContext但只能有一个是激活状态。因此,不能在foreachPartition这种需要在Executor里运行的方法里使用SparkSession操作数据库,sparSession本身可以序列化传过去,但在executor里sparSession的SparkContext为null,会报空指针异常。

2.spark每次获取kafka的数量可以通过配置参数“spark.streaming.kafka.maxRatePerPartition”设置(kafka的每个分区每秒获取数据的最大数量),间隔时间可以通过JavaStreamingContext初始化的时候设置,spark每次获取kafka的数量最大数量是 spark获取kafka间隔时间 x 参数“spark.streaming.kafka.maxRatePerPartition” x kafka分区数量

以上是关于spark记录的主要内容,如果未能解决你的问题,请参考以下文章

Spark源码研读-散篇记录:SparkConf

spark记录Spark初始

读取有序文件时,Spark 是不是保留记录顺序?

Spark - 将数据帧分成n条记录

Spark记录-spark-submit学习

Spark2.0学习记录