有spark大佬知道下面这个代码哪里可以优化吗?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有spark大佬知道下面这个代码哪里可以优化吗?相关的知识,希望对你有一定的参考价值。

from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName('appName').setMaster('Local[4]')
sc = SparkContext.getOrCreate(conf)

rdd = sc.textFile('books.txt',4)
first= rdd.first()
rdd1 = rdd.filter(lambda x: x!=first)
rdd2 = rdd1.map(lambda line: line.split('\t'))
rdd3 = rdd2.map(lambda x:(x[1],1))
rdd4 = rdd3.reduceByKey(lambda x,y: x+y)
rdd5 = rdd4.filter(lambda x: x[1] != 1)
res = rdd5.collect()
print(res)

    在每个 RDD 上的操作都被映射到了 RDD 上的所有分区中的每个元素,所以如果能将几个操作合并到一起,就可以减少分区数量。例如,可以将 rdd2 和 rdd3 合并成一个操作。

    在 rdd1 上的 filter 操作中,如果第一行是文件中的第一行,那么这个 filter 操作将会在所有分区中进行,因此可以将其改为在读取文件时直接跳过第一行。

    在 rdd4 上的 reduceByKey 操作之后,可以考虑使用 sortByKey 操作来将结果按照键排序,而不是在最后使用 collect 操作来将所有数据加载到内存中并排序。

最后优化后的代码如下:

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName('appName').setMaster('Local[4]')

sc = SparkContext.getOrCreate(conf)

rdd = sc.textFile('books.txt', 4)

rdd1 = rdd.map(lambda line: line.split('\\t')) \\

.filter(lambda x: x[0] != 'title') \\

.map(lambda x: (x[1], 1)) \\

.reduceByKey(lambda x, y: x + y) \\

.sortByKey()

res = rdd1.collect()

print(res)

参考技术A 之所以没有被作为默认的序列化类库的原因,主要是因为Kryo要求,如果要达到它的最佳性能的话,那么就一定要注册你自定义的类 参考技术B 本文将介绍 CBO,它充分考虑了数据本身的特点(如大小、分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan。 参考技术C 第二个图上看到下面所有的Locality Level 都为: NODE_LOCAL
第一个图上的调度很多的task也是NODE_LOCAL

Spark Streaming 在哪里运行?

【中文标题】Spark Streaming 在哪里运行?【英文标题】:Where does Spark Streaming run? 【发布时间】:2017-01-24 17:18:05 【问题描述】:

据我了解,Spark 可以使用 Spark Streaming 分析流。 Kafka 可以接收来自多个来源的数据。 我不明白的是,如果我有一个 Kafka 集群从多个源接收数据,数据会发送到运行 Spark Streaming 的数据库吗?还是 Spark Streaming 在应用服务器上运行?

【问题讨论】:

您可以尝试将Spark集群部署在Kafka(Zookeeper)同一个集群中。我们在生产中的环境很少,一个是 Kafka + zookeeper(在同一个集群中)和 spark 独立的独立集群的主要优点是维护(版本升级,......)但我们也有在生产中运行的 Kafka zookeeper 和 Apache Storm 在同一个集群上(物理服务器100T)。您可以尝试将 Spark(作为独立的一个 jar)添加到您的 Kafka 集群(具有所有必要的配置端口,...)。 另外忘记添加,如果你是运行在 Kubernetes 或 Mesos 上,那么无论你使用哪个服务器,资源管理都会由它们来完成。 【参考方案1】:

如果您使用 Spark Streaming,则需要设置一个 Spark 集群,然后将 Spark Streaming 作业提交到集群。因此,您将需要 2 个集群:Kafka + Spark(或者实际上是 3 个,因为您还需要一个用于 Kafka 的 Zookeeper 集群)。

【讨论】:

所以如果我有一个 spark 集群,那么 spark 作业是在应用服务器上运行的吗?并以 mapreduce 样式分发到 spark 集群?

以上是关于有spark大佬知道下面这个代码哪里可以优化吗?的主要内容,如果未能解决你的问题,请参考以下文章

35个Java代码优化的细节,你知道几个?

P8大佬的 62条SQL优化策略,太牛X了!! 收藏起来有大用!!!

Spark 多类分类示例

在哪里可以找到 Spark SQL 语法参考? [关闭]

spark性能优化:shuffle调优

Spark ALS转换性能