Spark 示例程序运行很慢

Posted

技术标签:

【中文标题】Spark 示例程序运行很慢【英文标题】:Spark example program runs very slow 【发布时间】:2016-02-22 23:34:43 【问题描述】:

我尝试使用 Spark 来解决简单的图形问题。我在 Spark 源文件夹中找到了一个示例程序:transitive_closure.py,它计算不超过 200 个边和顶点的图中的传递闭包。但是在我自己的笔记本电脑上,它运行了 10 多分钟并且没有终止。我使用的命令行是:spark-submit transitive_closure.py。

我想知道为什么即使在计算这么小的传递闭包结果时 spark 这么慢?这是一个常见的情况吗?有什么我想念的配置吗?

该程序如下所示,可以在他们网站的 spark install 文件夹中找到。

from __future__ import print_function

import sys
from random import Random

from pyspark import SparkContext

numEdges = 200
numVertices = 100
rand = Random(42)


def generateGraph():
    edges = set()
    while len(edges) < numEdges:
        src = rand.randrange(0, numEdges)
        dst = rand.randrange(0, numEdges)
        if src != dst:
            edges.add((src, dst))
    return edges


if __name__ == "__main__":
    """
    Usage: transitive_closure [partitions]
    """
    sc = SparkContext(appName="PythonTransitiveClosure")
    partitions = int(sys.argv[1]) if len(sys.argv) > 1 else 2
    tc = sc.parallelize(generateGraph(), partitions).cache()

    # Linear transitive closure: each round grows paths by one edge,
    # by joining the graph's edges with the already-discovered paths.
    # e.g. join the path (y, z) from the TC with the edge (x, y) from
    # the graph to obtain the path (x, z).

    # Because join() joins on keys, the edges are stored in reversed order.
    edges = tc.map(lambda x_y: (x_y[1], x_y[0]))

    oldCount = 0
    nextCount = tc.count()
    while True:
        oldCount = nextCount
        # Perform the join, obtaining an RDD of (y, (z, x)) pairs,
        # then project the result to obtain the new (x, z) paths.
        new_edges = tc.join(edges).map(lambda __a_b: (__a_b[1][1], __a_b[1][0]))
        tc = tc.union(new_edges).distinct().cache()
        nextCount = tc.count()
        if nextCount == oldCount:
            break

    print("TC has %i edges" % tc.count())

    sc.stop()

【问题讨论】:

【参考方案1】:

这段代码在您的机器上表现不佳的原因有很多,但很可能这只是Spark iteration time increasing exponentially when using join 中描述的问题的另一种变体。检查是否确实如此的最简单方法是在提交时提供spark.default.parallelism 参数:

bin/spark-submit --conf spark.default.parallelism=2 \
  examples/src/main/python/transitive_closure.py

如无特别限定,SparkContext.unionRDD.joinRDD.union将子级的分区数设置为父级的分区总数。通常这是一种期望的行为,但如果反复应用,可能会变得非常低效。

【讨论】:

谢谢。真的很有帮助。我还有一个问题,如果您能提供帮助,我将不胜感激。假设我有一个程序在一个循环中使用许多关系操作,如连接、选择、联合、更新等,直到关系中的事实到一个固定点。即使总元组不超过 50 个,我也陷入了第二次迭代,并且 Java 堆大小异常。我在每个数据帧操作上都使用了 cache() 和 coalesce(1)。您认为可能是什么问题?【参考方案2】:

用法说命令行是

transitive_closure [partitions]

设置默认并行度只会帮助每个分区中的连接,而不是工作的初始分配。

我要争辩说应该使用更多的分区。设置默认并行度可能仍然有帮助,但您发布的代码明确设置了数字(传递的参数或 2,以较大者为准)。绝对最小值应该是 Spark 可用的内核,否则您的工作总是低于 100%。

【讨论】:

这里增加并行度没有任何价值。实际上给定的数据量,您可以通过将其减少到 1 来获得更多 :) 更不用说放弃 Spark。

以上是关于Spark 示例程序运行很慢的主要内容,如果未能解决你的问题,请参考以下文章

简单的 Spark 应用程序在 3 GB 数据上运行缓慢

zeppelin aws中的spark python错误运行程序

Spark程序进行单元测试-使用scala

Spark REST API,在Windows上提交应用程序NullPointerException

SQL Server 存储过程在 SSMS 中运行速度很快,在应用程序中运行速度很慢 [重复]

IDEA运行Java程序打印到控制台很慢,怎么提升速度?