pyspark 下 Spark Streaming 启动监听文件流 时报错及解决方法。

Posted ray-lei

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark 下 Spark Streaming 启动监听文件流 时报错及解决方法。相关的知识,希望对你有一定的参考价值。

写好对文件流的监听脚本

执行ssc.start() 时报错显示:

An error occurred while calling z:org.apache.spark.streaming.api.python.PythonDStream.callForeachRDD.

无法启动监听进程

在环境变量中添加:

export SPARK_YARN_USER_ENV=PATHONHASHSEED=0

使环境变量生效。

 

以上是关于pyspark 下 Spark Streaming 启动监听文件流 时报错及解决方法。的主要内容,如果未能解决你的问题,请参考以下文章

即使使用较旧的 spark 版本,也没有名为“pyspark.streaming.kafka”的模块

Spark 2.1 Structured Streaming - 使用 Kakfa 作为 Python 的源 (pyspark)

使用 pyspark 在 Spark Streaming 中的 to.JSON()

zeppelin中运行spark streaming kakfa & 实时可视化

Spark Streaming:Spark Structured Streaming 中不允许使用 Kafka 组 ID

运行 pyspark kafka steam 时出错