运行 pyspark kafka steam 时出错

Posted

技术标签:

【中文标题】运行 pyspark kafka steam 时出错【英文标题】:running pyspark kafka steam with an error 【发布时间】:2016-05-07 23:07:33 【问题描述】:

当我尝试运行 spark-steaming 的示例代码时:“kafka_wordcount.py” 文件夹下:/usr/local/spark/examples/src/main/python/streaming

代码将执行代码的指令明确描述为:

" $ bin/spark-submit --jars \ external/kafka-assembly/target/scala-*/spark-streaming-kafka-assembly-*.jar \ examples/src/main/python/streaming/kafka_wordcount.py \ localhost:2181 test

test 是主题名称。但我找不到罐子和路径:

" external/kafka-assembly/target/scala-/spark-streaming-kafka-assembly-.jar"

因此,我创建了一个文件夹“streaming/jar/”并将所有 jars 从 网站http://search.maven.org/#search%7Cga%7C1%7Ca%3A%22spark-streaming-kafka-assembly_2.10%22 然后当我运行时

“park-submit --jars ~/stream-example/jars/spark-streaming-kafka-assembly_*.jar kafka_wordcount.py localhost:2181 主题”

显示

"错误:JAR 中没有设置主类;请用 --class 指定一个 使用 --help 运行以获取使用帮助或 --verbose 用于调试输出"

这有什么问题?罐子在哪里?

非常感谢!!

【问题讨论】:

【参考方案1】:

这个问题是很久以前提出的,所以我想你现在已经想通了。 但是,由于我刚刚遇到了同样的问题,我将发布对我有用的解决方案。

本指南的部署部分 (http://spark.apache.org/docs/latest/streaming-kafka-integration.html) 说您可以使用 --packages 参数传递库,如下所示:

bin/spark-submit \ --packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 \ examples/src/main/python/streaming/kafka_wordcount.py \ localhost:2181 test

您也可以在此处下载 jar 本身:http://search.maven.org/#search%7Cga%7C1%7Ca%3A%22spark-streaming-kafka-assembly_2.10%22

注意:我没有运行上面的命令,我用另一个示例进行了测试,但它应该以相同的方式工作:

bin/spark-submit --packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 \ examples/src/main/python/streaming/direct_kafka_wordcount.py \ localhost:9092 test

【讨论】:

谢谢!这将是一个备忘录!

以上是关于运行 pyspark kafka steam 时出错的主要内容,如果未能解决你的问题,请参考以下文章

从 Docker 容器将 PySpark 连接到 Kafka

将 Pyspark 与 Kafka 连接起来

PySpark 和 Kafka “Set 已消失。某些数据可能已丢失……”

PySpark - 运行 Count() / 聚合函数(平均等)时出现不一致

Pyspark 找不到数据源:kafka

运行独立的pyspark时出现Windows错误