为啥 dataproc 不能识别参数:spark.submit.deployMode=cluster?

Posted

技术标签:

【中文标题】为啥 dataproc 不能识别参数:spark.submit.deployMode=cluster?【英文标题】:why dataproc not recognizing argument : spark.submit.deployMode=cluster?为什么 dataproc 不能识别参数:spark.submit.deployMode=cluster? 【发布时间】:2021-07-22 14:57:18 【问题描述】:

我正在通过这种方式向 dataproc 提交 Spark 作业:

gcloud dataproc 作业提交 spark --cluster=$CLUSTER --region=$REGION --properties spark.jars.packages=com.google.cloud.spark:spark-bigquery-with-dependencies_2.11: 0.19.1, spark.submit.deployMode=cluster --class path.to.my.main.class --jars=path.to.jars -- "-p" "some_arg" "- z" "some_other_arg"

但我收到此错误:

错误:(gcloud.dataproc.jobs.submit.spark)无法识别的参数: spark.submit.deployMode=集群

知道为什么吗?提前感谢您的帮助。

这种方式可以正常工作(没有集群模式):

gcloud dataproc 作业提交 spark --cluster=$CLUSTER --region=$REGION --properties spark.jars.packages=com.google.cloud.spark:spark-bigquery-with-dependencies_2.11: 0.19.1 --class path.to.my.main.class --jars=path.to.jars -- "-p" "some_arg" "-z" "some_other_arg"

【问题讨论】:

您可以尝试引用 --properties 的参数。 【参考方案1】:

您似乎在第一个属性和第二个属性之间有一个空格。要么删除它,要么用引号将它们都括起来。

另一种选择是将其替换为

--packages com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.19.1 --properties spark.submit.deployMode=cluster

【讨论】:

非常感谢大卫!这就是问题所在,它已经解决了!祝你有美好的一天。

以上是关于为啥 dataproc 不能识别参数:spark.submit.deployMode=cluster?的主要内容,如果未能解决你的问题,请参考以下文章

火花提交时未读取 Dataproc 参数

为啥 Spark Mllib KMeans 算法非常慢?

自动设置 Dataproc 集群后 Yarn/Spark 的内存分配不正确

Google Dataproc 上的 Spark 用户界面在哪里?

使用 Spark BigQuery 连接器启动 Dataproc 集群

在 google-dataproc 的 Spark 集群中的 pyspark 作业中使用外部库