为啥 dataproc 不能识别参数：spark.submit.deployMode=cluster？

Posted 2023-03-25

技术标签:

【中文标题】为啥 dataproc 不能识别参数：spark.submit.deployMode=cluster？【英文标题】：why dataproc not recognizing argument : spark.submit.deployMode=cluster?为什么 dataproc 不能识别参数：spark.submit.deployMode=cluster？ 【发布时间】：2021-07-22 14:57:18 【问题描述】：

我正在通过这种方式向 dataproc 提交 Spark 作业：

gcloud dataproc 作业提交 spark --cluster=$CLUSTER --region=$REGION --properties spark.jars.packages=com.google.cloud.spark:spark-bigquery-with-dependencies_2.11： 0.19.1, spark.submit.deployMode=cluster --class path.to.my.main.class --jars=path.to.jars -- "-p" "some_arg" "- z" "some_other_arg"

但我收到此错误：

错误：（gcloud.dataproc.jobs.submit.spark）无法识别的参数： spark.submit.deployMode=集群

知道为什么吗？提前感谢您的帮助。

这种方式可以正常工作（没有集群模式）：

gcloud dataproc 作业提交 spark --cluster=$CLUSTER --region=$REGION --properties spark.jars.packages=com.google.cloud.spark:spark-bigquery-with-dependencies_2.11： 0.19.1 --class path.to.my.main.class --jars=path.to.jars -- "-p" "some_arg" "-z" "some_other_arg"

【问题讨论】：

您可以尝试引用 --properties 的参数。 【参考方案1】：

您似乎在第一个属性和第二个属性之间有一个空格。要么删除它，要么用引号将它们都括起来。

另一种选择是将其替换为

--packages com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.19.1 --properties spark.submit.deployMode=cluster

【讨论】：

非常感谢大卫！这就是问题所在，它已经解决了！祝你有美好的一天。

以上是关于为啥 dataproc 不能识别参数：spark.submit.deployMode=cluster？的主要内容，如果未能解决你的问题，请参考以下文章

火花提交时未读取 Dataproc 参数

为啥 Spark Mllib KMeans 算法非常慢？

自动设置 Dataproc 集群后 Yarn/Spark 的内存分配不正确

Google Dataproc 上的 Spark 用户界面在哪里？

使用 Spark BigQuery 连接器启动 Dataproc 集群

在 google-dataproc 的 Spark 集群中的 pyspark 作业中使用外部库