dse spark-submit 到特定工作池而不是“默认”

Posted

技术标签:

【中文标题】dse spark-submit 到特定工作池而不是“默认”【英文标题】:dse spark-submit to specific work pool instead of "default" 【发布时间】:2020-08-30 06:16:03 【问题描述】:

我能够从https://github.com/datastax/SparkBuildExamples/tree/master/scala/sbt/dse/src/main/scala/com/datastax/spark/example成功构建示例项目

我也成功提交了dse spark-submit。程序运行良好,结果符合预期

dse spark-submit --class com.datastax.spark.example.WriteRead target/writeRead-0.1.jar

我现在希望将上述作业提交到 dse.yaml 中配置的现有池

resource_manager_options:
worker_options:
    cores_total: 6
    memory_total: 32G
    workpools:
        - name: alwayson_sql
          cores: 2
          memory: 4G
        - name: pool_1
          cores: 2
          memory: 16G

我无法确定我应该如何/更改代码或 spark-submit 以将应用程序提交到池“pool_1”

应用程序已提交到默认池,我无法将其提交到“pool_1”。

请帮忙。

【问题讨论】:

【参考方案1】:

经过一些额外的研究,我找到了 dse spark-submit 使用池“pool_1”的正确方法

 bin/dse spark-submit \
 --master dse://?workpool=pool_1 \
 --conf spark.network.timeout=500 \
 --class com.datastax.spark.example.WriteRead target/writeRead-0.1.jar

(根据 Alex 的输入)DSE 文档: Documentation link

【讨论】:

它实际上在 DSE 文档中:docs.datastax.com/en/dse/6.0/dse-dev/datastax_enterprise/spark/… 感谢 Alex 指出文档。 --master dse://?workpool=>(即没有指定ip_address)是否有特定原因,我尝试使用master的ip地址,DSE抛出超时警告无法获取设置。 它应该可以正常使用 IP。通常,人们将端口指定为 7077 会出错,但在 DSE 中,所有通信都发生在端口 9042 好的。我猜这就是我正在做的事情..使用端口 7077,它只是超时了。感谢您的澄清。 如果您没有更改任何内容,则只需使用 IP,无需端口。我认为文档中有这样的例子

以上是关于dse spark-submit 到特定工作池而不是“默认”的主要内容,如果未能解决你的问题,请参考以下文章

如何找出特定 DSE 正在运行的 Cassandra 版本?

可以为特定表启用 dse cassandra 审核日志吗?

DSE:查询超时/慢

支持 DSE 5 文档值吗?

如何使用 DSE 搜索 6.8 创建搜索索引

实时索引 DSE