为 Apache TinkerPop 的 Spark-Gremlin 指定工作池 - DataStax-Enterprise Graph-Analytics

Posted

技术标签:

【中文标题】为 Apache TinkerPop 的 Spark-Gremlin 指定工作池 - DataStax-Enterprise Graph-Analytics【英文标题】:Specify worker pool for Apache TinkerPop's Spark-Gremlin - DataStax-Enterprise Graph-Analytics 【发布时间】:2020-08-03 14:52:34 【问题描述】:

我需要指定一个特定的工作池来运行 gremlin olap 查询。当我使用 gremlin 控制台或 datastax studio 运行 gremlin olap 查询时,它在默认池下运行(这不是我想要的)。我想在特定的工作池下运行 gremlin olap 查询,例如gremlin_olap 或者能够指定内存和执行器。我在 dse.yaml(在位置资源/dse/conf 中)和 olap.properties(在位置资源/graph/conf 中)尝试了一些设置,我重新启动了集群仍然无法强制使用 gremlin_olap 工作池.

olap.properties

spark.scheduler.pool=gremlin_olap
spark.executor.cores=2
spark.executor.memory=2g

dse.yaml

resource_manager_options:
    worker_options:
        cores_total: 0.7
        memory_total: 0.6

        workpools:
            - name: alwayson_sql
              cores: 0.25
              memory: 0.25
            - name: gremlin_olap
              cores: 0.25
              memory: 0.25

Gremlin 控制台 bin/dse gremlin-console

         \,,,/
         (o o)
-----oOOo-(3)-oOOo-----
plugin activated: tinkerpop.server
plugin activated: tinkerpop.tinkergraph
gremlin> :remote config alias g identity.a
==>g=identity.a
gremlin> g.V().groupCount().by(label)
==>identity=50000
gremlin>

我错过了什么吗?

【问题讨论】:

我使用的是 dse 6.8.0 【参考方案1】:

这些说明应该会有所帮助:

https://docs.datastax.com/en/dse/6.8/dse-dev/datastax_enterprise/graph/graphAnalytics/graphAnalyticsSparkGraphComputer.html#SettingSparkpropertiesfromGremlin

这并不能完全创建一个 Spark 资源池——但它确实会影响 Gremlin OLAP Spark 应用程序将使用的资源——它在 DSE Graph 中的工作方式是这些应用程序中只会有一个启动,所以它和拥有一个 Spark 资源池的效果是一样的。

【讨论】:

感谢 Eddy 指向文档。感谢您澄清我们没有用于 gremlin olap 查询的 Spark 资源池。

以上是关于为 Apache TinkerPop 的 Spark-Gremlin 指定工作池 - DataStax-Enterprise Graph-Analytics的主要内容,如果未能解决你的问题,请参考以下文章

在执行spar-sql程序中报错:java.lang.NoSuchMethodError: org.apache.spark.internal.Logging.$init$(Lorg/apache/s

如何使用 Gremlin/Titan/TinkerPop3 更新特定的边缘属性?

TinkerPop简述

如何在 TinkerPop 图中传播值

解决gremlin-dirver访问tinkerpop服务器提示序列化错误

spark操作HBASE