如何设置 sparkmagic 以通过 Livy 使用 DataProc?

Posted

技术标签:

【中文标题】如何设置 sparkmagic 以通过 Livy 使用 DataProc?【英文标题】:How do I set up sparkmagic to work with DataProc through Livy? 【发布时间】:2021-12-30 20:03:45 【问题描述】:

我有一个在 GCP 中运行的 DataProc 集群。我为它运行了 Livy 初始化脚本,我可以通过网关接口访问 livy/sessions 链接。我为我的 sparkmagic config.json 设置了以下内容:


    "kernel_python_credentials" : 
        "auth": "None",
        "url": "https://SERVER.dataproc.googleusercontent.com/livy"
    ,
    "should_heartbeat": true,
    "livy_server_heartbeat_timeout_seconds": 60,
    "heartbeat_refresh_seconds": 5,
    "heartbeat_retry_seconds": 1,
    "ignore_ssl_errors": false

我可以启动内核,但是如果我尝试执行一个单元格,它似乎会返回一个登录页面。是否需要设置其他参数才能使其正常工作?

【问题讨论】:

【参考方案1】:

为了其他来这里的人的利益 - 我能够通过设置从 livy 服务到我的本地计算机的端口转发来获得连接。但是,我遇到了无法对集群实际执行作业的问题。似乎 Livy 或多或少已经失效,特别是当前可用的版本(最新的 0.7.1)不是针对 Spark 3 / Scala 2.12 构建的。没有简单的方法来完成这项工作。

【讨论】:

以上是关于如何设置 sparkmagic 以通过 Livy 使用 DataProc?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 EMR 集群引导上设置 livy.server.session.timeout?

使用 Livy 作为 OS 用户运行 spark 程序

如何在 Apache livy 中提交 pyspark 作业?

Livy原理详解

Apache Livy:通过 REST 查询 Spark SQL:可能吗?

Apache Spark和Livy集群