尝试在 Databricks 上安装 H2O。如何在 Databricks 中安装 3rd 方包?

Posted

技术标签:

【中文标题】尝试在 Databricks 上安装 H2O。如何在 Databricks 中安装 3rd 方包?【英文标题】:Trying to install H2O on Databricks. How can I install a 3rd party package in Databricks? 【发布时间】:2020-07-22 03:49:29 【问题描述】:

我现在正在玩 Databricks,并在网上查看演示。该演示需要安装 H2O。在 Databricks 中,我尝试了以下方法:

   click clusters (then click on the name of the cluster)
   click libraries
   click install new
   finally, click maven

在坐标框中,我粘贴以下内容:

$SPARK_HOME/bin/spark-shell --packages ai.h2o:sparkling-water-package_2.12:3.30.0.6-1-3.0

我正在按照以下链接中的说明进行操作。

https://docs.databricks.com/applications/machine-learning/third-party/index.html

http://docs.h2o.ai/sparkling-water/3.0/latest-stable/doc/install/install_and_start.html#sparkling-water-as-a-spark-package

如何在 Databricks 中安装第 3 方包?谢谢!

【问题讨论】:

【参考方案1】:

要使第三方或本地构建的代码可用于集群上运行的笔记本和作业,您可以安装一个库。库可以用 Python、Java、Scala 和 R 编写。您可以上传 Java、Scala 和 Python 库,并指向 PyPI、Maven 和 CRAN 存储库中的外部包。

安装第三方库的步骤:

方法1:使用Maven

第 1 步: 创建 Databricks 集群。

第二步:选择创建的集群。

步骤 3: 选择库 => 安装新的 => 选择库源 = "Maven" => 坐标 => 搜索包 => 选择 Maven 中心 => 搜索所需的包。示例:(ai.h20) => 选择所需的版本 (sparkling-water-package_2.11:3.30.0.6-1-2.4) => 安装

方法2:使用PYPI

第 1 步: 创建 Databricks 集群。

第二步:选择创建的集群。

步骤 3: 选择库 => 安装新库 => 选择库源 = "PyPI" => 坐标 => 输入包 => h2o-pysparkling-2.4 => 安装

方法3:使用pip安装

%sh
pip install h2o-pysparkling-2.4==3.30.0.6-1

更多详情请参考“Azure Databricks - libraries”。

【讨论】:

在 Search Packages 下,我看到了 Spark Packages,直到我看了你的演示才看到 Maven Central。这正是我想要的!谢谢!! 很高兴知道它有帮助。 视频清楚地表明,这是一个新的水平。感谢您的努力,非常有帮助。

以上是关于尝试在 Databricks 上安装 H2O。如何在 Databricks 中安装 3rd 方包?的主要内容,如果未能解决你的问题,请参考以下文章

在 emr 集群上安装 com.databricks.spark.xml

在 GCP 上安装 h2o 无驱动 AI

Python 在 anaconda 中找不到包 h2o

如何在h2o数据框中添加新的分类变量

在 Azure Databricks 上设置 PostgreSQL 驱动程序

如何在 Databricks 上使用 Apache Spark / Python 将整数转换为日期