在 emr 集群上安装 com.databricks.spark.xml

Posted

技术标签:

【中文标题】在 emr 集群上安装 com.databricks.spark.xml【英文标题】:Install com.databricks.spark.xml on emr cluster 【发布时间】:2020-02-19 10:50:16 【问题描述】:

有谁知道如何在 EMR 集群上安装 com.databricks.spark.xml 包。

我成功连接到主emr,但不知道如何在emr集群上安装包。

代码

sc.install_pypi_package("com.databricks.spark.xml")

【问题讨论】:

【参考方案1】:

在 EMR 主节点上:

cd /usr/lib/spark/jars
sudo wget https://repo1.maven.org/maven2/com/databricks/spark-xml_2.11/0.9.0/spark-xml_2.11-0.9.0.jar

确保根据您的 Spark 版本和https://github.com/databricks/spark-xml 中提供的指南选择正确的 jar。

然后,启动您的 Jupyter 笔记本,您应该能够运行以下命令:

df = spark.read.format('com.databricks.spark.xml').options(rootTag='objects').options(rowTag='object').load("s3://bucket-name/sample.xml")

【讨论】:

以上是关于在 emr 集群上安装 com.databricks.spark.xml的主要内容,如果未能解决你的问题,请参考以下文章

创建并运行 EMR on EKS 集群

创建并运行 EMR on EKS 集群

Flink EMR 安装

AWS EMR 上的持续集成

无法在正在运行的 EMR 上执行步骤

如何在 Amazon EMR 上引导安装 Python 模块?