在数据块上加载 XML 文件 Pyspark

Posted

技术标签:

【中文标题】在数据块上加载 XML 文件 Pyspark【英文标题】:Loading XML file Pyspark on databricks 【发布时间】:2018-03-23 21:37:15 【问题描述】:

我正在尝试使用 databricks spark xml 库来导入以下 XML 文件:https://s3.eu-west-2.amazonaws.com/kieranw/Badges.xml。

xml_posts = spark.read.format("xml").options(rootTag='badges').load('s3a://%s:%s@%s/Badges.xml'% (ACCESS_KEY, ENCODED_SECRET_KEY, BUCKET_NAME))
xml_posts.printSchema()
xml_posts.show()

我正在使用带有 Spark 2.2.1 的 databricks 笔记本。

当我尝试执行显示时,空值只是返回到屏幕。我假设它与解析器没有正确解释 XML 文件有关。如果是这种情况,我该如何正确定义架构?

谢谢:)

【问题讨论】:

【参考方案1】:

如果您只是想定义架构,可以在 databricks xml 库上找到 https://github.com/databricks/spark-xml

我已将该库添加到我的集群中(有关信息,请参阅this),但没有运气阅读它。我不相信这是架构

【讨论】:

感谢您的回复!是的,我设法将库添加到我的集群中,但我也无法加载数据。

以上是关于在数据块上加载 XML 文件 Pyspark的主要内容,如果未能解决你的问题,请参考以下文章

切换视频源 - 同时在滑块上 - JS、HTML5 视频

在数据块上运行 sql 查询时出现不匹配错误

截断数据块上的表

如何使用 sql 在数据块上创建带有嵌套映射的表

Azure:部署集成在数据块上的 ML 模型的 Ansible 角色

Unity3D 从 XML 文件保存和加载数据不起作用