在数据块上加载 XML 文件 Pyspark
Posted
技术标签:
【中文标题】在数据块上加载 XML 文件 Pyspark【英文标题】:Loading XML file Pyspark on databricks 【发布时间】:2018-03-23 21:37:15 【问题描述】:我正在尝试使用 databricks spark xml 库来导入以下 XML 文件:https://s3.eu-west-2.amazonaws.com/kieranw/Badges.xml。
xml_posts = spark.read.format("xml").options(rootTag='badges').load('s3a://%s:%s@%s/Badges.xml'% (ACCESS_KEY, ENCODED_SECRET_KEY, BUCKET_NAME))
xml_posts.printSchema()
xml_posts.show()
我正在使用带有 Spark 2.2.1 的 databricks 笔记本。
当我尝试执行显示时,空值只是返回到屏幕。我假设它与解析器没有正确解释 XML 文件有关。如果是这种情况,我该如何正确定义架构?
谢谢:)
【问题讨论】:
【参考方案1】:如果您只是想定义架构,可以在 databricks xml 库上找到 https://github.com/databricks/spark-xml
我已将该库添加到我的集群中(有关信息,请参阅this),但没有运气阅读它。我不相信这是架构
【讨论】:
感谢您的回复!是的,我设法将库添加到我的集群中,但我也无法加载数据。以上是关于在数据块上加载 XML 文件 Pyspark的主要内容,如果未能解决你的问题,请参考以下文章