Flink读取HDFS中的xml(一)——读取XML的几种方式

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink读取HDFS中的xml(一)——读取XML的几种方式相关的知识,希望对你有一定的参考价值。

参考技术A

《Flink读取HDFS中的xml》 系列记录了我在(使用Flink)处理xml文件过程中遇到的问题,以及对解决办法的探索。
本系列包含以下几个部分

xml是一种标记语言,它使用标签存储数据,使用标签的属性对数据进行描述,使用标签之间的嵌套关系标识数据的分类(层级)关系。由于存储数据的同时也存储了大量关于数据的描述信息,其中通常有大量重复内容。这种标签嵌套标签的结构可以看成一种树形结构。

xml文档示例

DOM和SAX解析方式都是Java官方支持的解析方式,不同之处在于:

DOM方式主要方法的调用可以参看文末的参考链接,这里主要记录SAX方式的读取流程:

SAX方式解析XML的精髓在于 org.xml.sax.helpers.DefaultHandler 中的几个方法重写:

参考链接:
Java文件操作①——XML文件的读取

以上是关于Flink读取HDFS中的xml(一)——读取XML的几种方式的主要内容,如果未能解决你的问题,请参考以下文章

flink 问题总结(5)如何读取Kerberos认证的hadoop数据

flink写入hdfs

读取简单的xml

使用 pyspark 从 hdfs 读取文件时连接被拒绝

Flink 实战系列Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩

Flink 实战系列Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩