浅谈用java解析xml文档

Posted 2020-06-19 狼牙曼巴

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了浅谈用java解析xml文档相关的知识，希望对你有一定的参考价值。

　　　继续接上一文，这一阵子因为公司项目加紧，导致最后一个解析xml文档的方式，还没有总结，下面总结使用dom4J解析xml。

　　　DOM4J（Document Object Model for Java）

　　　使用dom4j解析，个人认为是四种解析方式里面最方便的一种，DOM4J是一个非常非常优秀的Java XML API，具有性能优异、功能强大和极端易用使用的特点，同时它也是一个开放源代码的软件。如今你可以看到越来越多的Java软件都在使用DOM4J来读写XML，特别值得一提的是连Sun的JAXM也在用DOM4J。

　　　下面就看我们解析步骤：

　　　（一）、创建SAXReader的对象reader

　　　　　　SAXReader saxreader = new SAXReader ();

(二)、通过saxreader对象的read方法，把xml解析出来，并获得一个document对象

　　　　 Document document = saxreader.read(new File("books.xml"));

(三)、通过document对象获取 xml文档的的根节点

　　　　　　Element element = document.getRootElement();

　　　 (四)、通过迭代器遍历得到的根节点，详细代码如下：

public static void main(String[] args) {
        
        SAXReader reader = new SAXReader();
        try {
            Document document = reader.read(new File("books.xml"));
            Element books = document.getRootElement();
            
            Iterator it = books.elementIterator();
            while(it.hasNext()){
                System.out.println("开始遍历");
                Element element1 = (Element)it.next();
                List<Attribute> list =  element1.attributes();
                for(Attribute attr:list){
                    System.out.println("属性名为："+attr.getName()+"----属性值为:"+attr.getValue());
                    //获取根节点下的子节点
                    
                }
                Iterator itt = element1.elementIterator();
                while (itt.hasNext()) {
                    Element bookChild = (Element) itt.next();
                    System.out.println("节点名：" + bookChild.getName() + "--节点值：" + bookChild.getStringValue());
                }
            }
        } catch (DocumentException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
    }

则生成的结果为：

开始遍历
属性名为：id----属性值为:1
节点名：name--节点值：老人与海
节点名：author--节点值：海明威
节点名：year--节点值：1955
节点名：price--节点值：45
开始遍历
属性名为：id----属性值为:2
节点名：name--节点值：书剑恩仇录
节点名：year--节点值：1959
节点名：price--节点值：24
节点名：language--节点值：chinese

所解析的xml文档为：books.xml

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
    <book id="1">
        <name>老人与海</name>
        <author>海明威</author>
        <year>1955</year>
        <price>45</price>
    </book>
    <book id="2">
        <name>书剑恩仇录</name>
        <year>1959</year>
        <price>24</price>
        <language>chinese</language>
    </book>    
</bookstore>

　　总结：　　　

　　　　虽然DOM4J代表了完全独立的开发结果，但最初，它是JDOM的一种智能分支。它合并了许多超出基本XML文档表示的功能，包括集成的XPath支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。它还提供了构建文档表示的选项，它通过DOM4J API和标准DOM接口具有并行访问功能。从2000下半年开始，它就一直处于开发之中。

为支持所有这些功能，DOM4J使用接口和抽象基本类方法。DOM4J大量使用了API中的Collections类，但是在许多情况下，它还提供一些替代方法以允许更好的性能或更直接的编码方法。直接好处是，虽然DOM4J付出了更复杂的API的代价，但是它提供了比JDOM大得多的灵活性。

在添加灵活性、XPath集成和对大文档处理的目标时，DOM4J的目标与JDOM是一样的：针对Java开发者的易用性和直观操作。它还致力于成为比JDOM更完整的解决方案，实现在本质上处理所有Java/XML问题的目标。在完成该目标时，它比JDOM更少强调防止不正确的应用程序行为。

【优点】
     ①大量使用了Java集合类，方便Java开发人员，同时提供一些提高性能的替代方法。
   ②支持XPath。
   ③有很好的性能。

【缺点】
①大量使用了接口，API较为复杂。

对以上几种方法的比较：

　　1. DOM4J性能最好，连Sun的JAXM也在用DOM4J。目前许多开源项目中大量采用DOM4J，例如大名鼎鼎的Hibernate也用DOM4J来读取XML配置文件。如果不考虑可移植性，那就采用DOM4J.

2. JDOM和DOM在性能测试时表现不佳，在测试10M文档时内存溢出，但可移植。在小文档情况下还值得考虑使用DOM和JDOM.虽然JDOM的开发者已经说明他们期望在正式发行版前专注性能问题，但是从性能观点来看，它确实没有值得推荐之处。另外，DOM仍是一个非常好的选择。DOM实现广泛应用于多种编程语言。它还是许多其它与XML相关的标准的基础，因为它正式获得W3C推荐（与基于非标准的Java模型相对），所以在某些类型的项目中可能也需要它（如在javascript中使用DOM）。

3. SAX表现较好，这要依赖于它特定的解析方式－事件驱动。一个SAX检测即将到来的XML流，但并没有载入到内存（当然当XML流被读入时，会有部分文档暂时隐藏在内存中）。

我的看法：如果XML文档较大且不考虑移植性问题建议采用DOM4J；如果XML文档较小则建议采用JDOM；如果需要及时处理而不需要保存数据则考虑SAX。但无论如何，还是那句话：适合自己的才是最好的，如果时间允许，建议大家讲这四种方法都尝试一遍然后选择一种适合自己的即可。

参考文章：http://www.cnblogs.com/lanxuezaipiao/archive/2013/05/17/3082949.html

以上是关于浅谈用java解析xml文档的主要内容，如果未能解决你的问题，请参考以下文章

浅谈用java解析xml文档

浅谈用原生 js 实现数组的 slice 方法

java解析xml的几种方式哪种最好？

浅谈用原生 js 实现函数的 bind 方法

浅谈用极大化思想解决最大子矩阵问题