浅谈用java解析xml文档
Posted 狼牙曼巴
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了浅谈用java解析xml文档相关的知识,希望对你有一定的参考价值。
继续接上一文,这一阵子因为公司项目加紧,导致最后一个解析xml文档的方式,还没有总结,下面总结使用dom4J解析xml。
DOM4J(Document Object Model for Java)
使用dom4j解析,个人认为是四种解析方式里面最方便的一种,DOM4J是一个非常非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件。如今你可以看到越来越多的Java软件都在使用DOM4J来读写XML,特别值得一提的是连Sun的JAXM也在用DOM4J。
下面就看我们解析步骤:
(一)、创建SAXReader的对象reader
SAXReader saxreader = new SAXReader ();
(二)、通过saxreader对象的read方法,把xml解析出来,并获得一个document对象
Document document = saxreader.read(new File("books.xml"));
(三)、通过document对象获取 xml文档的的根节点
Element element = document.getRootElement();
(四)、通过迭代器遍历 得到的根节点,详细代码如下:
public static void main(String[] args) { SAXReader reader = new SAXReader(); try { Document document = reader.read(new File("books.xml")); Element books = document.getRootElement(); Iterator it = books.elementIterator(); while(it.hasNext()){ System.out.println("开始遍历"); Element element1 = (Element)it.next(); List<Attribute> list = element1.attributes(); for(Attribute attr:list){ System.out.println("属性名为:"+attr.getName()+"----属性值为:"+attr.getValue()); //获取根节点下的子节点 } Iterator itt = element1.elementIterator(); while (itt.hasNext()) { Element bookChild = (Element) itt.next(); System.out.println("节点名:" + bookChild.getName() + "--节点值:" + bookChild.getStringValue()); } } } catch (DocumentException e) { // TODO Auto-generated catch block e.printStackTrace(); } }
则生成的结果为:
开始遍历 属性名为:id----属性值为:1 节点名:name--节点值:老人与海 节点名:author--节点值:海明威 节点名:year--节点值:1955 节点名:price--节点值:45 开始遍历 属性名为:id----属性值为:2 节点名:name--节点值:书剑恩仇录 节点名:year--节点值:1959 节点名:price--节点值:24 节点名:language--节点值:chinese
所解析的xml文档为:books.xml
<?xml version="1.0" encoding="UTF-8"?> <bookstore> <book id="1"> <name>老人与海</name> <author>海明威</author> <year>1955</year> <price>45</price> </book> <book id="2"> <name>书剑恩仇录</name> <year>1959</year> <price>24</price> <language>chinese</language> </book> </bookstore>
总结:
虽然DOM4J代表了完全独立的开发结果,但最初,它是JDOM的一种智能分支。它合并了许多超出基本XML文档表示的功能,包括集成的XPath支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。它还提供了构建文档表示的选项,它通过DOM4J API和标准DOM接口具有并行访问功能。从2000下半年开始,它就一直处于开发之中。
为支持所有这些功能,DOM4J使用接口和抽象基本类方法。DOM4J大量使用了API中的Collections类,但是在许多情况下,它还提供一些替代方法以允许更好的性能或更直接的编码方法。直接好处是,虽然DOM4J付出了更复杂的API的代价,但是它提供了比JDOM大得多的灵活性。
在添加灵活性、XPath集成和对大文档处理的目标时,DOM4J的目标与JDOM是一样的:针对Java开发者的易用性和直观操作。它还致力于成为比JDOM更完整的解决方案,实现在本质上处理所有Java/XML问题的目标。在完成该目标时,它比JDOM更少强调防止不正确的应用程序行为。
【优点】
①大量使用了Java集合类,方便Java开发人员,同时提供一些提高性能的替代方法。
②支持XPath。
③有很好的性能。
【缺点】
①大量使用了接口,API较为复杂。
对以上几种方法的比较:
1. DOM4J性能最好,连Sun的JAXM也在用DOM4J。目前许多开源项目中大量采用DOM4J,例如大名鼎鼎的Hibernate也用DOM4J来读取XML配置文件。如果不考虑可移植性,那就采用DOM4J.
2. JDOM和DOM在性能测试时表现不佳,在测试10M文档时内存溢出,但可移植。在小文档情况下还值得考虑使用DOM和JDOM.虽然JDOM的开发者已经说明他们期望在正式发行版前专注性能问题,但是从性能观点来看,它确实没有值得推荐之处。另外,DOM仍是一个非常好的选择。DOM实现广泛应用于多种编程语言。它还是许多其它与XML相关的标准的基础,因为它正式获得W3C推荐(与基于非标准的Java模型相对),所以在某些类型的项目中可能也需要它(如在javascript中使用DOM)。
3. SAX表现较好,这要依赖于它特定的解析方式-事件驱动。一个SAX检测即将到来的XML流,但并没有载入到内存(当然当XML流被读入时,会有部分文档暂时隐藏在内存中)。
我的看法:如果XML文档较大且不考虑移植性问题建议采用DOM4J;如果XML文档较小则建议采用JDOM;如果需要及时处理而不需要保存数据则考虑SAX。但无论如何,还是那句话:适合自己的才是最好的,如果时间允许,建议大家讲这四种方法都尝试一遍然后选择一种适合自己的即可。
参考文章:http://www.cnblogs.com/lanxuezaipiao/archive/2013/05/17/3082949.html
以上是关于浅谈用java解析xml文档的主要内容,如果未能解决你的问题,请参考以下文章