sax的解析原理基础
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sax的解析原理基础相关的知识,希望对你有一定的参考价值。
1:sax解析是什么?SAX(simple API for XML)是一种XML解析的替代方法。相比于DOM,SAX是一种速度更快,更有效的方法。它逐行扫描文档,一边扫描一边解析。而且相比于DOM,SAX可以在解析文档的任意时刻停止解析,但任何事物都有其相反的一面,对于SAX来说就是操作复杂。
2:SAX解析和DOM解析的区别?
JAVA 解析 XML 通常有两种方式:DOM 和SAX。DOM(文档对象模型)是W3C标准,提供了标准的解析方式,但其解析效率一直不尽如人意,这是因为DOM解析XML文档时,把所有内容一次性的装载入内存,并构建一个驻留在内存中的树状结构(节点数)。如果需要解析的XML文档过大,或者我们只对该文档中的一部分感兴趣,这样就会引起性能问题。
3:工作原理
SAX,它既是一个接口,也是一个软件包.但作为接口,SAX是事件驱动型XML解析的一个标准接口不会改变 SAX的工作原理简单地说就是对文档进行顺序扫描,当扫描到文档(document)开始与结束、元素(element)开始与结束、文档(document)结束等地方时通知事件处理函数,由事件处理函数做相应动作,然后继续同样的扫描,直至文档结束。
大多数SAX都会产生以下类型的事件:
1.在文档的开始和结束时触发文档处理事件。
2.在文档内每一XML元素接受解析的前后触发元素事件。
3.任何元数据通常由单独的事件处理
4.在处理文档的DTD或Schema时产生DTD或Schema事件。
5.产生错误事件用来通知主机应用程序解析错误。
4:SAX解析过程
对于一个XML文档举例来说
<doc>
<para>Hello,World!</para>
</doc>
其解析的过程为:
1.start document
2.start element:doc......
3.start element:para.....
4.characters:Hello,World!
5.end element:para......
6.end element;doc......
7.end document
对于解析过程中的每一步都会有事件发生,都会触发相应接口中的事件处理程序。
编写程序的步骤为:
(1).创建事件处理程序(也就是编写ContentHandler的实现类,一般继承自DefaultHandler类,采用adapter模式)
(2).创建SAX解析器
(3).将事件处理程序分配到解析器
(4).对文档进行解析,将每个事件发送给事件处理程序
5:SAX 模型的解析过程
过程:
1.首先SAXParserFactory来创建一个SAXParserFactory实例
SAXParserFactory factory = SAXParserFactory.newInstance();
2.根据SAXParserFactory实例来创建SAXParser
3.SAXParser产生SAXReader
XMLReader reader = factory.newSAXParser().getXMLReader();
4.XMLReader 加载XML,然后解析XML,在解析的过程中触发相对于接口中的事件处理程序
6:接口介绍
ContentHandler接口 (主要用到的接口)
ContentHandler是Java类包中一个特殊的SAX接口,位于org.xml.sax包中。该接口封装了一些对事件处理的方法,当XML解析器开始解析XML输入文档时,它会遇到某些特殊的事件,比如文档的开头和结束、元素开头和结束、以及元素中的字符数据等事件。当遇到这些事件时,XML解析器会调用ContentHandler接口中相应的方法来响应该事件。
ContentHandler接口的方法有以下几种:
void startDocument()//文件打开时调用
void endDocument()//当到文档的末尾调用
void startElement(String uri, String localName, String qName, Attributes atts)//当遇到开始标记时调用
void endElement(String uri, String localName, String qName)//当遇到节点结束时调用
void characters(char[ ] ch, int start, int length)//当分析器遇到无法识别为标记或者指令类型字符时调用
DTDHandler接口
DTDHandler用于接收基本的DTD相关事件的通知。该接口位于org.xml.sax包中。此接口仅包括DTD事件的注释和未解析的实体声明部分。SAX解析器可按任何顺序报告这些事件,而不管声明注释和未解析实体时所采用的顺序;但是,必须在文档处理程序的startDocument()事件之后,在第一个startElement()事件之前报告所有的DTD事件。
DTDHandler接口包括以下两个方法
void startDocumevoid notationDecl(String name, String publicId, String systemId) nt()
void unparsedEntityDecl(String name, String publicId, String systemId, String notationName)
EntityResolver接口
EntityResolver接口是用于解析实体的基本接口,该接口位于org.xml.sax包中。
该接口只有一个方法,如下:
public InputSource resolveEntity(String publicId, String systemId)
解析器将在打开任何外部实体前调用此方法。此类实体包括在DTD内引用的外部DTD子集和外部参数实体和在文档元素内引用的外部通用实体等。如果SAX应用程序需要实现自定义处理外部实体,则必须实现此接口。
ErrorHandler接口
ErrorHandler接口是SAX错误处理程序的基本接口。如果SAX应用程序需要实现自定义的错误处理,则它必须实现此接口,然后解析器将通过此接口报告所有的错误和警告。
该接口的方法如下:
void error(SAXParseException exception)
void fatalError(SAXParseException exception)
void warning(SAXParseException exception)
SAX的解析举例说明
import java.io.IOException; import javax.xml.parsers.ParserConfigurationException; import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactory; import org.xml.sax.Attributes; import org.xml.sax.ContentHandler; import org.xml.sax.Locator; import org.xml.sax.SAXException; import org.xml.sax.XMLReader; public class Demo1 { /* * SAX解析XML文档 * */ public static void main(String[] args) throws SAXException, ParserConfigurationException, IOException { //1:创建解析工厂 SAXParserFactory factory = SAXParserFactory.newInstance(); //2:得到解析器 SAXParser sp = factory.newSAXParser(); //3:得到读取器 XMLReader reader = sp.getXMLReader(); //4:设置内容处理器 reader.setContentHandler(new ListHandler()); //5:读取XML文档内容 reader.parse("src/book.xml"); } } //得到XML文档的所有内容 class ListHandler implements ContentHandler{ //需要实现接口内容 @Override public void setDocumentLocator(Locator locator) { // TODO Auto-generated method stub } @Override public void startDocument() throws SAXException { // TODO Auto-generated method stub } @Override public void endDocument() throws SAXException { // TODO Auto-generated method stub } @Override public void startPrefixMapping(String prefix, String uri) throws SAXException { // TODO Auto-generated method stub } @Override public void endPrefixMapping(String prefix) throws SAXException { // TODO Auto-generated method stub } @Override public void startElement(String uri, String localName, String qName, Attributes atts) throws SAXException { System.out.println("<"+qName+">"); for(int i =0; atts!=null && i<atts.getLength();i++){ String attName = atts.getQName(i); String attValue = atts.getValue(i); System.out.println(attName+"--"+attValue); } } @Override public void endElement(String uri, String localName, String qName) throws SAXException { System.out.println("</"+qName+">"); } @Override public void characters(char[] ch, int start, int length) throws SAXException { System.out.println(new String(ch, start,length)); } @Override public void ignorableWhitespace(char[] ch, int start, int length) throws SAXException { // TODO Auto-generated method stub } @Override public void processingInstruction(String target, String data) throws SAXException { // TODO Auto-generated method stub } @Override public void skippedEntity(String name) throws SAXException { // TODO Auto-generated method stub } } //获取指定标签的值 class TagValueHandler extends DefaultHandler { private String currentTag; //记住当前解析到的是什么标签 private int needNumber = 2; //记住想获取第几个作者标签的值 private int currentNumber; //当前解析到第几个 @Override public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException { currentTag = qName; if(currentTag.equals("作者")){ currentNumber++; } } @Override public void endElement(String uri, String localName, String qName) throws SAXException { // TODO Auto-generated method stub super.endElement(uri, localName, qName); } @Override public void characters(char[] ch, int start, int length) throws SAXException { if("作者".equals(currentTag) && currentNumber ==needNumber){ System.out.println(new String(ch,start,length)); } } }
以上是关于sax的解析原理基础的主要内容,如果未能解决你的问题,请参考以下文章