使用 Python 模块—— HTMLParser 解析 HTML 文档元素
Posted 钉钉铛铛
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用 Python 模块—— HTMLParser 解析 HTML 文档元素相关的知识,希望对你有一定的参考价值。
这个文档定义了一个 HTMLParser 类作为解析 HTML 文档的基础。
HTMLParser 类的实例可以存储并调用方法来处理 HTML 标签和数据。
我们一般通过建立一个 HTMLParser 的子类然后覆盖它的方法来实现我们想要的操作。
HTMLParser 有很多方法,一般我们只需要覆盖下面几个方法:
HTMLParser.handle_starttag(tag, attrs) #遇到一个开始标签时就会执行这个方法 #tag 是遇到的标签,attrs attrs是 (属性,值)元组(tuple)的列表(list)。 HTMLParser.handle_endtag(tag) #遇到一个结束标签时就会执行这个方法 #tag 是遇到的标签 HTMLParser.handle_data(data) #这个方法处理标签里面的内容 #data 是遇到的内容
我们先通过一个基本的例子来了解一下这个模块是如何工作的
这个例子会打印出开始标签和结束标签以及标签里面的内容
from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): print \'遇到的开始标签:%s\'%tag def handle_endtag(self, tag): print \'遇到的结束标签:%s\'%tag def handle_data(self, data): print \'遇到的内容:%s\'%data m = MyHTMLParser() m.feed(\'<h3>标题三</h3>\')
输出:
遇到的开始标签:h3 遇到的内容:标题三 遇到的结束标签:h3
我们来分析一下这个例子做了什么。首先我们建立了一个 HTMLParser 的之类,并覆盖了它的方法。
运行时,它首先遇到了一个开始标签 “< h3>” ,执行 HTMLParser.handle_starttag(tag, attrs) 方法,打印出开始标签。
接着它又遇到了标签里面的内容 “标题三” ,执行 HTMLParser.handle_data(data) ,打印出 “标题三” 。
最后它遇到结束标签,执行 HTMLParser.handle_endtag(tag) ,打印出结束标签。
从这个例子可以很快的理解如何使用这个模块来分析 HTML。
以上是关于使用 Python 模块—— HTMLParser 解析 HTML 文档元素的主要内容,如果未能解决你的问题,请参考以下文章