python爬虫模块之HTML解析模块
Posted 一起来学python
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫模块之HTML解析模块相关的知识,希望对你有一定的参考价值。
这个就比较简单了没有什么好强调的,如果返回的json 就是直接按照键值取,如果是网页就是用lxml模块的html进行xpath解析。
from lxml import html import json class GetNodeList(): def __init__(self): self.getdivxpath="//div[@class=‘demo‘]" def use_xpath(self,source): if len(source): root=html.fromstring(source) #html转换成dom对象 nodelist=root.xpath(self.getdivxpath)#对dom对象进行xpath解析 if len(nodelist): return nodelist return None def use_json(self, source,keyname): if len(source): jsonstr=json.loads(source) value=jsonstr.get(keyname) #根据具体的键值修改 if len(value): return value return None
以上是关于python爬虫模块之HTML解析模块的主要内容,如果未能解决你的问题,请参考以下文章