python爬虫模块之HTML解析模块

Posted 2020-11-17 一起来学python

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫模块之HTML解析模块相关的知识，希望对你有一定的参考价值。

这个就比较简单了没有什么好强调的，如果返回的json 就是直接按照键值取，如果是网页就是用lxml模块的html进行xpath解析。

from lxml import html
import json
class GetNodeList():
    def __init__(self):
        self.getdivxpath="//div[@class=‘demo‘]"
    def use_xpath(self,source):
        if len(source):
            root=html.fromstring(source) #html转换成dom对象
            nodelist=root.xpath(self.getdivxpath)#对dom对象进行xpath解析
            if len(nodelist):
                return nodelist
            return None
            
    def use_json(self, source,keyname):
        if len(source):
            jsonstr=json.loads(source)
            value=jsonstr.get(keyname) #根据具体的键值修改
            if len(value):
                return value
            return None

以上是关于python爬虫模块之HTML解析模块的主要内容，如果未能解决你的问题，请参考以下文章