python爬虫模块之HTML解析模块

Posted 一起来学python

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫模块之HTML解析模块相关的知识,希望对你有一定的参考价值。

这个就比较简单了没有什么好强调的,如果返回的json 就是直接按照键值取,如果是网页就是用lxml模块的html进行xpath解析。

from lxml import html
import json
class GetNodeList():
    def __init__(self):
        self.getdivxpath="//div[@class=‘demo‘]"
    def use_xpath(self,source):
        if len(source):
            root=html.fromstring(source) #html转换成dom对象
            nodelist=root.xpath(self.getdivxpath)#对dom对象进行xpath解析
            if len(nodelist):
                return nodelist
            return None
            
    def use_json(self, source,keyname):
        if len(source):
            jsonstr=json.loads(source)
            value=jsonstr.get(keyname) #根据具体的键值修改
            if len(value):
                return value
            return None

  

以上是关于python爬虫模块之HTML解析模块的主要内容,如果未能解决你的问题,请参考以下文章

爬虫--Python常用模块之requests,urllib和re

Python爬虫从入门到进阶之urllib库的使用

python爬虫从入门到放弃之 Urllib库的基本使用

python之爬虫 Urllib库的基本使用

python爬虫网页解析之parsel模块

Python爬虫之爬取煎蛋网妹子图