16.Python使用lxml爬虫

Posted 廖丹

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了16.Python使用lxml爬虫相关的知识,希望对你有一定的参考价值。

1.lxml是解析库,使用时需要导入该包,直接在命令行输入:pip3 install lxml,基本上会报错。正确应该去对应的网址:https://pypi.org/project/lxml/#files,直接下载对应的lxml

(根据python版本自己去选择,笔者是python3.6,故下载:lxml-4.2.4-cp36-cp36m-win32.whl ,切换到下载的whl目录,在该目录下执行:

pip3 install lxml-4.2.4-cp36-cp36m-win32.whl 

2.代码如下所示:

import requests
from lxml import etree

url = ‘https://www.mafengwo.cn/gonglve/ziyouxing/2033.html‘

response = requests.get(url)   #返回一个response对象
page = response.text

html = etree.HTML(page)      #返回一个Element对象,将字符串解析为HTML文档
content = html.xpath(‘//h2‘)

for i in content:
    print(i.text)

3.代码解释:

A:定义好url的路径,使用url获取到response对象   如:url = ‘‘

B:需要将reponse对象转化为字符串格式,page = response.text

C:使用解析库将字符串转为为HTML文档,根据自己想要获取的内容去定义xpath路径

以上是关于16.Python使用lxml爬虫的主要内容,如果未能解决你的问题,请参考以下文章

网络爬虫 lxml提取之中国大学排名

Python爬虫编程思想(39):使用lxml解析HTML与XML

python爬虫使用lxml解析数据编码乱码问题

Python爬虫利器三之Xpath语法与lxml库的用法

爬虫 - lxml库和贴吧图片下载案例

Python通过Lxml库解析网络爬虫抓取到的html