Python 爬虫实战：使用 requests-html

Posted 2022-12-09 吴小龙同學

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python 爬虫实战：使用 requests-html相关的知识，希望对你有一定的参考价值。

Python 爬虫实战（一）：使用 requests 和 BeautifulSoup，我们使用了 requests 做网络请求，拿到网页数据再用 BeautifulSoup 解析，就在前不久，requests 作者 kennethreitz 出了一个新库 requests-html，Pythonic html Parsing for Humans™，它可以用于解析 HTML 文档的。requests-html 是基于现有的框架 PyQuery、Requests、lxml 等库进行了二次封装，更加方便开发者调用。

安装

Mac：

pip3 install requests-html

Windows：

pip install requests-html

实例

代码撸多了，让我们看会妹纸，爬的网站我选的是 http://www.win4000.com/zt/xinggan.html ，打开网站，观察到这是个列表，图片是缩略图，要想保存图片到本地，当然需要高清大图，因此得进入列表详情，进一步解析，完整代码如下：

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析图片列表
def get_girl_list():
    # 返回一个 response 对象
    response = session.get('http://www.win4000.com/zt/xinggan.html')  # 单位秒数

    content = response.html.find('div.Left_bar', first=True)

    li_list = content.find('li')

    for li in li_list:
        url = li.find('a', first=True).attrs['href']
        get_girl_detail(url)


# 解析图片详细
def get_girl_detail(url):
    # 返回一个 response 对象
    response = session.get(url)  # 单位秒数
    content = response.html.find('div.scroll-img-cont', first=True)
    li_list = content.find('li')
    for li in li_list:
        img_url = li.find('img', first=True).attrs['data-original']
        img_url = img_url[0:img_url.find('_')] + '.jpg'
        print(img_url + '.jpg')
        save_image(img_url)


# 保持大图
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒级时间戳
    f = open('/Users/wuxiaolong/Desktop/Girl/%d.jpg' % t, 'ab')  # 存储图片，多媒体文件需要参数b（二进制文件）
    f.write(img_response.content)  # 多媒体存储content
    f.close()


if __name__ == '__main__':
    get_girl_list()

代码就这么多，是不是感觉很简单啊。

说明：

1、requests-html 与 BeautifulSoup 不同，可以直接通过标签来 find，一般如下：
标签
标签.someClass
标签#someID
标签[target=_blank]
参数 first 是 True，表示只返回 Element 找到的第一个，更多使用：http://html.python-requests.org/ ；

2、这里保存本地路径 /Users/wuxiaolong/Desktop/Girl/我写死了，需要读者改成自己的，如果直接是文件名，保存路径将是项目目录下。

遗留问题

示例所爬网站是分页的，没有做，可以定时循环来爬妹纸哦，有兴趣的读者自己玩下。

参考

requests-html

今天用了一下Requests-HTML库（Python爬虫）

公众号

我的公众号：吴小龙同学，欢迎交流～

以上是关于Python 爬虫实战：使用 requests-html的主要内容，如果未能解决你的问题，请参考以下文章

python爬虫

Python爬虫入门到实战-史上最详细的爬虫教程

Python 爬虫实战：使用 requests-html

python实战——网络爬虫之request

python异步爬虫:引入+线程池实战