爬虫案例

Posted 叨客厨子

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫案例相关的知识,希望对你有一定的参考价值。

爬虫案例

  • 爬取汽车之家,指定页面的图片url

1.爬取汽车之家,指定页面的图片url

import requests
from bs4 import BeautifulSoup

# 获取页面数据
r1 = requests.get(
    url='https://www.autohome.com.cn/news/201801/912472.html#pvareaid=102624',
    headers={
        'Host':'www.autohome.com.cn',
        'Referer':"https://www.autohome.com.cn/",
        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
    }
)

soup = BeautifulSoup(r1.text, "lxml")

# 定位标签
id_articlewrap = soup.find(name="div", id="articlewrap")
id_articleContent = soup.find(name="div", id="articleContent")

# 标题
h1 = (id_articlewrap.find(name="h1").text).strip()

# 获取id_articleContent下 p 标签,并且为 center 属性 []
pp = id_articleContent.find_all(name="p", attrs={"align": "center"})
for i in pp:
    img = i.find(name="img")
    # 判断是否有 img 标签
    if img:
        # 获取 src 地址

        img_url = "https:" + img.get("src")
        print(img_url)
        # 获取 图片的 bytes 内容
        img_response = requests.get(img_url).content

        # 截取url图片名称
        file_name = img_url.rsplit('/', maxsplit=1)[1]
        with open(file_name, 'wb') as f:
            # 写入文件中
            f.write(img_response)

以上是关于爬虫案例的主要内容,如果未能解决你的问题,请参考以下文章

《Python3网络爬虫实战案例(崔庆才著)》 中文版PDF下载,附源代码+视频教程

《Python3网络爬虫实战案例(崔庆才著)》 中文版PDF下载,附源代码+视频教程

爬虫案例之网易有道翻译JS代码复杂版

爬虫BeautifulSoup库基本使用,案例解析(附源代码)

爬虫案例之网易有道翻译Python代码改写

(Scrapy框架)爬虫获取百度新冠疫情数据 | 爬虫案例