爬取彼岸网明星图片

Posted 2022-11-14

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬取彼岸网明星图片相关的知识，希望对你有一定的参考价值。

爬取彼岸网明星图片：

背景：彼岸网是一个大型的图片网站，上面有很多的图片，这次我们就来爬取彼岸网

第一步：

准备Python爬取准备前的各种库：

import requests
from lxml import etree
import os
import time
import random

没有上面库的，通过pip 命令去安装，例如：pip install 库名

下面我们就开始了：

我们先要拿到网页的一个响应数据：

def get_url():
  headers = 
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/88.0.4324.150 Safari/537.36
    
    url=http://pic.netbian.com/4kmeinv/index.html
    resp=requests.get(url,headers=headers)
    print(resp.text)

如果，上面这个样的话会出现乱码：

如图1：

爬取彼岸网明星图片_python

我们在上面加一个编码格式就可以了：

resp.encoding = GBK
彼岸网的编码格式是GBK
但是其他每个网站编码格式不一样，但是都在UTF-8或者GBK之间。

def get_url():
  headers = 
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36
    
    url=http://pic.netbian.com/4kmeinv/index.html
    resp=requests.get(url,headers=headers)
    resp.encoding = GBK
    print(resp.text)

如图2：

爬取彼岸网明星图片_html_02

然后用xpath定位：

图3：

爬取彼岸网明星图片_数据_03

图4：

爬取彼岸网明星图片_html_04

图5：

爬取彼岸网明星图片_数据_05

html = etree.HTML(resp.text)
img_src = html.xpath(//ul[@class="clearfix"]/li/a/img/@src)
 print(img_src)
img_name = html.xpath(//ul[@class="clearfix"]/li/a/img/@alt)
print(img_name)

我们通过上面的xpath成功定位到图片的地址，下面我们就通过地址拼接来找到图片地址：

img_src = [http://pic.netbian.com + x for x in img_src]

图6：

爬取彼岸网明星图片_html_06

图7

爬取彼岸网明星图片_.net_07

下面是数据的持久化，也就是图片的储存：

path=彼岸明星图片#图片保存文件夹
    for src, name in zip(img_src,img_name):
        img_content=requests.get(src,headers=headers).content#再次发起请求，请求图片的地址并且把图片转成二进制数据，使计算机可以进行储存
        img_name=name+.jpg#增加图片的后缀名，方便以图片形式打开
        if not os.path.exists(path):#用import os 库，进行文件夹的创建
            os.mkdir(path)#如果图片保存文件夹没有就进行创建文件夹
        with open(path+./%s%img_name,wb) as f:#图片文件二进制形式存储
            f.write(img_content)
            print("正在下载：",img_name)
    time.sleep(random.randint(1,2))#设置时间，防止网站反爬虫机制发现。

上面，我们是不是只能访问一页的数据，我们想爬取多页的数据怎么办呢？

我们通过观察网站信息分析发现：

图8

爬取彼岸网明星图片_html_08

我们就来设置一下分页：

url=http://pic.netbian.com/4kmeinv/index_.html.format(page)

通过上面就可以设置分页

上面代码我们需要优化一下，下面是优化后的完整代码：

import requests
from lxml import etree
import os
import time
import random
path=彼岸明星图片
headers = 
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36
    
def get_url(page):
    url=http://pic.netbian.com/4kmeinv/index_.html.format(page)
    resp=requests.get(url,headers=headers)
    resp.encoding = GBK
    response=resp.text
    return response
def main(index):
    html=etree.HTML(index)
    img_src = html.xpath(//ul[@class="clearfix"]/li/a/img/@src)
    #print(img_src)
    img_src=[http://pic.netbian.com+ x for x in img_src]
    img_name=html.xpath(//ul[@class="clearfix"]/li/a/img/@alt)
    #print(img_name)
    for src, name in zip(img_src,img_name):
        img_content=requests.get(src,headers=headers).content
        img_name=name+.jpg
        if not os.path.exists(path):
            os.mkdir(path)
        with open(path+./%s%img_name,wb) as f:
            f.write(img_content)
            print("正在下载：",img_name)
    time.sleep(random.randint(1,2))

if __name__ == __main__:
   ss=str(input(请输入你想要的图片:))
   a=int(input())
for page in range(1,a):#分页查询
    index=get_url(page)
    main(index)

效果：

图9：

爬取彼岸网明星图片_python_09

以上是关于爬取彼岸网明星图片的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫入门案例教学：批量爬取彼岸桌面4K超清美女壁纸

xpath爬取4K高清美女壁纸

手把手教你爬取天堂网1920*1080大图片（批量下载）——实战篇