爬取彼岸网明星图片

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取彼岸网明星图片相关的知识,希望对你有一定的参考价值。


爬取彼岸网明星图片:

背景:彼岸网是一个大型的图片网站,上面有很多的图片,这次我们就来爬取彼岸网

第一步:

准备Python爬取准备前的各种库:

import requests
from lxml import etree
import os
import time
import random

没有上面库的,通过pip 命令去安装,例如:pip install 库名

下面我们就开始了:

我们先要拿到网页的一个响应数据:

def get_url():
headers =
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/88.0.4324.150 Safari/537.36

url=http://pic.netbian.com/4kmeinv/index.html
resp=requests.get(url,headers=headers)
print(resp.text)

如果,上面这个样的话会出现乱码:

如图1:

爬取彼岸网明星图片_python

我们在上面加一个编码格式就可以了:

resp.encoding = GBK
彼岸网的编码格式是GBK
但是其他每个网站编码格式不一样,但是都在UTF-8或者GBK之间。
def get_url():
headers =
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36

url=http://pic.netbian.com/4kmeinv/index.html
resp=requests.get(url,headers=headers)
resp.encoding = GBK
print(resp.text)

如图2:

爬取彼岸网明星图片_html_02

然后用xpath定位:

图3:

爬取彼岸网明星图片_数据_03

图4:

爬取彼岸网明星图片_html_04

图5:

爬取彼岸网明星图片_数据_05

html = etree.HTML(resp.text)
img_src = html.xpath(//ul[@class="clearfix"]/li/a/img/@src)
print(img_src)
img_name = html.xpath(//ul[@class="clearfix"]/li/a/img/@alt)
print(img_name)

我们通过上面的xpath成功定位到图片的地址,下面我们就通过地址拼接来找到图片地址:

img_src = [http://pic.netbian.com + x for x in img_src]

图6:

爬取彼岸网明星图片_html_06

图7

爬取彼岸网明星图片_.net_07

下面是数据的持久化,也就是图片的储存:

path=彼岸明星图片#图片保存文件夹
for src, name in zip(img_src,img_name):
img_content=requests.get(src,headers=headers).content#再次发起请求,请求图片的地址并且把图片转成二进制数据,使计算机可以进行储存
img_name=name+.jpg#增加图片的后缀名,方便以图片形式打开
if not os.path.exists(path):#用import os 库,进行文件夹的创建
os.mkdir(path)#如果图片保存文件夹没有就进行创建文件夹
with open(path+./%s%img_name,wb) as f:#图片文件二进制形式存储
f.write(img_content)
print("正在下载:",img_name)
time.sleep(random.randint(1,2))#设置时间,防止网站反爬虫机制发现。

上面,我们是不是只能访问一页的数据,我们想爬取多页的数据怎么办呢?

我们通过观察网站信息分析发现:

图8

爬取彼岸网明星图片_html_08

我们就来设置一下分页:

url=http://pic.netbian.com/4kmeinv/index_.html.format(page)

通过上面就可以设置分页

上面代码我们需要优化一下,下面是优化后的完整代码:

import requests
from lxml import etree
import os
import time
import random
path=彼岸明星图片
headers =
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36

def get_url(page):
url=http://pic.netbian.com/4kmeinv/index_.html.format(page)
resp=requests.get(url,headers=headers)
resp.encoding = GBK
response=resp.text
return response
def main(index):
html=etree.HTML(index)
img_src = html.xpath(//ul[@class="clearfix"]/li/a/img/@src)
#print(img_src)
img_src=[http://pic.netbian.com+ x for x in img_src]
img_name=html.xpath(//ul[@class="clearfix"]/li/a/img/@alt)
#print(img_name)
for src, name in zip(img_src,img_name):
img_content=requests.get(src,headers=headers).content
img_name=name+.jpg
if not os.path.exists(path):
os.mkdir(path)
with open(path+./%s%img_name,wb) as f:
f.write(img_content)
print("正在下载:",img_name)
time.sleep(random.randint(1,2))

if __name__ == __main__:
ss=str(input(请输入你想要的图片:))
a=int(input())
for page in range(1,a):#分页查询
index=get_url(page)
main(index)

效果:

图9:

爬取彼岸网明星图片_python_09


以上是关于爬取彼岸网明星图片的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫入门案例教学:批量爬取彼岸桌面4K超清美女壁纸

xpath爬取4K高清美女壁纸

手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇

手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇

手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇

手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇