pyhton爬取一二级网站页面,并将爬取的图片信息保存到本地
Posted weixin_ancenhw
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyhton爬取一二级网站页面,并将爬取的图片信息保存到本地相关的知识,希望对你有一定的参考价值。
python需要注意的几个技术点:
1、split()切割字符串,指定需要切割的内容
比如案例中:
ch_img=“http://kr.shanghai-jiuxin.com/file/2022/0720/c2fca50b8f15f77d3328fd6eb5c1c68f.jpg”
ch_img.split(“/”)[-1]
将ch_img字符串内容按照"/"切割,并返回分割后的字符串列表,-1代表返回最后一列数据,在文中意思是图片的命名名称。
2、BeautifulSoup中"html.parser"是python中自带的html解析器,将获取的内容转换为html
3、导入时间time,随机数random,这个类导入主要用来模拟人体访问数据的时效性,起到反爬虫的效果。 time.sleep(random.randint(0, 3)):时间间隔0-3秒随机数
4、图片内容保存地址with open(“img/” + img_name, mode=“wb”) as f:
mode对应类型主要有以下几种:
r
以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
rb
以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。
r+
打开一个文件用于读写。文件指针将会放在文件的开头。
rb+
以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。
w
打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
wb
以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
w+
打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
wb+
以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
a
打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
ab
以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
a+
打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。
ab+
以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。
以下是设计的案例,主要用来理解消化上面提到的技术难点
import requests
from bs4 import BeautifulSoup
import time
import random
url = "https://www.umei.cc/"
resp = requests.get(url)
# 定义读取文件转码格式
resp.encoding = "utf-8"
# html网页解析器
soup = BeautifulSoup(resp.text, "html.parser")
# 查找所有main标签class="main wrap"从第二个开始,找到后在查找标签为a的,从第1个到11个数据
main_a = soup.find_all("main", attrs="class": "main wrap")[2].find_all("a")[1:11]
main_img = soup.find_all("main", attrs="class": "main wrap")[2].find_all("img")[1:11]
main_name = soup.find_all("main", attrs="class": "main wrap")[2].find_all("span")[1:11]
# 定义查找的集合
namelist = []
alist = []
ilist = []
for i in main_a:
alist.append("https://www.umei.cc" + i.get("href"))
url = "https://www.umei.cc" + i.get("href")
child_page_resp = requests.get(url)
# 定义编码格式utf-8
child_page_resp.encoding = "utf-8"
child_page = BeautifulSoup(child_page_resp.text, "html.parser")
ch_img = child_page.find("section", attrs="class": "img-content").find("img").get("src")
ch_resp = requests.get(ch_img)
# split将文件切割,-1获取最后一个切割数据
img_name = ch_img.split("/")[-1]
count = 0
with open("img/" + img_name, mode="wb") as f:
print("开始写入数据")
time.sleep(random.randint(0, 3))
# 将文件写入到指定文件中
f.write(ch_resp.content)
# 关闭文件流操作
f.close()
print("写入完毕")
# 循环遍历main_img图片地址,通过src属性获取到里面内容,并存储到定义的ilist集合中
for j in main_img:
ilist.append(j.get("src"))
# 循环遍历src标签的值
for k in main_name:
namelist.append(k.text)
以上是关于pyhton爬取一二级网站页面,并将爬取的图片信息保存到本地的主要内容,如果未能解决你的问题,请参考以下文章