python3 网页爬虫图片下载无效链接处理 try except

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3 网页爬虫图片下载无效链接处理 try except相关的知识,希望对你有一定的参考价值。

代码比较粗糙,主要是备忘容易出错的地方。供自己以后查阅。


#图片下载

import re

import urllib.request    #python3中模块名和2.x(urllib)的不一样

site=‘https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC‘

page=urllib.request.urlopen(site)

html=page.read()

html=html.decode(‘utf-8‘)    #读取下来的网页源码需要转换成utf-8格式

reg=r‘src="//(gd.*?jpg)‘

imgre=re.compile(reg)

imglist=re.findall(imgre,html)


trueurls=[]

for i in imglist:

trueurls.append(i.replace(‘gd‘,‘http://gd‘))

trueurls[2]=‘http://wlgsad.com.jpg‘

print (trueurls)


x=200

for j in trueurls:

try:

urllib.request.urlretrieve(j,‘%s.jpg‘ %x)    

except Exception :     #except Exception as e:

pass        #    print (e)

                  #     print (‘有无效链接‘)

x=x+1


在except子句可以打印出一些提示信息

下载图片的时候,如果有无效的链接,可以用try except跳过无效链接继续下一个图片的下载

以上是关于python3 网页爬虫图片下载无效链接处理 try except的主要内容,如果未能解决你的问题,请参考以下文章

python 怎么网页下载文件.

Python3简单爬虫抓取网页图片

python3爬虫爬取煎蛋网妹纸图片

Python3简单爬虫抓取网页图片

Python3爬虫04(其他例子,如处理获取网页的内容)

爬虫+python3(网页图片)