python爬取网页图片

Posted 2020-09-30

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬取网页图片相关的知识，希望对你有一定的参考价值。

在Python中使用正则表达式，一个小小的爬虫，抓取百科词条网页的jpg图片。下面就是我的代码，作为参考：

#coding=utf-8
# __author__ = ‘Hinfa‘
import re
import os
from urllib import request as req

url=‘https://baike.baidu.com/item/%E5%B9%BF%E5%B7%9E/72101?fr=aladdin‘
path=‘Test//百科广州图片2‘
os.mkdir(path)
fo=open(path+‘//filecatalog.txt‘,‘w+‘)
fo.write(‘爬取jpg目录：‘)
page=req.urlopen(url)
html=page.read().decode(‘utf-8‘)
jpgre=re.compile(r‘https.*?\\.jpg‘)
jpglist=re.findall(jpgre,html)
i=0
for jpg in jpglist:
    jpg=re.sub(r‘\\\\\\/‘,‘/‘,jpg)
    print(jpg)    
    filepath=path+‘//%d.jpg‘%i
    fo.write(‘\\n‘+jpg)
    req.urlretrieve(jpg,filepath)
    i+=1
fo.write(‘\\n‘+‘爬取共计‘+str(i)+‘个‘)
fo.flush()
fo.close()

程序运行结果：

技术分享

然后打开目录文件里生成的filecatalog.txt文件，爬取的内容如下:

技术分享

目录地址下载的图片：

技术分享

第一次爬虫，很兴奋，也觉得很神奇:-)

以上是关于python爬取网页图片的主要内容，如果未能解决你的问题，请参考以下文章