Python爬虫--简单爬取图片
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫--简单爬取图片相关的知识,希望对你有一定的参考价值。
今天晚上弄了一个简单的爬虫,可以爬取网页的图片,现在现在做一下准备工作。
需要的库:urllib 和 re
urllib库可以理解为是一个url下载器,其中的有两个重要的方法 urllib.urlopen()和urllib.read()这两个方法,具体使用可以在网上查到;re这个库提供对正则表达式支持.
我们要爬取的网页是:http://pic.yesky.com/496/33546996d_13.shtml 把美女筱崎爱给拔下来,其实关键就是要写出一个图片地址对应的正则表达式,下面是代码片段
# coding=utf-8 #页面下载器库 import urllib #提供正则表达式的库 import re #下载爬行页面函数 def getHtml(url): page = urllib.urlopen(url) html = page.read() return html #得到图片 def getImg(html): reg = r‘src="(.+?\.jpg)"‘ imgre = re.compile(reg) #compile方法把正则表达式编译成一个正则表达式对象 imglist = re.findall(imgre,html) #读取html中包含imgre的数据 x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl,‘%s.jpg‘%x) x+=1 #爬取的图片地址格式 src="http://img1.imgtn.bdimg.com/it/u=326965152,678962023&fm=23&gp=0.jpg" url = ‘http://pic.yesky.com/496/33546996d_13.shtml‘ html = getHtml(url) getImg(html)
以上是关于Python爬虫--简单爬取图片的主要内容,如果未能解决你的问题,请参考以下文章