Python爬虫--简单爬取图片

Posted 2020-06-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫--简单爬取图片相关的知识，希望对你有一定的参考价值。

今天晚上弄了一个简单的爬虫，可以爬取网页的图片，现在现在做一下准备工作。

需要的库:urllib 和 re

urllib库可以理解为是一个url下载器,其中的有两个重要的方法 urllib.urlopen()和urllib.read()这两个方法，具体使用可以在网上查到;re这个库提供对正则表达式支持.

我们要爬取的网页是:http://pic.yesky.com/496/33546996d_13.shtml 把美女筱崎爱给拔下来,其实关键就是要写出一个图片地址对应的正则表达式,下面是代码片段

# coding=utf-8

#页面下载器库
import urllib
#提供正则表达式的库
import re
#下载爬行页面函数
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#得到图片
def getImg(html):
    reg = r‘src="(.+?\.jpg)"‘   
    imgre = re.compile(reg) #compile方法把正则表达式编译成一个正则表达式对象
    imglist = re.findall(imgre,html) #读取html中包含imgre的数据
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,‘%s.jpg‘%x)
    x+=1
    
#爬取的图片地址格式 src="http://img1.imgtn.bdimg.com/it/u=326965152,678962023&fm=23&gp=0.jpg"
url = ‘http://pic.yesky.com/496/33546996d_13.shtml‘
html = getHtml(url)
getImg(html)

以上是关于Python爬虫--简单爬取图片的主要内容，如果未能解决你的问题，请参考以下文章