Python爬虫--简单爬取图片

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫--简单爬取图片相关的知识,希望对你有一定的参考价值。

今天晚上弄了一个简单的爬虫,可以爬取网页的图片,现在现在做一下准备工作。

需要的库:urllib 和 re

urllib库可以理解为是一个url下载器,其中的有两个重要的方法 urllib.urlopen()和urllib.read()这两个方法,具体使用可以在网上查到;re这个库提供对正则表达式支持.

我们要爬取的网页是:http://pic.yesky.com/496/33546996d_13.shtml   把美女筱崎爱给拔下来,其实关键就是要写出一个图片地址对应的正则表达式,下面是代码片段

# coding=utf-8

#页面下载器库
import urllib
#提供正则表达式的库
import re
#下载爬行页面函数
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#得到图片
def getImg(html):
    reg = rsrc="(.+?\.jpg)"
    imgre = re.compile(reg) #compile方法把正则表达式编译成一个正则表达式对象
    imglist = re.findall(imgre,html) #读取html中包含imgre的数据
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,%s.jpg%x)
    x+=1
    
#爬取的图片地址格式 src="http://img1.imgtn.bdimg.com/it/u=326965152,678962023&fm=23&gp=0.jpg"
url = http://pic.yesky.com/496/33546996d_13.shtml
html = getHtml(url)
getImg(html)

 

以上是关于Python爬虫--简单爬取图片的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫--简单爬取图片

Python——网络爬虫(爬取网页图片)

Python爬虫入门教程 5-100 27270图片爬取

scrapy按顺序启动多个爬虫代码片段(python3)

Python爬虫入门:27270图片爬取

java的简单网络爬虫(爬取花瓣网的图片)