python3的一个简单爬虫
Posted 不知火
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3的一个简单爬虫相关的知识,希望对你有一定的参考价值。
#coding=utf-8 import re import urllib.request def gethtml(url): page = urllib.request.urlopen(url) html = page.read() html = html.decode(‘UTF-8‘) return html #Urllib 模块提供读取页面数据的接口 #urllib.request.urlopen()方法用于打开一个url地址 #read()方法用于读取url上的数据 print(getHtml("http://tieba.baidu.com/p/2460150866")) def getImg(html): reg = r‘src="(.+?\.jpg)" pic_ext‘ imgre = re.compile(reg) #re.compile()可以把正则表达式编译成一个正则表达式对象 imglist = re.findall(imgre, html) #re.findall()方法读取html中包含imgre(正则表达式)的数据 num = 0 for imgurl in imglist: urllib.request.urlretrieve(imgurl,‘%s.jpg‘ % num) #urllib.request.urlretrieve()方法,直接将远程数据下载到本地 num+=1 if num>10: return num html = getHtml("http://tieba.baidu.com/p/2460150866") print(getImg(html))
以上是关于python3的一个简单爬虫的主要内容,如果未能解决你的问题,请参考以下文章