python爬虫01-使用urllib爬取网页
Posted buzhihuoyu
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫01-使用urllib爬取网页相关的知识,希望对你有一定的参考价值。
1 import urllib.request # 导入模块 2 import urllib.parse 3 4 # 将网页赋给变量file 5 file = urllib.request.urlopen("http://www.baidu.com") 6 7 # 读取网页 8 data = file.read() # 读取全部内容,结果作为一个字符串变量 9 dataline = file.readline() # 读取一行的内容 10 datalines = file.readlines() # 读取全部内容,赋值给一个列表 11 12 # 存储网页 13 fhandle = open("./1.html","wb") # 以wb方式打开文件 14 fhandle.write(data) # 写入 15 fhandle.close() # 关闭文件 16 17 # 另一种方式,直接存储网页 使用urlretrieve 18 filename = urllib.request.urlretrieve("http://www.baidu.com",filename="./2.html") 19 urllib.request.urlcleanup() # 清除urlretrieve产生的缓存 20 21 #其他常用内容 22 file.info() # 输出对应网页的info 23 file.getcode() # 获取当前爬取网页的状态码,若返回值为200则正确,反之错误 24 file.geturl() # 获取爬取网页的url 25 urllib.parse.quote("http://www.baidu.com") # 对url中的非AscII码进行编码 26 urllib.parse.unquote("http%3A//www.baidu.com") # 解码,恢复成原来的网址
以上是关于python爬虫01-使用urllib爬取网页的主要内容,如果未能解决你的问题,请参考以下文章
Python 爬虫篇 - 通过urllib.request伪装成浏览器绕过反爬虫爬取网页所有连接实例演示,urllib2库的安装