python爬虫01-使用urllib爬取网页

Posted 2020-11-27 buzhihuoyu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫01-使用urllib爬取网页相关的知识，希望对你有一定的参考价值。

 1 import urllib.request  # 导入模块
 2 import urllib.parse
 3 
 4 # 将网页赋给变量file
 5 file = urllib.request.urlopen("http://www.baidu.com")
 6 
 7 # 读取网页
 8 data = file.read()  # 读取全部内容，结果作为一个字符串变量
 9 dataline = file.readline()  # 读取一行的内容
10 datalines = file.readlines()  # 读取全部内容，赋值给一个列表
11 
12 # 存储网页
13 fhandle = open("./1.html","wb")  # 以wb方式打开文件
14 fhandle.write(data)  # 写入
15 fhandle.close()  # 关闭文件
16 
17 # 另一种方式,直接存储网页 使用urlretrieve
18 filename = urllib.request.urlretrieve("http://www.baidu.com",filename="./2.html")
19 urllib.request.urlcleanup()  # 清除urlretrieve产生的缓存
20 
21 #其他常用内容
22 file.info()  # 输出对应网页的info
23 file.getcode()  # 获取当前爬取网页的状态码，若返回值为200则正确，反之错误
24 file.geturl()  # 获取爬取网页的url
25 urllib.parse.quote("http://www.baidu.com")  # 对url中的非AscII码进行编码
26 urllib.parse.unquote("http%3A//www.baidu.com")  # 解码，恢复成原来的网址

以上是关于python爬虫01-使用urllib爬取网页的主要内容，如果未能解决你的问题，请参考以下文章

Python3爬虫_使用Urllib进行网络爬取

Python 爬虫篇 - 通过urllib.request伪装成浏览器绕过反爬虫爬取网页所有连接实例演示，urllib2库的安装

Python爬虫--简单爬取图片

python 爬虫 requests+BeautifulSoup 爬取简单网页代码示例

如何用Python爬取数据？

python爬虫抓下来的网页，中间的中文乱码怎么解决