urllib库爬虫技术从0开学习

Posted fgxwan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了urllib库爬虫技术从0开学习相关的知识,希望对你有一定的参考价值。

urllib库

urllib库是pytho中一个最基本网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

urllopen函数

在python的urllib库中,有什么函数供我们使用,所以请求相关的方法都集成到urllib.request模块下以面了,先看urlopen函数基础使用:

技术分享图片
from urllib import request
resp = request.urlopen(http://www.baidu.com)
print(resp.read())
View Code

事实上,使用浏览器访问百度右键查看源代码,你会发现跟我们刚才打印出来的数据是一模一样的,也就是说上面三行代码就已经帮我们把百度首页的全部代码全部扒下来,,一个基本的url对应的python真的非常简单,,

以下对urllopen函数的进行详细讲解:
1 url: 请求的url
2 data : 请求的data,如果设置了这个值,那么将变成post请求
3 返回值:返回值是一个http.client.HTTPRespons对象,这个对象是一个类文件句柄有read(size),readline,readlines 以及getcode等方法

 




以上是关于urllib库爬虫技术从0开学习的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫初学-urllib3

python3: 爬虫---- urllib, beautifulsoup

《爬虫学习》(urllib库使用)

python爬虫 urllib库基本使用

python3网络爬虫系统学习:第一讲 基本库urllib

Python爬虫必备技术栈urllib库&&urllib3库