Python爬虫第一课

Posted break03

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫第一课相关的知识,希望对你有一定的参考价值。

学习爬虫的目的是什么?

我目前的理解是爬虫是为了批量访问并获取数据,比如我希望分析各地房价的变化,那我就需要定期爬取房地产相关网站最新房价数据。

 

先看下面的代码

import requests #import requests包
url = ‘http://www.baidu.com‘
resp = requests.get(url)
print(resp) #返回<Response [200]>

 如果是小白,可能会有以下几个问题

1. url是什么?

2. requests.get(url)这一步发生了什么?

3. 返回<Response [200]>是什么?

我想这里需要暂时脱离Python,推荐看一看《网络是怎么连接的》这本书

1. url是什么?

用户在浏览器中输入的网址,即url。"http:"表示使用http协议访问web服务器,"www.baidu.com"即需要访问名称为www.baidu.com的web服务器,这里省略了具体要访问的文件,默认为index.html

2. requests.get(url)这一步发生了什么?

生成HTTP请求消息需要两个内容:访问目标(通过解析url就知道用户想访问的目标是什么,比如是百度的某个图片),需要进行什么操作(一般我们可以感知到的就get和post方法)

略过一系列的发送请求消息过程,得到响应消息……

3. 返回<Response [200]>是什么?

status code 为200,表示请求已成功,请求所希望的响应头或数据体将随此响应返回。

 

以上是关于Python爬虫第一课的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫第一课 Python爬虫环境与爬虫简介

Python爬虫第一课

python 爬虫学习第一课

网络爬虫学习小组·第一课 | Python安装基本语法与JupyterLab代码编辑器配置

python第一课

第一课:网络爬虫准备