Python 爬虫 2HTTP基本原理

Posted SAP剑客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 爬虫 2HTTP基本原理相关的知识,希望对你有一定的参考价值。

HTTP基本原理

基本概念

URL

URL(Uniform Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简介的表示,是互联网上标准资源的地址。互联网上每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

hypertext

hypertext(超文本),浏览器里面看到的网页就是超文本解析而成,其网页源代码是一系列的html代码,如“img”表示图片,“p”指定段落等。

 

 

Http基本原理

http和https:访问资源需要的协议类型,还有其他的类型,比如ftp,sftp,smb等;

http:Hyper text transfer protocol,超文本传输协议,网络传输超文本数据到本地浏览器的传送协议,保证高效而准确的传送超文本文档;

https:Hyper text transfer protocol over secure socket layer,以安全为目标的http通道,http下加入ssl层。作用是建立一个安全通道来保证数据传输的安全,确认网站的真实性;

Http请求过程

浏览器中输入url后,浏览器向网站所在服务器发送一个请求,网站服务器接收请求,并对这个请求进行处理和解析,然后返回对应的响应,传回给浏览器,再通过浏览器解析出来。

 请求:包括四部分内容

  • 请求的网站(request url)
  • 请求的方法(request method)
  • 请求头(request header):用来说明服务器要使用的附加信息,比较重要的信息有cookie和user-agent。
  • 请求体(request body):一般承载的内容是post请求中的表单数据,对于get请求,请求体为空。

 

 

请求的方法主要分为getpost

get请求:

请求中的参数包含在url里面;

请求提交的数据最多只有1024字节(长度限制);

百度中输入关键字,其中wd表示要搜索的关键字

post请求:

表单提交时候发起,比如用户登录功能;

数据以表单的形式传输,不会体现在url中;

请求提交的数据没有大小限制;

数据传输更安全(因为参数不会体现在url中,比如银行卡账户和密码);

 

 

以上是关于Python 爬虫 2HTTP基本原理的主要内容,如果未能解决你的问题,请参考以下文章

python网络爬虫进阶之HTTP原理,爬虫的基本原理,Cookies和代理介绍

python爬虫基本原理及入门

Python爬虫知识点——爬虫的基本原理

python应用之爬虫实战1 爬虫基本原理

Python爬虫学习二------爬虫基本原理

Python3 爬虫的基本原理