爬虫基础---HTTP协议理解网页的基础知识爬虫的基本原理

Posted weihengblog

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫基础---HTTP协议理解网页的基础知识爬虫的基本原理相关的知识,希望对你有一定的参考价值。

一、HTTP协议的理解

URL和URI

在学习HTTP之前我们需要了解一下URL、URI(精确的说明某资源的位置以及如果去访问它)

URL:Universal Resource Locator 统一资源定位符,描述了一台特定服务器上某资源的特定位置。

URI :Uniform Resource Identifier 统一资源标识符,URI有两种表现形式URL和URN。

HTTP和HTTPS

我们经常会在URL的首部会看到http或者https,这个就是访问资源需要的协议类型,除了http和https还有ftp,sftp,smb等。在爬虫中,我们常用的就是http和https。

http:HyperText Transfer Protocol 超文本传输协议是互联网上应用最为广泛的一种网络协议。所有的www文件都要遵守这个标准。HTTP是一个客户端和服务器端请求和应答的标准,它使用socke基于TCP建立的,所以http是可靠的数据传输协议,由于它是短链接的,也就是一次请求,一次响应断开,所以它表现处无状态的现象。目前广泛使用的是 HTTP 1.1 版本。

https : Hyper Text Transfer Protocol over Secure Socket Layer是以安全为目标的 HTTP 通道,简单讲是HTTP的安全版,即 HTTP 下加入 SSL 层,简称为 HTTPS。HTTPS的安全基础是SSL,所以他传输的内容都是经过SSL加密的,它的主要作用:

  1. 建立一个信息安全通道,来保证数据的传输安全
  2. 确认网站的真实性,凡是使用了 https 的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过 CA 机构颁发的安全签章来查询。

HTTP和HTTPS的区别:

  1. https协议需要到ca申请证书,一般免费证书很少,需要交费.
  2. http是超文本传输协议,信息是明文传输,https 则是具有安全性的ssl加密传输协议。
  3. http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。
  4. http的连接很简单,是无状态的;HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,比http协议安全。

 

以上是关于爬虫基础---HTTP协议理解网页的基础知识爬虫的基本原理的主要内容,如果未能解决你的问题,请参考以下文章

httpclient下载网页源码---java基础爬虫

小白必学的爬虫基础

node.js基础模块http网页分析工具cherrio实现爬虫

爬虫基础 2.1 http原理

爬虫基础 2.1 http原理

爬虫基础 2.1 http原理