https连接的前几毫秒发生了什么
Posted 会编程的银猪
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了https连接的前几毫秒发生了什么相关的知识,希望对你有一定的参考价值。
在讨论这个话题之前,先提几个问题:
- 为什么说https是安全的,安全在哪里?
- https是使用了证书保证它的安全的么?
- 为什么证书需要购买?
我们先来看https要解决什么问题
(手机读者推荐移步http://yincheng.site/https)
一、 https解决什么问题
https要解决的问题就是中间人攻击,什么是中间人攻击(Man In The Middle Attack)呢?如下图所示:
你和服务器的连接会经过一个中间人,你以为你和服务器在正常地传输入数据,其实这些数据都先经过了一个中间人,这个中间人可以窥探你的数据或者篡改你的数据后再发给服务器,相反也可以把服务器的数据修改了之后再发给你。而这个中间人对你是透明的,你不知道你的数据已经被人窃取或者修改了。
二、 中间人攻击的方式
常见的有以下两种:
1)域名污染
由于我们访问一个域名时需要先进行域名解析,即向DNS服务器请求某个域名的IP地址。例如taobao.com我这边解析的IP地址为:
在经过DNS的中间链点可能会抢答,返回给你一个错误的IP地址,这个IP地址就指向中间人的机器。
2)APR欺骗
广域网的传输是用的IP地址,而在局域网里面是用的物理地址,例如路由器需要知道连接它的设备的物理地址它才可以把数据包发给你,它会通过一个ARP的广播,向所有设备查询某个IP地址的物理地址是多少,如下所示:
路由器发了一个广播,询问192.168.1.100的物理地址是多少,由于没有人响应,所以它每隔1秒就重新发了个包。由于这个网络上的所有机器都会收到这个包,所以这个时候就可以欺骗路由器:
上面的192.168.1.102就向路由器发了一个响应的包,告诉路由器它的物理地址。
三、https是应对中间人攻击的唯一方式
在ssl的源码里面就有一段注释:
最后一句的意思就是说使用https,是应对中间人攻击的唯一方式。为什么这么说呢,这得从https连接的过程说起。
四、https连接的过程
如果对于一个外行人,可以这么解释:
https连接,服务器发送它的证书给浏览器(客户端),浏览器确认证书正确,并检查证书中对应的主机名是否正确,如果正确则双方加密数据后发给对方,对方再进行解密,保证数据是不透明的
但是如果这个外行人比较聪明,他可能会问你浏览器是怎么检验证书正确的,证书又是什么东西,加密后不会被中间人破解么?
首先证书是个什么东西,可以在浏览器上面看到证书的内容,例如我们访问谷歌,然后点击地址栏的小锁:
再点击详情->查看证书,就可以看到整个证书的完整内容:
接下来再用一个WireShark的抓包工具,抓取整个https连接的包,并分析这些包的内容。
下面以访问淘宝为例,打开淘宝,可以在Chrome里面看到淘宝的IP
然后打开WireShark,设定过滤条件为源IP和目的IP都为上面的IP,就可以观察到整一个连接建立的过程:
第一步是肯定是要先建立TCP连接,这里就不说了,我们从Client Hello开始说起:
1. Client Hello
我们在wireshark里面观察,将client hello里面客户端发给服务器的一些重要信息罗列出来
(1)使用的TLS版本是1.2,TLS有三个版本,1.0,1.1,1.2,1.2是最新的版本,https的加密就是靠的TLS安全传输层协议:
(2)客户端当前的时间和一个随机密码串,这个时间是距Unix元年(1970.1.1)的秒数,这里是147895117,随机数的作用下面再提及。
(3)sessionId,会话ID,第一次连接时为0,如果有sessionId,则可以恢复会话,而不用重复握手过程:
(4)浏览器支持的加密组合方式:可以看到,浏览器一共支持22种加密组合方式,发给服务器,让服务器选一个。具体的加密方式下文再介绍
(5)还有一个比较有趣的东西是域名:
为什么说这个比较特别呢,因为域名是工作在应用层http里的,而握手是发生在TLS还在传输层。在传输层里面就把域名信息告诉服务器,好让服务根据域名发送相应的证书。
可以说,https = http + tls
,如下图所示:
数据传输还是用的http,加密用的tls。tls和ssl又是什么关系?ssl是tls的前身,ssl deprecated之后,才开始有了tls 1.0、1.1、1.2
3. Server Hello
服务器收到了Client Hello的信息后,就给浏览器发送了一个Server Hello的包,这个包里面有着跟Client Hello类似的消息:
(1)时间、随机数等,注意服务器还发送了一个Session Id给浏览器。
(2)服务器选中的加密方式:服务器在客户端提供的方式里面选择了下面这种,这种加密方式也是目前很流行的一种方式:
4. Certificate证书
接着服务器发送了一个证书的包过来:
在WireShark里面展开证书:
服务器总共是发了三个证书,第一个叫做*.tmall.com,第二个证书叫做GlobalSign Org.,第三个叫GlobalSign Root.这三个证书是什么关系呢?这三个证书是相互依赖的关系,在浏览器里面可以看出:
tmall的证书是依赖于GlobalSign Org的证书,换句话说,GlobalSign Org的证书为tmall的证书做担保,而根证书GlobalSign Root为GlobalSign Org做担保,形成一条依赖链。明白这点很重要,从技术的角度上来说,GlobalSign为tmall的证书做签名,只要签名验证正确就说明tmall的证书是合法的。
在tmall的证书里面会指明它的上一级证书是啥:
现在来看下一个证书里面具体有什么内容。
除了上面提到的签名外,每个证书还包含签名的算法,和被签名的证书tbsCertificate(to be signed Certificate)三部分:
这个tbsCertificate里面有什么东西呢?在WireShark里面展开可以看到,里面有申请证书时所填写的国家、省份、城市、组织名称:
以及证书支持的域名,可以看到taobao就在里面:
证书的有效期,可以看到这个证书如果不续费到今年年底就要到期了:
还有证书的公钥,GlobalSign Org的公钥为:
我们把证书的公钥拷贝出来,它是一串270个字节的数字,16进制为540位:
这个公钥是由什么组成的呢?这是由N和e组成的:
其中N是一个大整数,由两个质数相乘得到:
e是一个幂指数。这个就涉及到非对称加密算法,它是针对对称加密算法来说的。什么是对称加密算法呢?所谓对称加密算法是说:会话双方使用相同的加密解密方式,所以会话前需要先传递加密方式或者说是密钥,而这个密钥很可能会被中间人截取。所以后来才有了非对称加密算法:加密和解密的方式不一样,加密用的密钥,而解密用的公钥,公钥是公开的,密钥是不会传播的,可能是保存在拥有视网膜扫描和荷枪实弹的警卫守护的机房当中。
第一个非对称加密算法叫Diffie-Hellman密钥交换算法,它是Diffie和Hellman发明的,后来1977年麻省理工的Rivest、Shamir 和 Adleman提出了一种新的非对称加密算法并以他们的名字命名叫RSA。它的优点就在于:
- 加密和解密的计算非常简单
- 破解十分难,只要密钥的位数够大,以目前的计算能力是无法破解出密钥的
可以说,只要有计算机网络的地方,就会有RSA。RSA加密具体是怎么进行的呢:
5. RSA加密和解密
假设发送的信息为Hello,由于Hello的ASCII编码为:104 101 108 108 111,所以要发送的信息为:
M = 1041010108108111
即先把要发送的文本转成ASCII编码或者是Unicode编码,然后进行加密:
EM = M^e % N
就是把M作e次幂,然后除以N取余数,得到EM,EM即为加密后的信息。其中(N,e)就是上文提到的公钥。接下来将EM发送给对方,对方收到后用自己的密钥进行解密:
M = EM^d % N
将加密的信息作d次幂,再除以N取模,(N,d)就是对方的密钥,这样就能够将EM还原为M,可以证明,只要密钥和公钥是一一配对的,上式一定成立。不知道密钥的人是无法破译的,上文已提到破解密钥是相当困难的。
接下来回到上文提到的证书的公钥,这是一串270个字节的数字,可以拆成两部分N和e:
灰色的数字是用来作为标志的。N是一个16进制为512位、二进制为2048位的大数字。普通的证书是1024位,2048位是一个很高安全级别,换算成10进制是617位,如果你能够将这个617位的大整数拆成两个质数相乘,就可以推导出GlobalSign的密钥,也就是说你破解了GlobalSign的证书(但这是不可能的)。
e为65537,证书通常取的幂指数都为这个数字。
在证书里面知道证书使用的加密算法为RSA + SHA256,SHA是一种哈希算法,可用来检验证书是否被篡改过:
我们将encrypted的值拷贝出来就是证书的签名: