网站访问原理与GFW原理简述

Posted Henrik-Yao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网站访问原理与GFW原理简述相关的知识,希望对你有一定的参考价值。

一.网络分层-OSI

OSI意为开放式系统互联。国际标准组织(国际标准化组织)制定了OSI(Open System Interconnection)模型。这个模型把网络通信的工作分为7层,分别是物理层,数据链路层,网络层,传输层,会话层,表示层和应用层。1至4层被认为是低层,这些层与数据移动密切相关。5至7层是高层,包含应用程序级的数据。每一层负责一项具体的工作,然后把数据传送到下一层。

二.网站访问过程

1.域名解析

域名解析是把域名指向网站空间IP,让人们通过注册的域名可以方便地访问到网站的一种服务。IP地址是网络上标识站点的数字地址,为了方便记忆,采用域名来代替IP地址标识站点地址。域名解析就是域名到IP地址的转换过程。域名的解析工作由DNS服务器完成。
域名解析也叫域名指向、服务器设置、域名配置以及反向IP登记等等。说得简单点就是将好记的域名解析成IP,服务由DNS服务器完成,是把域名解析到一个IP地址,然后在此IP地址的主机上将一个子目录与域名绑定。
互联网中的地址是数字的IP地址,域名解析的作用主要就是为了便于记忆。

当浏览器拿到一个域名(比如访问百度:https://www.baidu.com/),首先通过域名解析获得其IP地址(202.108.22.5),域名与IP地址存在映射关系。

域名解析层级(优先级):

  1. 浏览器缓存(短时)

流览器缓存(Browser Caching)是为了节约网络的资源加速浏览,浏览器在用户磁盘上对最近请求过的文档进行存储,当访问者再次请求这个页面时,浏览器就可以从本地磁盘显示文档,这样就可以加速页面的阅览。

  1. 本地DNS缓存

域名系统(英文:Domain Name System,缩写:DNS)是互联网的一项服务。它作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。DNS使用UDP端口53。当前,对于每一级域名长度的限制是63个字符,域名总长度则不能超过253个字符。

  1. hosts文件

Hosts是一个没有扩展名的系统文件,可以用记事本等工具打开,其作用就是将一些常用的网址域名与其对应的IP地址建立一个关联“数据库”,当用户在浏览器中输入一个需要登录的网址时,系统会首先自动从Hosts文件中寻找对应的IP地址,一旦找到,系统会立即打开对应网页,如果没有找到,则系统会再将网址提交DNS域名解析服务器进行IP地址的解析。
需要注意的是,Hosts文件配置的映射是静态的。

  1. 网卡配置信息里的DNS服务器以及DNS根域名服务器

  2. 通过UDP协议(传输层)向DNS服务器请求ip地址,DNS服务器域名系统解析(应用层)解析后返回正确的ip地址

2.发送HTTP请求

超文本传输协议(Hyper Text Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII形式给出;而消息内容则具有一个类似MIME的格式。这个简单模型是早期Web成功的有功之臣,因为它使开发和部署非常地直截了当。

TCP和UDP协议是TCP/IP协议的核心。 TCP 传输协议:TCP 协议是一TCP (Transmission Control Protocol)和UDP(User Datagram Protocol)协议属于传输层协议。其中TCP提供IP环境下的数据可靠传输,它提供的服务包括数据流传送、可靠性、有效流控、全双工操作和多路复用。通过面向连接、端到端和可靠的数据包发送。通俗说,它是事先为所发送的数据开辟出连接好的通道,然后再进行数据发送;而UDP则不为IP提供可靠性、流控或差错恢复功能。一般来说,TCP对应的是可靠性要求高的应用,而UDP对应的则是可靠性要求低、传输经济的应用

因为HTTP通常运行在TCP协议之上,所以在发送HTTP请求之前需要建立TCP连接。

TCP三次握手

三次握手协议指的是在发送数据的准备阶段,服务器端和客户端之间需要进行三次交互:第一次握手:客户端发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认;第二次握手:服务器收到syn包,必须确认客户的syn(ack=j+1),同时自己也发送一个SYN包(syn=k),即SYN+ACK包,此时服务器进入SYN_RECV状态;第三次握手:客户端收到服务器的SYN+ACK包,向服务器发送确认包ACK(ack=k+1),此包发送完毕,客户端和服务器进入ESTABLISHED状态,完成三次握手。连接建立后,客户端和服务器就可以开始进行数据传输了。


用C表示客户端,S表示服务器,三次握手如下:
C->S
S知道C发送功能正常
S知道S接收功能正常
S->C
C知道C发送功能正常
C知道C接收功能正常
C知道S接收功能正常
C知道S发送功能正常
C->S
S知道S发送功能正常
S知道C接收功能正常
反复确认无异后即可建立通信

3.数据包传输

互联网数据传送业务是指有相关权限的经营者(移动,电信,联通三大ISP)通过组建互联网骨干网和城域网并利用互联网国际出入口提供的互联网数据传送业务。无国内通信设施服务业务经营权的运营者不得建设国内传输设施,应租用有相应经验权运营者的国内传输设施。

互联网服务提供商(Internet Service Provider),简称ISP,指的是面向公众提供下列信息服务的经营者:一是接入服务,即帮助用户接入Internet;二是导航服务,即帮助用户在Internet上找到所需要的信息;三是信息服务,即建立数据服务系统,收集、加工、存储信息,定期维护更新,并通过网络向用户提供信息内容服务。

数据包的传输主要依托于几家国有运营商建立的庞大的骨干网和域域网。

不同ISP建立的不同骨干网之间也有数据交换中心,使得信息和数据包可以自由的从全国任何地方流向其他地方。
而数据包在庞大的“网上公路”迷路的可能性。在各个级别的网路(局域网->域域网->广域网)中,分布着无数路由节点,每一张骨干网都有自己负责的路由群组和节点,整个群组统称为as自治系统(Autonomous system)

每一个骨干网管理的as自治系统都经过名为互联网号码分配局的国际机构分配唯一识别代码,例如,中国电信163骨干网的as自治系统编号为AS4134。每一张骨干网都有内部路由协议,每一个节点都在依据某种规定互相交换他们所连通的ip地址信息,作为数据包在“旅行”过程中的指路人。而全国性的骨干网之间也依靠外部路由协议互相交换它们所掌握的“服务器地图“,典型的有BGP协议。

边界网关协议(BGP)是运行于 TCP 上的一种自治系统的路由协议。 BGP 是唯一一个用来处理像因特网大小的网络的协议,也是唯一能够妥善处理好不相关路由域间的多路连接的协议。 BGP 构建在 EGP 的经验之上。 BGP 系统的主要功能是和其他的 BGP 系统交换网络可达信息。网络可达信息包括列出的自治系统(AS)的信息。这些信息有效地构造了 AS 互联的拓扑图并由此清除了路由环路,同时在 AS 级别上可实施策略决策。

4.传输数据,关闭连接

二.GFW原理

防火长城(英语:Great Firewall,常用简称:GFW,也称中国国家防火墙,俗称墙、网络长城、功夫网等等),是我国在其互联网边界审查系统(包括相关行政审查系统)的统称。此系统起步于1998年。

1.基于UDP协议的域名解析服务劫持/DNS缓存污染

GFW会对所有经过骨干出口路由的基于UDP的DNS域名查询请求进行Intrusion Detection Systems(入侵检测系统)检测,一旦发现处于黑名单关键词中相匹配的域名查询请求,防火长城作为中间设备会向查询者返回虚假结果。
也就是说浏览器无法查询到域名对应的正确IP,也就无法对其进行访问,数据包会传输到虚假的IP,从而没有响应。

2.IP地址或传输层端口人工封锁——BGP路由劫持/“路由黑洞”

BGP劫持就是伪造位于主干道的路由节点的路由表,将其根本没有或者不可能连通的ip地址导入路由表,诱骗邻近节点相信该节点拥有这一ip地址的访问通道。GFW通过人工方式维护一个针对特定IP地址封锁的列表,从而实现特定ip地址的路由欺骗,这样一个节点我们将其称之为“路由黑洞”。

3.TCP RST重置

旁路监听的方式一般是将主交换机的数据镜像到控制系统,控制系统可以采用libpcap捕获数据包。在这种情况下要阻断tcp连接的建立只要在监听到第一次握手的时候,控制系统伪造服务器发起第二次握手回应,就能阻断客户端与服务器连接的建立。因为我们的系统在内网,发出的报文肯定比服务器快,这样客户端接收到我们伪造的报文以后会回应第三次握手,当服务器真正的报文到达的时候客户端将不再处理,此时客户端再向服务器请求数据,因为seq号和ack号出错,服务器不会受理客户端的请求。

4.协议检测→根据流量协议拆包→关键词匹配→封锁

HTTP协议有非常明显的特征,可以轻易被GFW系统检测和识别,GFW进而依据HTTP协议规则对数据包进行拆解,由于其表现为明文,所以可以直接进行关键词匹配。例如,从HTTP的GET请求中取得请求的URL。然后GFW拿到这个请求的URL去与关键字做匹配,比如查找Twitter是否在请求的URL中。而关键字匹配使用的依旧是一些高效的正则表达式算。

5.深度包检测(机器学习识别翻墙流量→直接阻断)

对于混淆流量和非传统加密协议,GFW正在使用大家耳熟能详的“人工智能”技术,将这些各种各样难以判断和识别的翻墙流量与正规的政企跨境流量相区分开来。

6.DDoS攻击

分布式拒绝服务攻击(英文意思是Distributed Denial of Service,简称DDoS)是指处于不同位置的多个攻击者同时向一个或数个目标发动攻击,或者一个攻击者控制了位于不同位置的多台机器并利用这些机器对受害者同时实施攻击。由于攻击的发出点是分布在不同地方的,这类攻击称为分布式拒绝服务攻击,其中的攻击者可以有多个。

版权说明
名词解释参考百度百科
部分内容参考微博博主丽丽-风暴烈酒

以上是关于网站访问原理与GFW原理简述的主要内容,如果未能解决你的问题,请参考以下文章

请简述ASP工作原理

NFS工作原理简述

https原理简述

虚拟ip原理简述

简述rfid定义 组成及工作原理

简述WEB系统的架构原理