网络协议系列十八 - 网络爬虫/HTTP缓存/IPv6

Posted 2021-06-30 1024星球

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了网络协议系列十八 - 网络爬虫/HTTP缓存/IPv6相关的知识，希望对你有一定的参考价值。

本文仅仅是常见协议的扫盲，具体技术点可参考其他相关文档。

一、VPN

VPN（Virtual Private Network），虚拟私人网络。它可以在公共网络上建立专用网络，进行加密通讯。

1.1. 作用

提高上网的安全性（加密数据）
保护公司内部资料
隐藏上网者的身份（VPN Server转发数据）
突破网站的地域限制
- 有些网站针对不同地区的用户展示不同的内容
突破网络封锁（科学上网）
- 因为有GWF（Great Firewall of China，中国长城防火墙）的限制，有些网站在国内上不了

1.2. 与代理的区别

软件
- VPN一般需要安装VPN客户端软件
- 代理不需要安装额外的软件
安全性
- VPN默认会对数据进行加密
- 代理默认不会对数据进行加密（数据最终是否加密取决于使用的协议本身）
费用
- 一般情况下，VPN比代理贵

1.3. 实现原理

VPN的实现原理是：使用了隧道协议（Tunneling Protocol）。

常见的VPN隧道协议（应用在传输层或数据链路层）：

PPTP（Point to Point Tunneling Protocol）：点对点隧道协议
L2TP（Layer Two Tunneling Protocol）：第二层隧道协议
IPsec（Internet Protocol Security）：互联网安全协议
SSL VPN（如OpenVPN）
…

二、tcpdump

tcpdump是Linux平台的抓包分析工具（命令行），Windows版本是WinDump

使用手册：https://www.tcpdump.org/manpages/tcpdump.1.html

教程：https://danielmiessler.com/study/tcpdump

三、网络爬虫

网络爬虫（Web Crawler），也叫做网络蜘蛛（Web Spider）。模拟人类使用浏览器操作页面的行为，对页面进行相关的操作。

常用的爬虫工具：Python的Scrapy框架。

3.1. 搜索引擎

我们在百度或Google搜索的一些内容是怎么出现在搜索列表中的？其实搜索引擎也用到了爬虫技术，把其他网站数据进行分析建库，当用户搜索关键词时，就会从之前的数据库中筛选出合适的数据给用户。

3.2. 简易实例

可以使用Java的一个小框架Jsoup爬一些简单的数据。

jar包：

https://jsoup.org/packages/jsoup-1.13.1.jar
https://mirror.bit.edu.cn/apache/commons/io/binaries/commons-io-2.8.0-bin.zip

爬取目标：360应用市场-https://ext.se.360.cn/webstore/category

String url = "https://ext.se.360.cn/webstore/category";
Elements apps = Jsoup.connect(url).get().select(".appwrap");
for (Element app : apps) {
  String img = app.selectFirst("img").attr("src");
  String name = app.selectFirst("h3").text();
  String intro = app.selectFirst(".intro").text();
  System.out.println(name + "_" + intro + "_" + img);

  String filepath = "/Users/Developer/Desktop/test/imgs/" + name + ".jpg";
  FileUtils.copyURLToFile(new URL(img), new File(filepath));
}

3.3. robots.txt

robots.txt是存放于网站根目录下的文本文件，比如https://www.baidu.com/robots.txt。用来告诉爬虫哪些内容是不应被爬取的，哪些是可以被爬取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。

它并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私（只能防君子，不能防小人）。

允许所有的爬虫：

User-agent: *
Disallow: 

// 另一种写法:
User-agent: *
Allow: /

仅允许特定的爬虫（name_spider是爬虫名字）：

User-agent: name_spider
Allow:

拦截所有的爬虫：

User-agent: *
Disallow: /

仅禁止爬虫访问特定目录：

User-agent: name_spider
Disallow: /private/

禁止所有爬虫访问特定目录：

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

禁止所有爬虫访问特定文件类型：

User-agent: *
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

四、HTTP缓存

实际上，HTTP的缓存机制远远比上图的流程要复杂。

通常会缓存的情况：GET请求 + 静态资源（比如HTML、CSS、JS、图片等）。

浏览器强制刷新（忽略缓存）：Windows：Ctrl + F5；Mac：command + shift + R。

4.1. 响应头

Pragma：作用类似于Cache-Control，HTTP/1.0的产物
Expires：缓存的过期时间（GMT格式），HTTP/1.0的产物
Cache-Control：设置缓存策略
- no-storage：不缓存数据到本地
- public：允许用户、代理服务器缓存数据到本地
- private：只允许用户缓存数据到本地
- max-age：缓存的有效时间（多上时间不过期），单位：秒
- no-cache：每次需要发请求给服务器询问缓存是否有变化（状态码304-Not Modified），再来决定如何使用缓存

优先级：Pragma > Cache-Control > Expires

Last-Modified：资源的最后一次修改时间
ETag：资源的唯一标识（根据文件内容计算出来的摘要值）

优先级：ETag > Last-Modified

4.2. 请求头

If-None-Match
- 如果上一次的响应头中有ETag，就会将ETag的值作为请求头的值
- 如果服务器发现资源的最新摘要值跟If-None-Match不匹配，就会返回新的资源（状态码200），否则就不会返回资源的具体数据（状态码304）
If-Modified-Since
- 如果上一次的响应头中没有ETag，有Last-Modified，就会将Last-Modified的值作为请求头的值
- 如果服务器发现资源的最后一次修改时间晚于If-Modified-Since，就会返回新的资源（状态码200），否则就不会返回资源的具体数据（状态码304）

4.3. Last-Modified和ETag的比较

Last-Modified的缺陷：

只能精确到秒级别，如果资源在1秒内被修改了，客户端将无法获取最新的资源数据。
如果某些资源被修改了（最后一次修改时间发生了变化），但是内容并没有任何变化。会导致相同的数据重复传输，没有使用到缓存。

以上的缺陷，ETag都可以满足：

只要资源的内容没有变化，就不会重复传输资源数据
只要资源的内容发生了变化，就会返回最新的资源数据给客户端

4.4. 缓存的使用流程

五、IPv6

IPv6（Internet Protocol version 6），网络协议第6版。

用它来取代IPv4主要是为了解决IPv4地址枯竭问题，同时它也在其他方面对于IPv4有许多改进。然而长期以来IPv4在互联网流量中仍占据主要地位，IPv6的使用增长缓慢。在2019年12月，通过IPv6使用Google服务的用户百分率首次超过30%（因为网络协议处在网络层，需要设备和操作系统内核升级支持IPv6）。

IPv6采用128位的地址，而IPv4使用的是32位。支持2^128（约3.4 * 10^38）个地址，就以地球人口70亿计算，每人平均可分得约4.86 * 10^28个IPv6地址。

5.1. 地址格式

IPv6地址为128bit，每16bit一组，共8组。每组以冒号“:”隔开，每组以4位十六进制方式表示，例如2001:0db8:86a3:08d3:1319:8a2e:0370:7344。

类似于IPv4的点分十进制，同样也存在点分十六进制的写法：2.0.0.1.0.d.b.8.8.6.a.3.0.8.d.3.1.3.1.9.8.a.2.e.0.3.7.0.7.3.4.4。

每组前面连续的0可以省略，下面的IPv6地址是等价的：

2001:0db8:02de:0000:0000:0000:0000:0e13`
// 等价于
2001:db8:2de:0:0:0:0:e13

可以用双冒号“::”表示一组0或多组连续的0，但只能出现一次（出现多次会造成歧义），下面的IPv6地址是等价的：

2001:db8:2de:0:0:0:0:e13
// 等价于
2001:db8:2de::e13

::1是本地环回地址（0:0:0:0:0:0:0:1）。

5.2. 首部格式

IPv4的首部格式比较复杂，但Ipv6的首部格式就简单很多：

Ipv6和IPv4的首部字段对比：

黄颜色：IPv6保留IPv4的字段
红颜色：IPv6丢弃IPv4的字段
蓝颜色：字段名字和位置发生变化
绿颜色：IPv6新的字段

Version（占4bit，0110）：版本号
Traffic Class（占8bit）：交通类别
- 指示数据包的类别或优先级，可以帮助路由器根据数据包的优先级处理流量。如果路由器发生拥塞，则优先级最低的数据包将被丢弃。
Payload Length（占16bit）：有效负载长度
- 最大值：65535字节，包括了扩展头部、上层（传输层）数据的长度。
Hop Limit（占8bit）：跳数限制，与IPv4数据包中的TTL相同。
Source Address（占128bit）：源IPv6地址
Destination Address（占128bit）：目的IPv6地址
Flow Label（占20bit）：流标签
- 指示数据包属于哪个特定序列（流），用数据包的源地址、目的地址、流标签标识一个流