爬虫学习笔记 -- 常见名词解释
Posted web安全工具库
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫学习笔记 -- 常见名词解释相关的知识,希望对你有一定的参考价值。
0x01 HTTP和HTTPS
HTTP:超文本传输协议,就是我们常见到的网页
HTTPS:超文本传输协议plus
HTTP请求:客户端发送请求到服务器
客户端====(Request)=》服务器
HTTP相应:服务器将信息返回到客户端
客户端《====(Response)=服务器
0x02 请求体
编辑切换为居中
添加图片注释,不超过 140 字(可选)
0x03 请求方法和请求头
1、GET:传输数据可见,有长度限制,都在URL里面
2、POST:传输数据不可见,无长度限制
3、Accept:浏览器可接受的MIME类型。
4、Accept-Encoding:浏览器能够进行解码的数据编码方式,比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的html页面。许多情形下这可以减少5到10倍的下载时间。
5、Accept-Language:浏览器所希望的语言种类,当服务器能够提供一种以上的语言版本时要用到。
6、Connection:表示是否需要持久连接。如果Servlet看到这里的值为“Keep-Alive”,或者看到请求使用的是HTTP 1.1(HTTP 1.1默认进行持久连接),它就可以利用持久连接的优点,当页面包含多个元素时(例如Applet,图片),显著地减少下载所需要的时间。要实现这一点,Servlet需要在应答中发送一个Content-Length头,最简单的实现方法是:先把内容写入ByteArrayOutputStream,然后在正式写出内容之前计算它的大小。
7、Content-Length:表示请求消息正文的长度。
8、Cookie:这是最重要的请求头信息之一
9、Host:初始URL中的主机和端口。
10、Referer:包含一个URL,用户从该URL代表的页面出发访问当前请求的页面。
11、User-Agent:浏览器类型,如果Servlet返回的内容与浏览器类型有关则该值非常有用。
0x04 响应头
1、Cache-Control:缓存相关信息
2、Content-Type:text/html;charset=UTF-8 告诉客户端,资源文件的类型,还有字符编码,客户端通过utf-8对资源进行解码,然后对资源进行html解析。通常我们会看到有些网站是乱码的,往往就是服务器端没有返回正确的编码。
3、Content-Encoding:gzip 告诉客户端,服务端发送的资源是采用gzip编码的,客户端看到这个信息后,应该采用gzip对资源进行解码。
4、Date: Tue, 03 Apr 2020 03:52:28 GMT 这个是服务端发送资源时的服务器时间,GMT是格林尼治所在地的标准时间。http协议中发送的时间都是GMT的,这主要是解决在互联网上,不同时区在相互请求资源的时候,时间混乱问题。
5、Server:Tengine/1.4.6 这个是服务器和相对应的版本,只是告诉客户端服务器信息。
6、Transfer-Encoding:chunked 这个响应头告诉客户端,服务器发送的资源的方式是分块发送的。一般分块发送的资源都是服务器动态生成的,在发送时还不知道发送资源的大小,所以采用分块发送,每一块都是独立的,独立的块都能标示自己的长度,最后一块是0长度的,当客户端读到这个0长度的块时,就可以确定资源已经传输完了。
7、Expires:Sun, 1 Jan 1994 01:00:00 GMT 这个响应头也是跟缓存有关的,告诉客户端在这个时间前,可以直接访问缓存副本,很显然这个值会存在问题,因为客户端和服务器的时间不一定会都是相同的,如果时间不同就会导致问题。所以这个响应头是没有Cache-Control:max-age=*这个响应头准确的,因为max-age=date中的date是个相对时间,不仅更好理解,也更准确。
8、Last-Modified: Dec, 26 Dec 2019 17:30:00 GMT 所请求的对象的最后修改日期(按照 RFC 7231 中定义的“超文本传输协议日期”格式来表示)
9、Connection:keep-alive 这个字段作为回应客户端的Connection:keep-alive,告诉客户端服务器的tcp连接也是一个长连接,客户端可以继续使用这个tcp连接发送http请求。
10、Refresh: 5; url=http://baidu.com 用于重定向,或者当一个新的资源被创建时。默认会在5秒后刷新重定向。
11、响应状态码
1xx 消息,一般是告诉客户端,请求已经收到了,正在处理,别急...
2xx 处理成功,一般表示:请求收悉、我明白你要的、请求已受理、已经处理完成等信息.
3xx 重定向到其它地方。它让客户端再发起一个请求以完成整个处理。
4xx 处理发生错误,责任在客户端,如客户端的请求一个不存在的资源,客户端未被授权,禁止访问等。
5xx 处理发生错误,责任在服务端,如服务端抛出异常,路由出错,HTTP版本不支持等。
0x05 Session和Cookie
1、Session:服务器存储的客户端凭证
2、Cookie:本地存储的客户端凭证
0x06 代理
如果网站屏蔽ip,可以通过代理绕过该限制
0x07 多线程和多进程
一个进程可以有多条线程,提高爬虫的速度
0x08 声明
仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。
欢迎关注编程者吧
编辑切换为居中
添加图片注释,不超过 140 字(可选)
以上是关于爬虫学习笔记 -- 常见名词解释的主要内容,如果未能解决你的问题,请参考以下文章
常见的一些反爬虫策略破解方式-Java网络爬虫系统性学习与实战系列(11)