Varnish的VCL

Posted 2020-10-25 shenxm

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Varnish的VCL相关的知识，希望对你有一定的参考价值。

Varnish的子进程

VCL

	Varnish配置语言VCL是一种“域”专有类型的配置语言，用于描述Varnish Cache的请求处理和文档高速缓存策略。
	当加载新配置时，Manager进程会创建VCC进程，然后将VCL代码转换为C代码，C代码被gcc编译成共享对象，然后共享对象被加载到cacher进程中。
	VCL有多个状态引擎（state engine），状态之间存在相关性，但状态引擎彼此间互相隔离。
	每个状态引擎可使用return(x)指明关联至哪个下一级引擎，每个状态引擎对应于vcl文件中的一个配置段，即为subroutine。
		vcl_hash --> return(hit) --> vcl_hit

varnish的有限状态机

	实际上		
		vcl_recv ——>vcl_purge/vcl_pipe/vcl_hash		
		vcl_hash——>vcl_miss/vcl_hit		
		其他的如图所示		
		vcl_hash --> return(X) --> vcl_X		
				
	VCL工作流看作是一个有限状态机 。
	每个请求被分开处理，每个请求在任何给定的时间都是独立于其他人的，状态是相关的但也是孤立的。
	内置的VCL代码始终存在，并附加在您自己的VCL下面。
	当Varnish处理请求时，它首先解析请求本身，稍后Varnish将请求方法从头文件中分离出来，验证它是否是有效的HTTP请求等等。
	当基本解析完成后，首先检查策略以作出决定，策略是VCL代码用于做出决定的一组规则。
	每个状态都在VCL编码中有对应的可用参数，在VCL上的状态被概念化为子进程，在VCL中采用的等待状态描述中的等待状态即不是参数也不是返回值。
	每个内置的子程序以前缀vcl_开始，被return(action)终止，退出当前状态并指示varnish进入下一个状态，其中action是一个关键词用于指定期望的输出。
	子进程可以检查和操控http报文头部区域和各种其他方面的请求，并指示如何处理请求。
	varnish创建的子进程被挂在varnish的工作中，这些子进程被以vcl_为前缀来命名的，而我们自己的进程就不能以其为前缀命名。
	我们称这些有关状态的子进程为状态引擎（state engine），VCL有多个状态引擎，状态之间存在相关性，但状态引擎彼此间互相隔离，每个状态引擎可使用return(x)指明关联至哪个下一级引擎，每个状态引擎对应于vcl文件中的一个配置段，即为subroutine。
	vcl_recv的默认配置：
		sub vcl_recv {
			if (req.method == "PRI") {
				/* We do not support SPDY or HTTP/2.0 */
				return (synth(405));
			}
			if (req.method != "GET" &&
			req.method != "HEAD" &&
			req.method != "PUT" &&
			req.method != "POST" &&
			req.method != "TRACE" &&
			req.method != "OPTIONS" &&
			req.method != "DELETE") {
				/* Non-RFC2616 or CONNECT which is weird. */
				return (pipe);
			}
	
			if (req.method != "GET" && req.method != "HEAD") {
				/* We only deal with GET and HEAD by default */
				return (pass);
			}
			if (req.http.Authorization || req.http.Cookie) {
				/* Not cacheable by default */
				return (pass);
			}
				return (hash);
			}
		}

客户端和后端工作线程的详细的varnish请求流程

	Client Side：
		vcl_recv, vcl_pass, vcl_hit, vcl_miss, vcl_pipe, vcl_purge, vcl_synth, vcl_deliver
	Backend Side：
		vcl_backend_fetch, vcl_backend_response, vcl_backend_error
	vcl_recv：
		hash：vcl_hash
		pass: vcl_pass 
		pipe: vcl_pipe
		synth: vcl_synth
		purge: vcl_hash --> vcl_purge
	vcl_hash：
		lookup：
		hit: vcl_hit
		miss: vcl_miss
		pass, hit_for_pass: vcl_pass
		purge: vcl_purge
	两个特殊的引擎：
		vcl_init：在处理任何请求之前要执行的vcl代码：主要用于初始化VMODs；
		vcl_fini：所有的请求都已经结束，在vcl配置被丢弃时调用；主要用于清理VMODs；

VCL语法

		VCL文件以vcl 4.0开始;
		//，＃和/ *  * /是注释
		子进程用sub关键字声明
		没有循环，状态有限的变量
		用下一个关键字作为return()函数的参数来终止语句，即：return(action)
		特定领域
	从Varnish 4.0开始，每个VCL文件必须首先在文件顶部用一个特殊的标记声明它的版本。
	块由花括号分隔，以分号结尾。
	VCL中的子程序既不带参数，也不返回值。
	VCL中的子程序只能通过HTTP头交换数据。
	VCL有终止语句，而不是传统的返回值。
	子程序在执行return(*action*)语句时结束执行。
	该行action告诉varnish下一步该做什么。
	VCL有两个指令来使用来自另一个文件的内容，这些指令是include和import，并用于不同的目的。
		include用于从另一个文件插入VCL代码，Varnish查找被varnishd的vcl_dir参数指定目录中的文件，请注意include语法中的引号。
		import用于加载VMOD并将其功能提供给VCL代码，Varnish将查找VMOD以加载到由varnishd的vmod_dir参数指定的目录。
		请注意import语法中缺少引号，你可以使用varnishtest中的include和import。
	三类主要语法：
		sub subroutine {
			...
		}
		
		if CONDITION {
			...
		} else {	
			...
		}
		
		return(), hash_data()

VCL函数、关键字和变量

	函数：
		regsub(str, regex, sub)
		regsuball(str, regex, sub)
		ban(boolean expression)
		hash_data(input)
		synthetic(str)
	Keywords:
		call subroutine
		return(action)
		new
		set
		unset 
	操作符：
		==, !=, ~, >, >=, <, <=
		逻辑操作符：&&, ||, !
		变量赋值：=
	举例：
		obj.hits是内建变量，用于保存某缓存项的从缓存中命中的次数；
		if (obj.hits>0) {
			set resp.http.X-Cache = "HIT via " + server.ip;
				} else {
					set resp.http.X-Cache = "MISS from " + server.ip;
				}
	
	变量类型：
		内建变量：
			req.*：request，表示由客户端发来的请求报文相关；
				req.http.*
					req.http.User-Agent, req.http.Referer, ...
			bereq.*：由varnish发往BE主机的httpd请求相关；
				bereq.http.*
			beresp.*：由BE主机响应给varnish的响应报文相关；
				beresp.http.*
			resp.*：由varnish响应给client相关；
			obj.*：存储在缓存空间中的缓存对象的属性；只读；
			
		常用变量：
			bereq.*, req.*：
				bereq.http.HEADERS
				bereq.request：请求方法；
				bereq.url：请求的url；
				bereq.proto：请求的协议版本；
				bereq.backend：指明要调用的后端主机；
				req.http.Cookie：客户端的请求报文中Cookie首部的值； 
				req.http.User-Agent ~ "chrome"
			beresp.*, resp.*：
				beresp.http.HEADERS
				beresp.status：响应的状态码；
				reresp.proto：协议版本；
				beresp.backend.name：BE主机的主机名；
				beresp.ttl：BE主机响应的内容的余下的可缓存时长；
			obj.*
				obj.hits：此对象从缓存中命中的次数；
				obj.ttl：对象的ttl值
			server.*
				server.ip：varnish主机的IP；
				server.hostname：varnish主机的Hostname；
			client.*
				client.ip：发请求至varnish主机的客户端IP；
			
		用户自定义：
			set 
			unset 

	vcl_backend_response
			覆盖某些URL的缓存时间
			剥离Set-Cookie不需要的头部字段
			剥离Vary头部字段
			将helper-headers添加到对象以用于禁止
			清理服务器响应
			应用其他缓存策略
		vcl_backend_response采用以下其中之一会被终止：deliver，retry，abandon。
		deliver终止动作可以或者可以不依赖于后端的响应插入对象到缓存中。
		retry操作使Varnish通过调用vcl_backend_fetch子程序再次将请求传输到后端。
		abandon操作会放弃来自后端的任何响应。
		后端可能会响应一个304HTTP头部，当有时间戳if-modified-since在http头部，且请求对象没能被修改时304响应会发生。
		如果请求触及一个非新鲜的对象，Varnish将If-Modified-Since头的值添加t_origin到请求中，并将其发送到后端。
		304响应不包含消息正文，因此Varnish使用缓存中的实体构建响应，304响应更新缓存对象的属性。
		内建vcl_backend_response
			sub vcl_backend_response {
				if (beresp.ttl <= 0s ||
					beresp.http.Set-Cookie ||
					beresp.http.Surrogate-control ~ "no-store" ||
					(!beresp.http.Surrogate-Control &&
					beresp.http.Cache-Control ~ "no-cache|no-store|private") ||
					beresp.http.Vary == "*") {
					/*
					 * Mark as "Hit-For-Pass" for the next 2 minutes
					 */
					set beresp.ttl = 120s;
					set beresp.uncacheable = true;
				}
				return (deliver);
			}
			vcl_backend_response内建子进程被设计于避免缓存那些不希望的情况。
			例如，避免缓存cookies响应，带有set-cookie http头域的响应，这个内建子进程也避免请求serialization，这个在waiting state选项中有描述。
			为避免请求serialization，beresp.uncacheable被设定为true，并轮流创建以hit-fot-pass对象。
			hti-fot-pass详细解释了这个对象的类型。
			如果你仍然决定通过采用自己设定的来跳过内建vcl_backend_response子进程，请确保绝不要设定beresp.ttl为0。
			如果你跳过内建子进程并设置TLL值为0，可以有效地从缓存中删除最终有可能用于避免请求serialization的对象。
			berep.ttl的初始值
				在varnish运行vcl_backend_response前，beresp.ttl变量就已经被设定了。
				beresp.ttl用它在下面找到的第一个值进行初始化：
					Cache-Control响应头字段中的s-maxage变量
					Cache-Control响应头字段中的max-age变量
					Expires响应报头字段
					default_ttl参数
				默认情况，下面的状态码会被缓存：
					200：ok
					203：非权威信息
					300：多种选择
					301：永久移动
					302：暂时移动
					304：没有修改
					307：临时重定向
					410：gone
					404: Not Found
				你可以不采用上面列出的而缓存其他状态码，但你需要在vcl_backend_response中给beresp.ttl设置一个正值。
				因为beresp.ttl的设置是在vcl_backend_response执行之前，你可以修改cache-control头域的导引而不英雄beresp.ttl，反之亦然。
				后端响应可能包括共享缓存s-maxage的最大响应头字段，通过所有varnish服务该字段覆盖了所有max-age值。
				例如，如果后端发送cache-control：max-age=300，s-maxage=3600，所有varnish installations将缓存带有一个age值大于等于3600秒的缓存对象，这就意味着在age为301到3600s间的响应将不会被客户端web浏览器缓存，这是因为age的值超过了max-age。
				一个明智的方法是使用s-maxage指令来指示varnish缓存响应。然后，在递送响应前使用vcl_backend_response上的regsub()来删除s-maxage指定。采用这个方法，你可以为varnish servers安全地使用s-maxage，并为客户端设置max-age为持续缓存。
				警告 ：
					请记住，删除或更改Age响应标题字段可能会影响响应在下游的处理方式。删除Age字段的影响取决于下游中间件或客户端的HTTP实施。例如，假设您有三个varnish服务器串行设置。如果您删除Age第一个Varnish服务器中的字段，则第二个Varnish服务器将假定Age=0。在这种情况下，您可能会无意中将陈旧的对象传递给客户端。
			示例：
				1.设置.jpg urls的TTL设置为60秒
					sub vcl_backend_response {
						if (bereq.url ~ "\\.jpg$") {
							set beresp.ttl = 60s;
						}
					}
					上面的例子将以.jpg结尾的所有URL缓存60秒。请记住，内置的VCL仍然被执行。这意味着带有Set-Cookie字段的图像不会被缓存。
				2.缓存.JPG 60秒仅当s-maxage不存在
					sub vcl_backend_response {
						if (beresp.http.cache-control !~ "s-maxage" && bereq.url ~ "\\.jpg$") {
							set beresp.ttl = 60s;
						}
					}

VCL子程序

	VCL子进程，在其中定制Varnish的行为。
	VCL子例程可用于：
		添加自定义标头，更改Varnish错误消息的外观，在Varnish中添加HTTP重定向功能，清除内容以及定义缓存对象的哪些部分是唯一的。
	注意 
		强烈建议尽可能让默认的内置子程序，内置子程序的设计考虑到安全性，这通常意味着它们可以合理的方式处理VCL代码中的任何缺陷。
	vcl_recv
			规范化客户端输入
			选择一个后端Web服务器
			重新编写Web应用程序的客户端数据
			根据客户端输入决定缓存策略
			访问控制列表（ACL）
			安全屏障，例如针对SQL注入攻击
			修复错误，例如index.htlm- >index.html
		vcl_recv是Varnish第一个VCL子进程，将客户端请求解析为其基本数据结构之后执行。 
		vcl_recv有四个主要用途：
			修改客户端数据以减少缓存的多样性。
			决定使用哪个Web服务器。
			根据客户端数据决定缓存策略。
			执行特定Web应用程序所需的重写规则。
		在vcl_recv你可以执行以下终止操作：
			pass：它通过缓存查找，但它执行Varnish请求流的其余部分。 pass不会将来自后端的响应存储在缓存中。
			pipe：此操作创建一个全双工管道，将客户端请求转发到后端，且不查看其内容。后端回复被转发回客户端且不缓存其内容。由于Varnish不再尝试将内容映射到请求上，因此任何子进程的请求发送给活动连接将被通过pipe转发。pipe请求不会出现在任何日志中。
			hash：它在缓存中查找请求。
			purge：它在缓存中查找请求以便删除它。
			synth -从Varnish生成合成响应。这种合成响应通常是一个带有错误信息的网页。 synth也可以用来重定向客户端请求。
		同样可以使用vcl_recv来设置以下安全措施。varnish不是入侵检测系统的替代品，但仍可以用来提前阻止一些典型的攻击。简单访问控制列表（ACL）也可以应用到vcl_recv上。
		内建的vcl_recv子进程不会缓存所有你想要的，同时也最好不要缓存错误内容而是把它们发送给错误的用户。
		重新访问内置的vcl_recv：
			sub vcl_recv {
				if (req.method == "PRI") {
					/* We do not support SPDY or HTTP/2.0 */
					return (synth(405));
				}
				if (req.method != "GET" &&
				  req.method != "HEAD" &&
				  req.method != "PUT" &&
				  req.method != "POST" &&
				  req.method != "TRACE" &&
				  req.method != "OPTIONS" &&
				  req.method != "DELETE") {
					/* Non-RFC2616 or CONNECT which is weird. */
					return (pipe);
				}
				if (req.method != "GET" && req.method != "HEAD") {
					/* We only deal with GET and HEAD by default */
					return (pass);
				}
				if (req.http.Authorization || req.http.Cookie) {
					/* Not cacheable by default */
					return (pass);
				}
				return (hash);
			}
		例子：
			基本设备检测
				sub vcl_recv {
					if (req.http.User-Agent ~ "iPad" ||
						req.http.User-Agent ~ "iPhone" ||
						req.http.User-Agent ~ "android") {
						set req.http.X-Device = "mobile";
					} else {
						set req.http.X-Device = "desktop";
					}
				}
				
	vcl_pass
		进入pass模式是调用
			sub vcl_pass {
				return (fetch);
			}
		当上一层子进程返回pass动作后才会调用vcl_pass子进程，这动作的请求是在pass模式中设置的，vcl_pass通常作为一个重要的catch-all，服务于vcl_hit和vcl_miss执行结果。
		vcl_pass可能会返回是三个动作：fetch、synth、或者是restart。
		当返回的的是fetch时，正在进行的请求就采用pass模式。
		采用pass模式从请求中抓取的对象不被缓存，但会传递到客户端。
		synth和restart返回的动作会调用相关的子进程。
		hit-for-pass
				当一个对象不应该被缓存是使用
				hit-for-pass对象取代抓取的对象
				存在TTL
			一些请求就不应该被缓存，一个典型的例子就是当一个请求页中含有set-cookie响应头部时，且必须并只能把它递送给所需的客户端。
			因此你可以告诉varnish创建个hit-for-pass的对象并存储这个对象到缓存，而不是存储抓取的这个对象，分布式的请求被采用pass模式处理。
			当一个对象不需要被缓存是，beresp.uncacheable变量会设置为true。
			结果，cacher进程会保持对hit-for-pass对象的hash散列应用，这种情况下，对请求的查找操作会传递给hash来找个hit-for-pass对象，如此类的请求会被vclpass子进程中的pass模式给处理。
			如同其他缓存对象一样，hit-for-pass对象也有一个TTL（生命周期）。一旦生命周期过了，这个对象就会从缓存上删除。

	vcl_backend_fetch
		sub vcl_backend_fetch {
			return (fetch);
		}
		vcl_backend_fetch 可以从vcl_miss或vcl_pass中调用。当vcl_backend_fetch从vcl_miss中调用时，抓取的对象会被缓存。如果vcl_backend_fetch被从vcl_pass中调用时，抓取的对象也不会被缓存的，即使是obj.ttl或obj.keep变量的值比0大。
		一个相关的变量是bereq.uncacheable，这个变量指示出从后端来的对象请求是否被缓存。当然从pass请求中来的对象是绝不被缓存的。
		vcl_backend_fetch有俩个可能的终端操作，fetch或abandon。fetch动作发送请求给后动，abandon动作调用vcl_synth子进程。内建vcl_bakend_fetch子进程只返回fetch动作。
		后端响应被vcl_backend-response还是vcl_backend_error处理取决于响应来之于那个服务。如果Varnish收到语法正确的HTTP响应，则Varnish将控制权交给vcl_backend_response。语法正确的HTTP响应包括HTTP 5xx错误代码。如果Varnish没有收到HTTP响应，则将控制权交给vcl_backend_error。
	vcl_hash
			定义什么是唯一的请求
			vcl_hash终是在vcl_recv后，或者另个子进程范围hash动作关键词。
			sub vcl_hash {
				hash_data(req.url);
				if (req.http.host) {
					hash_data(req.http.host);
				} else {
					hash_data(server.ip);
				}
				return (lookup);
			}
		vcl_hash定义要用于缓存对象的hash key。
		Hash key将一个缓存对象与另一个缓存对象区分开来，默认的VCL为vcl_hash添加主机名或ip地址，同时添加请求的url给cache hash。
		vcl_hash的一个用法是在cache hash上添加用户名来识别用户指定的数据，当然缓存用户数据时应该谨慎进行，一个更好的选择可能是hash每个会话缓存对象。
		vcl_hash子进程返回lookup操作关键字，不像其他动作关键词,lookup是一个操作，而不是子进程，在vcl_hash后的下个状态取决于在缓存中lookup的查找。
		当lookup操作没能匹配到任何hash时，它会创建一个带有busy标志的对象并存储在缓存中，然后，请求会被发送到vcl_miss子进程中，一旦请求被处理busy标志会被删除，并从后端的响应中更新对象。
		随后遇到busy标记的对象请求将被发送到等待列表中，这个等待名单旨在提高响应性能，这个在waiting state 选项中有解释。
		注意：一个高速缓存散列可以指代一个或多个对象变量。对象变量是基于Vary头域的创建的。在一个缓存散列下保留多个变量是比较好的做法，而不是每个变量创建一个散列。
	vcl_hit
			在lookup操作之后执行，调用vcl_hash，找到（hits）在缓存上的对象。
			sub vcl_hit {
				if (obj.ttl >= 0s) {
					// A pure unadultered hit, deliver it
					return (deliver);
				}
				if (obj.ttl + obj.grace > 0s) {
					// Object is in grace, deliver it
					// Automatically triggers a background fetch
					return (deliver);
				}
				// fetch & deliver once we get the result
				return (fetch);
			}
		vcl_hit子进程通常通过调用含有deliver，restart或者synth的return()来进行终止。
		如果对象的TTL+grace time没有过时的话，返回的deliver会控制vcl_deliver。
		如果过时时间超过了TTL，但没有超过TTL+grace time，deliver会调用与vcl_deliver同步的background fetch。
		background fetch是一种异步调用，用来插入一个新的请求对象到缓存中。grace time会在grace模式选项中有解释。
		restart重启传输，并增加重启计数器设定值。如果重启的次数比max_restarts设定的值要大，varnish会发出一个guru mediation的错误。
		synth（status code,reason）返回指定状态码给客户端并丢弃请求。

	vcl_miss
			如果一个请求对象没有被lookup操作找到时子进程会被调用。
			包含有是否尝试从后端检索文档以及使用那个后端的策略。
			sub vcl_miss {
				return (fetch);
			}
		子进程vcl_hit和vcl_miss是相关的。你很少调用他们，因为HTTP请求投吧的修改通常是在vcl_recv中进行。但是，如果你不希望发送X-Varnish头部给后端服务，你可以把它移动动vcl_miss或vcl_pass中。基于这种情况，你可以使用unset bereq ，http，x-varnish。

	vcl_deliver
			所有请求流程的公共最后退出点，除了通过vcl_pipe的请求。
			经常用于添加和移除debug-headers。
			sub vcl_deliver {
				return (deliver);
			}
		vcl_deliver子进程是简单的，同样也是对修改varnish的输出很有用的。如果你需要删除一个头部，或添加一个不应该存储在cache中的头部，vcl_deliver可以胜任这个工作。
		在vcl_deliver中常用的且被可被修改的变量是：
			resp.http.*：发送个客户端的头部，它们可以被set和unset。
			resp.status：状态码为200，404，503等
			resp.reason：被返回给客户端的http状态信息
			obj.hit：在对象上的cache-hits的数。因此，0代表miss，可以评估这个变量来轻松地显示响应是来自缓存命中还是未命中。
			req.restarts：在VCL中发出的重启次数 - 如果没有发生，则返回0。
		
	vcl_synth
			用于在Varnish中生成内容
			错误消息可以在这里创建
			其他用例：重定向用户（301/302重定向）
			vcl/default-vcl_synth.vcl:
				sub vcl_synth {
					set resp.http.Content-Type = "text/html; charset=utf-8";
					set resp.http.Retry-After = "5";
					synthetic( {"<!DOCTYPE html>
				<html>
				  <head>
					<title>"} + resp.status + " " + resp.reason + {"</title>
				  </head>
				  <body>
					<h1>Error "} + resp.status + " " + resp.reason + {"</h1>
					<p>"} + resp.reason + {"</p>
					<h3>Guru Meditation:</h3>
					<p>XID: "} + req.xid + {"</p>
					<hr>
					<p>Varnish cache server</p>
				  </body>
				</html>
				"} );
					return (deliver);
				}
		你可以创建合成响应，例如，在vcl_synth上的个性化错误信息。调用这个子进程你可以做：
			return (synth(status_code, "reason"));
		注意synth不是一个关键字，而是个带有参数的函数。
		你必须为vcl_synth明确地返回status code和reason参数。在resp.http上设置合成响应的头部。
		注意：
			从 vcl/default-vcl_synth.vcl注意到 {" and "}可以用于创建多行的字段。这个不仅限于synthetic()函数，在其他地址也可以使用。
			vcl_synth定义的对象绝不在缓存上存储，对立与vcl_backend_error定义的对象。
		例子：
			使用vcl_synth重定向请求
				sub vcl_recv {
					if (req.http.host == "www.example.com") {
						set req.http.location = "http://example.com" + req.url;
						return (synth(750, "Permanently moved"));
					}
				}
				sub vcl_synth {
					if (resp.status == 750) {
						set resp.http.location = req.http.location;
						set resp.status = 301;
						return (deliver);
					}
				}

以上是关于Varnish的VCL的主要内容，如果未能解决你的问题，请参考以下文章