HTTP缓存机制

Web 缓存大致可以分为:数据库缓存、服务器端缓存(代理服务器缓存、CDN 缓存)、浏览器缓存。
浏览器缓存也包含很多内容: HTTP 缓存、indexDB、cookie、localstorage 等等。这里我们只讨论 HTTP 缓存相关内容。

在具体了解 HTTP 缓存之前先来明确几个术语:

  • 缓存命中率:从缓存中得到数据的请求数与所有请求数的比率。理想状态是越高越好。
  • 过期内容:超过设置的有效时间,被标记为“陈旧”的内容。通常过期内容不能用于回复客户端的请求,必须重新向源服务器请求新的内容或者验证缓存的内容是否仍然准备。
  • 验证:验证缓存中的过期内容是否仍然有效,验证通过的话刷新过期时间。
  • 失效:失效就是把内容从缓存中移除。当内容发生改变时就必须移除失效的内容。

浏览器缓存主要是 HTTP 协议定义的缓存机制。HTML meta 标签,例如:

<META HTTP-EQUIV="Pragma" CONTENT="no-store">

含义是让浏览器不缓存当前页面。但是代理服务器不解析 HTML 内容,一般应用广泛的是用 HTTP 头信息控制缓存。

浏览器缓存分类

浏览器缓存分为强缓存和协商缓存,浏览器加载一个页面的简单流程如下:

  1. 浏览器先根据这个资源的http头信息来判断是否命中强缓存。如果命中则直接加在缓存中的资源,并不会将请求发送到服务器。
  2. 如果未命中强缓存,则浏览器会将资源加载请求发送到服务器。服务器来判断浏览器本地缓存是否失效。若可以使用,则服务器并不会返回资源信息,浏览器继续从缓存加载资源。
  3. 如果未命中协商缓存,则服务器会将完整的资源返回给浏览器,浏览器加载新资源,并更新缓存。

强缓存

命中强缓存时,浏览器并不会将请求发送给服务器。在Chrome的开发者工具中看到http的返回码是200,但是在Size列会显示为(from cache)。

强缓存是利用http的返回头中的Expires或者Cache-Control两个字段来控制的,用来表示资源的缓存时间。

Expires

缓存过期时间,用来指定资源到期的时间,是服务器端的具体的时间点。也就是说,Expires=max-age + 请求时间,需要和Last-modified结合使用。但在上面我们提到过,cache-control的优先级更高。 Expires是Web服务器响应消息头字段,在响应http请求时告诉浏览器在过期时间前浏览器可以直接从浏览器缓存取数据,而无需再次请求。

该字段会返回一个时间,比如Expires:Thu,31 Dec 2037 23:59:59 GMT。这个时间代表着这个资源的失效时间,也就是说在2037年12月31日23点59分59秒之前都是有效的,即命中缓存。这种方式有一个明显的缺点,由于失效时间是一个绝对时间,所以当客户端本地时间被修改以后,服务器与客户端时间偏差变大以后,就会导致缓存混乱。于是发展出了Cache-Control。

Cache-Control

Cache-Control是一个相对时间,例如Cache-Control:3600,代表着资源的有效期是3600秒。由于是相对时间,并且都是与客户端时间比较,所以服务器与客户端时间偏差也不会导致问题。
Cache-Control与Expires可以在服务端配置同时启用或者启用任意一个,同时启用的时候Cache-Control优先级高。

Cache-Control 可以由多个字段组合而成,主要有以下几个取值:
1.max-age
指定一个时间长度,在这个时间段内缓存是有效的,单位是s。例如设置 Cache-Control:max-age=31536000,也就是说缓存有效期为(31536000 / 24 / 60 * 60)天,第一次访问这个资源的时候,服务器端也返回了 Expires 字段,并且过期时间是一年后。

在没有禁用缓存并且没有超过有效时间的情况下,再次访问这个资源就命中了缓存,不会向服务器请求资源而是直接从浏览器缓存中取。
2.s-maxage
同 max-age,覆盖 max-age、Expires,但仅适用于共享缓存,在私有缓存中被忽略。
3.public
表明响应可以被任何对象(发送请求的客户端、代理服务器等等)缓存。
4.private
表明响应只能被单个用户(可能是操作系统用户、浏览器用户)缓存,是非共享的,不能被代理服务器缓存。
5.no-cache
强制所有缓存了该响应的用户,在使用已缓存的数据前,发送带验证器的请求到服务器。不是字面意思上的不缓存。
6.no-store
禁止缓存,每次请求都要向服务器重新获取数据。
7.must-revalidate
指定如果页面是过期的,则去服务器进行获取。这个指令并不常用,就不做过多的讨论了。

协商缓存

若未命中强缓存,则浏览器会将请求发送至服务器。服务器根据http头信息中的Last-Modify/If-Modify-Since或Etag/If-None-Match来判断是否命中协商缓存。如果命中,则http返回码为304,浏览器从缓存中加载资源。

Last-Modify/If-Modify-Since

浏览器第一次请求一个资源的时候,服务器返回的header中会加上Last-Modify,Last-modify是一个时间标识该资源的最后修改时间,例如Last-Modify: Thu,31 Dec 2037 23:59:59 GMT。

当浏览器再次请求该资源时,发送的请求头中会包含If-Modify-Since,该值为缓存之前返回的Last-Modify。服务器收到If-Modify-Since后,根据资源的最后修改时间判断是否命中缓存。

如果命中缓存,则返回http304,并且不会返回资源内容,并且不会返回Last-Modify。由于对比的服务端时间,所以客户端与服务端时间差距不会导致问题。但是有时候通过最后修改时间来判断资源是否修改还是不太准确(资源变化了最后修改时间也可以一致)。于是出现了ETag/If-None-Match。

ETag/If-None-Match

与Last-Modify/If-Modify-Since不同的是,Etag/If-None-Match返回的是一个校验码(ETag: entity tag)。ETag可以保证每一个资源是唯一的,资源变化都会导致ETag变化*。ETag值的变更则说明资源状态已经被修改。服务器根据浏览器上发送的If-None-Match值来判断是否命中缓存。

ETag扩展说明

我们对ETag寄予厚望,希望它对于每一个url生成唯一的值,资源变化时ETag也发生变化。神秘的Etag是如何生成的呢?以Apache为例,ETag生成靠以下几种因子

  1. 文件的i-node编号,此i-node非彼iNode。是Linux/Unix用来识别文件的编号。是的,识别文件用的不是文件名。使用命令’ls –I’可以看到。
  2. 文件最后修改时间。
  3. 文件大小;
    生成Etag的时候,可以使用其中一种或几种因子,使用抗碰撞散列函数来生成。所以,理论上ETag也是会重复的,只是概率小到可以忽略。

既生Last-Modified何生Etag?

你可能会觉得使用Last-Modified已经足以让浏览器知道本地的缓存副本是否足够新,为什么还需要Etag(实体标识)呢?HTTP1.1中Etag的出现主要是为了解决几个Last-Modified比较难解决的问题:

  1. Last-Modified标注的最后修改只能精确到秒级,如果某些文件在1秒钟以内,被修改多次的话,它将不能准确标注文件的修改时间。
  2. 如果某些文件会被定期生成,当有时内容并没有任何变化,但Last-Modified却改变了,导致文件没法使用缓存。
  3. 有可能存在服务器没有准确获取文件修改时间,或者与代理服务器时间不一致等情形。

Etag是服务器自动生成或者由开发者生成的对应资源在服务器端的唯一标识符,能够更加准确的控制缓存。Last-Modified与ETag是可以一起使用的,服务器会优先验证ETag,一致的情况下,才会继续比对Last-Modified,最后才决定是否返回304。

用户行为与缓存

浏览器缓存行为还有用户的行为有关!!!

总结

浏览器第一次请求:

浏览器再次请求时:

转自 https://www.cnblogs.com/ranyonsue/p/8918908.html

varnish网络加速

Varnish概述

Varnish是一款高性能的开源HTTP加速器,可以有效降低web服务器的负载,提升访问速度。根据官方的说法,Varnish是一个cache型的HTTP反向代理。
Varnish的作者Poul-Henning Kamp是FreeBSD的内核开发者之一,他认为现在的计算机比起1975年已经复杂许多。在1975年时,储存媒介只有两种:内存与硬盘。但现在计算 机系统的内存除了主存外,还包括了cpu内的L1、L2,甚至有L3快取。硬盘上也有自己的快取装置,因此squid cache自行处理物件替换的架构不可能得知这些情况而做到最佳化,但操作系统可以得知这些情况,所以这部份的工作应该交给操作系统处理,这就是Varnish cache设计架构。
当把Varnish部署上之后,web请求的处理过程会有一些变化。客户端的请求将首先被Varnish接受。Varnish将分析接收的请求,并将其转发到后端的web服务器上。后端的web服务器对请求进行常规的处理,并将依次将处理结果返回给Varnish。
但Varnish的功能并非仅限于此。Varnish的核心功能是将后端web服务器返回的结果缓存起来,如果发现后续有相同的请求,Varnish将不会将这个请求转发到web服务器,而是返回缓存中的结果。这将有效的降低web服务器的负载,提升响应速度,并且每秒可以响应更多的请求。Varnish速度很快的另一个主要原因是其缓存全部都是放在内存里的,这比放在磁盘上要快的多。诸如此类的优化措施使得Varnish的相应速度超乎想象。但考虑到实际的系统中内存一般是有限的,所以需要手工配置一下缓存的空间限额,同时避免缓存重复的内容。

处理缓存的顺序:
  接受到请求 –- 分析请求(分析你的URL,分析你的首部) – hash计算 – 查找缓存 – 新鲜度检测 — 访问源 — 缓存 – 建立响应报文 – 响应并记录日志。

监听端口6081,管理进程management,子进程child/cache,官网https://www.varnish-cache.org/。

Varnish特点与Squid的对比

1.Varnish特点

  • 基于内存缓存,重启后数据将消失。
  • 利用虚拟内存方式,I/O性能好。
  • 支持设置0~60秒内的精确缓存时间。
  • VCL(全称varnish config language,这是Varnish自己领域的特定语言)配置管理比较灵活。
  • 32位机器上缓存文件大小为最大2G。
  • 具有强大的管理功能,例如top,stat,admin,list等。
  • 状态机设计巧妙,结构清晰。
  • 利用二叉堆管理缓存文件,达到积极删除目的。

2.Varnish与Squid的对比

相同点:

  • 都是一个反向代理服务器;
  • 都是开源软件;

Varnish相较于Squid的优点:
(1)Varnish的稳定性很高,两者在完成相同负荷的工作时,Squid服务器发生故障的几率要高于Varnish,因为使用Squid要经常重启;
(2)Varnish访问速度更快,Varnish采用了“Visual Page Cache”技术,所有缓存数据都直接从内存读取,而Squid是从硬盘读取,因此Varnish在访问速度方面会更快;
(3)Varnish可以支持更多的并发连接,因为Varnish的TCP连接释放要比Squid快,所以在高并发连接情况下可以支持更多TCP连接;
(4)Varnish可以通过管理端口,使用正则表达式批量的清除部分缓存,而Squid是做不到的;
(5)Squid属于是单进程使用单核CPU,但Varnish是通过fork形式打开多进程来做处理,所以是合理的使用所有核来处理相应的请求;

Varnish相较于Squid的缺点:
(1)Varnish在高并发状态下CPU、I/O和内存等资源开销都高于Squid;
(2)Varnish进程一旦Hang(挂起)、Crash(崩溃)或者重启,缓存数据都会从内存中完全释放,此时所有请求都会发送到后端服务器,在高并发情况下,会给后端服务器造成很大压力;
(3)在Varnish使用中如果单个url的请求通过HA/F5(负载均衡)每次请求不同的varnish服务器中,被请求varnish服务器都会被穿透到后端,而且同样的请求会在多台服务器上缓存,也会造成Varnish的缓存的资源浪费,也会造成性能下降。

安装Varnish

1)安装环境
youxi1  192.168.1.6  源码包安装
youxi2  192.168.1.7  yum安装实例、Web后端
youxi3  192.168.1.8  Web后端

2)安装
youxi1上源码安装varnish6.2.0(建议使用该安装方式):

//安装依赖包
[root@youxi1 ~]# yum -y install make autoconf automake libedit-devel libtool ncurses-devel pcre-devel pkgconfig python3-docutils python3-sphinx graphviz
[root@youxi1 ~]# tar xf varnish-6.2.0.tgz -C /usr/local/src/
[root@youxi1 ~]# cd /usr/local/src/varnish-6.2.0/
[root@youxi1 varnish-6.2.0]# ./configure --prefix=/usr/local/varnish
[root@youxi1 varnish-6.2.0]# make && make install
[root@youxi1 varnish-6.2.0]# echo $?
0
[root@youxi1 varnish-6.2.0]# cd /usr/local/varnish/
[root@youxi1 varnish]# mkdir etc
[root@youxi1 varnish]# cp share/doc/varnish/example.vcl etc/default.vcl  //生成vcl配置文件

youxi2上yum安装varnish(简单了解):

[root@youxi2 ~]# vim /etc/yum.repos.d/varnishcache_varnish62.repo
[varnishcache_varnish62]
name=varnishcache_varnish62
baseurl=https://packagecloud.io/varnishcache/varnish62/el/7/$basearch
repo_gpgcheck=1
gpgcheck=0
enabled=1
gpgkey=https://packagecloud.io/varnishcache/varnish62/gpgkey
sslverify=1
sslcacert=/etc/pki/tls/certs/ca-bundle.crt
metadata_expire=300[varnishcache_varnish62-source]
name=varnishcache_varnish62-source
baseurl=https://packagecloud.io/varnishcache/varnish62/el/7/SRPMS
repo_gpgcheck=1
gpgcheck=0
enabled=1
gpgkey=https://packagecloud.io/varnishcache/varnish62/gpgkey
sslverify=1
sslcacert=/etc/pki/tls/certs/ca-bundle.crt
metadata_expire=300
[root@youxi2 ~]# yum clean all && yum list  //清除yum缓存,并重新生成
[root@youxi2 ~]# yum -y install varnish

3)配置youxi1上的Varnish缓存youxi2上的网站
youxi1修改vcl配置文件:

[root@youxi1 ~]# vim /usr/local/varnish/etc/default.vcl
backend default {  //第16~19行
.host = "192.168.1.7";  //修改Web后端网站的IP地址
.port = "80";  //修改Web后端网站的端口号
}sub vcl_deliver {  //第35行开始,缓存命中情况if (obj.hits > 0) {set resp.http.X-Cache = "HIT cache";}else {set resp.http.X-Cache = "Miss cache";}
}

配置环境变量:

[root@youxi1 ~]# vim /etc/profile.d/varnish.sh
export PATH=/usr/local/varnish/bin:/usr/local/varnish/sbin:$PATH
[root@youxi1 ~]# . /etc/profile.d/varnish.sh  //加载环境变量

启动Varnish:

[root@youxi1 ~]# varnishd -a 192.168.1.6:80,HTTP -f /usr/local/varnish/etc/default.vcl
Debug: Version: varnish-6.2.0 revision b14a3d38dbe918ad50d3838b11aa596f42179b54
Debug: Platform: Linux,3.10.0-957.el7.x86_64,x86_64,-jnone,-sdefault,-sdefault,-hcritbit
Debug: Child (18374) Started
[root@youxi1 ~]# ps aux | grep varnishd
root      18364  0.0  0.0  22188  1532 ?        SLs  22:59   0:00 varnishd -a 192.168.1.6:80,HTTP -f /usr/local/varnish/etc/default.vcl
root      18374  1.8  4.4 1029912 89468 ?       SLl  22:59   0:00 varnishd -a 192.168.1.6:80,HTTP -f /usr/local/varnish/etc/default.vcl
root      18593  0.0  0.0 112724   992 pts/0    S+   23:00   0:00 grep --color=auto varnishd
[root@youxi1 ~]# firewall-cmd --permanent --zone=public --add-port=80/tcp && firewall-cmd --reload
success
success

youxi2上搭建测试Web后端:

[root@youxi2 ~]# yum -y install httpd
[root@youxi2 ~]# echo youxi2 > /var/www/html/index.html
[root@youxi2 ~]# systemctl start httpd
[root@youxi2 ~]# firewall-cmd --permanent --zone=public --add-port=80/tcp && firewall-cmd --reload
success
success

最后测试:

然后使用curl命令做缓存命中测试,-I选项只取http响应头的信息,不取网页内容:

[root@youxi1 ~]# curl -I 192.168.1.7  //这是直接访问youxi2
HTTP/1.1 200 OK
Date: Sun, 04 Aug 2019 15:14:16 GMT
Server: Apache/2.4.6 (CentOS)
Last-Modified: Sun, 04 Aug 2019 14:56:47 GMT
ETag: "7-58f4bccfca680"
Accept-Ranges: bytes
Content-Length: 7
Content-Type: text/html; charset=UTF-8[root@youxi1 ~]# curl -I 192.168.1.6  //第一次访问youxi1
HTTP/1.1 200 OK
Date: Sun, 04 Aug 2019 15:14:19 GMT
Server: Apache/2.4.6 (CentOS)
Last-Modified: Sun, 04 Aug 2019 14:56:47 GMT
ETag: "7-58f4bccfca680"
Content-Length: 7
Content-Type: text/html; charset=UTF-8
X-Varnish: 12
Age: 0
Via: 1.1 varnish (Varnish/6.2)
X-Cache: Miss cache  //这次是未命中
Accept-Ranges: bytes
Connection: keep-alive[root@youxi1 ~]# curl -I 192.168.1.6  //第二次访问youxi1
HTTP/1.1 200 OK
Date: Sun, 04 Aug 2019 15:16:39 GMT
Server: Apache/2.4.6 (CentOS)
Last-Modified: Sun, 04 Aug 2019 14:56:47 GMT
ETag: "7-58f4bccfca680"
Content-Length: 7
Content-Type: text/html; charset=UTF-8
X-Varnish: 15 32773
Age: 2
Via: 1.1 varnish (Varnish/6.2)
X-Cache: HIT cache  //这一次命中缓存了
Accept-Ranges: bytes
Connection: keep-alive

缓存时间较短,可以尝试配置httpd的长链接功能(配置文件中设置KeepAlive On,然后重启)。

4)配置youxi1上的Varnish缓存多个网站(youxi1,youxi2)
youxi1修改vcl配置文件:

[root@youxi1 ~]# vim /usr/local/varnish/etc/default.vcl
backend youxi2 {  //原本的default改为主机名.host = "192.168.1.7";.port = "80";
}
backend youxi3 {  //多创建一个.host = "192.168.1.8";.port = "80";
}sub vcl_recv {  //在vcl_recv里添加if (req.http.host ~ "^(www.)?you.cn"){  //正则匹配set req.http.host = "www.you.cn";set req.backend_hint = youxi2;  //指向youxi2后端} elsif (req.http.host ~ "^bbs.you.cn") {  //正则匹配set req.backend_hint = youxi3;  //指向youxi3后端}
}

重启Varnish,需要使用killall命令,安装psmisc包:

[root@youxi1 ~]# yum -y install psmisc
[root@youxi1 ~]# killall varnishd
[root@youxi1 ~]# varnishd -a 192.168.1.6:80,HTTP -f /usr/local/varnish/etc/default.vcl
Debug: Version: varnish-6.2.0 revision b14a3d38dbe918ad50d3838b11aa596f42179b54
Debug: Platform: Linux,3.10.0-957.el7.x86_64,x86_64,-jnone,-sdefault,-sdefault,-hcritbit
Debug: Child (19017) Started

youxi3上搭建测试Web后端:

[root@youxi3 ~]# yum -y install httpd
[root@youxi3 ~]# echo youxi3 > /var/www/html/index.html
[root@youxi3 ~]# systemctl start httpd
[root@youxi3 ~]# firewall-cmd --permanent --zone=public --add-port=80/tcp && firewall-cmd --reload
success
success

youxi1上编辑/etc/hosts文件:

[root@youxi1 ~]# vim /etc/hosts
192.168.1.6 www.you.cn
192.168.1.6 bbs.you.cn

测试:

[root@youxi1 ~]# curl www.you.cn  //第一次访问,可以看到是指向的是youxi2
youxi2
[root@youxi1 ~]# curl -I www.you.cn  //第二次访问,只取http响应头,可以看到击中缓存
HTTP/1.1 200 OK
Date: Sun, 04 Aug 2019 16:09:19 GMT
Server: Apache/2.4.6 (CentOS)
Last-Modified: Sun, 04 Aug 2019 14:56:47 GMT
ETag: "7-58f4bccfca680"
Content-Length: 7
Content-Type: text/html; charset=UTF-8
X-Varnish: 5 32772
Age: 12
Via: 1.1 varnish (Varnish/6.2)
X-Cache: HIT cache  //击中缓存
Accept-Ranges: bytes
Connection: keep-alive[root@youxi1 ~]# curl bbs.you.cn  //第一次访问,可以看到指向的是youxi3
youxi3
[root@youxi1 ~]# curl -I bbs.you.cn  //第二次访问,只取http响应头,可以看到击中缓存
HTTP/1.1 200 OK
Date: Sun, 04 Aug 2019 16:09:49 GMT
Server: Apache/2.4.6 (CentOS)
Last-Modified: Sun, 04 Aug 2019 16:07:43 GMT
ETag: "7-58f4ccaa0e583"
Content-Length: 7
Content-Type: text/html; charset=UTF-8
X-Varnish: 32774 8
Age: 6
Via: 1.1 varnish (Varnish/6.2)
X-Cache: HIT cache
Accept-Ranges: bytes
Connection: keep-alive

扩展

1)为什么要使用缓存:
访问过的数据会再次被访问到,热数据多次访问。
一个数据被访问过会后,离他最近的或者较近的客户端再次访问。

2)既然要缓存, 需要读取的高速,最好的方法,就是全部放到内存。
常见的内存数据库,memcached,redis,HANA。
但是对于页面,全放放到内存,太不现实,内存+高速缓存盘的方式来存储缓存。
Key-value,key存放于内存,value存放磁盘。

3)一种数据形式:key value

  • Key:对访问路径,URL,特定的特征,进行hash计算得出的结果,这种key存放于内存中。
  • Value:页体,我们用户真正得到的内容,一般存放在高速硬盘。

4)凡是与缓存缓存相关的,离不开两体:内存,高速硬盘。

5)常见的术语:

  • 命中:能从缓存取出数据,如果是一台web站点,那么你的缓存服务器将是一台最前端服务器。
  • 命中率:命中次数/(命中次数+非命中次数)。
  • 热数据:经常被访问的数据。 内存缓存空间,磁盘缓存空间。
  • 清理:定期清理,LRU(不常用的,最老的一类数据将其删除),定期更新(purge)。
  • 缓存对象:用户信息,cookies,交易信息,页面内存,统统理解为object。

参考:https://www.oschina.net/translate/speed-your-web-site-varnish?print
http://book.51cto.com/art/201202/314855.htm
https://blog.51cto.com/tetop/823904

Nginx缓存

入门

原理

什么是Nginx缓存?
Nginx基于Proxy Store实现,使用Nginx的http_proxy模块可以实现类似于squid的缓存功能。当启用缓存时,Nginx会将相应数据保存在磁盘缓存中,只要缓存数据尚未过期,就会使用缓存数据来响应客户端的请求。

浏览器缓存

1、HTTP协议定义的缓存机制(如:Expires;Cache-control等)
2、浏览器无缓存:

3、客户端有缓存:

校验过期机制

校验是否过期 Expires、Cache-Control(max-age)
协议中Etag头信息校验 Etag
Last-Modified头信息校验 Last-Modified

配置语法-expires

添加    Cache-Control、Expires头
Syntax:    expires [modified]  time;expires epoch|max|off;Default:   expires off;                 # 静态缓存
Context:   http,server,location,if in location
  location ~ .*\.(htm|html)$ {expires 24h;root  /opt/app/code;}

动态缓存设置:

 upstream imooc {server 116.62.103.228:8001;server 116.62.103.228:8002;server 116.62.103.228:8003;}proxy_cache_path /opt/app/cache levels=1:2 keys_zone=imooc_cache:10m max_size=10g inactive=60m use_temp_path=off;server {listen       80;server_name  web01.fadewalk.com;access_log  /var/log/nginx/test_proxy.access.log  main;location / {proxy_cache off;proxy_pass http://imooc;proxy_cache_valid 200 304 12h;proxy_cache_valid any 10m;proxy_cache_key $host$uri$is_args$args;add_header  Nginx-Cache "$upstream_cache_status";proxy_next_upstream error timeout invalid_header http_500 http_502 http_503 http_504;include proxy_params;}
}

查看


304 Not Modified

配置指南

1.如何配置基本缓存设置

开启简单的缓存配置,只需要两个指令:
proxy_cache_path和proxy_cache。
proxy_cache_path 配置缓存的存放地址和其他的一些常用配置,proxy_cache指令是为了启动缓存。

proxy_cache_path /path/to/cache levels=1:2 keys_zone=mycache:10m max_size=10g inactive=60m use_temp_path=off;
server {# ...location / {proxy_cache mycache;proxy_pass http://my_upstream;}
}

相关配置说明如下:

  • /path/to/cache 本地路径,用来设置Nginx缓存资源的存放地址;
  • levels 默认所有缓存文件都放在同一个/path/to/cache下,但是会影响缓存的性能,因此通常会在/path/to/cache下面建立子目录用来分别存放不同的文件。假设levels=1:2,Nginx为将要缓存的资源生成的key为f4cd0fbc769e94925ec5540b6a4136d0,那么key的最后一位0,以及倒数第2-3位6d作为两级的子目录,也就是该资源最终会被缓存到/path/to/cache/0/6d目录中;
  • key_zone 在共享内存中设置一块存储区域来存放缓存的key和metadata(类似使用次数),这样nginx可以快速判断一个request是否命中或者未命中缓存,1m可以存储8000个key,10m可以存储80000个key;
  • max_size 最大cache空间,如果不指定,会使用掉所有disk space,当达到配额后,会删除最少使用的cache文件;
  • inactive 未被访问文件在缓存中保留时间,本配置中如果60分钟未被访问则不论状态是否为expired,缓存控制程序会删掉文件。inactive默认是10分钟。需要注意的是,inactive和expired配置项的含义是不同的,expired只是缓存过期,但不会被删除,inactive是删除指定时间内未被访问的缓存文件;
  • use_temp_path 如果为off,则nginx会将缓存文件直接写入指定的cache文件中,而不是使用temp_path存储,official建议为off,避免文件在不同文件系统中不必要的拷贝;
  • proxy_cache 启用proxy cache,并指定key_zone。另外,如果proxy_cache off表示关闭掉缓存。

2.proxy_cache其他相关指令集

(1)proxy_no_cache

Syntax:proxy_no_cache string ...;
Default: —
Context: http , server , location

该指令用于定义满足条件的响应不会被保存到缓存中。在条件字符串中至少有一个条件不为空或者0,符合这样条件的响应才不会被缓存。举例如下:

proxy_no_cache $cookie_nocache $arg_nocache$arg_comment;
proxy_no_cache $http_pragma    $http_authorization;

其中,cookie_nocache、arg_nocache…皆为变量,可以根据你访问的匹配策略来设置,其值只有2类,0和非0;
访问匹配策略例如:

if ($request_uri ~ ^/(login|register|password\/reset)/) { set $cookie_nocache 1; }

如果在此链式配置中,只要有一个值不为0,则不会cache;例如:

proxy_no_cache $cookie_nocache(0) $arg_nocache(1) $arg_comment(0)

则不会被cache。`
注:一般会配合proxy_cache_bypass共同使用;

(2)proxy_cache_bypass

Syntax: proxy_cache_bypass string ...;
Default: —
Context: http , server , location

该指令用于定义哪些情况不从cache读取,直接从backend获取资源;配置方式同proxy_no_cache。

(3)proxy_cache_key

Syntax: proxy_cache_key string;
Default: proxy_cache_key $scheme$proxy_host$request_uri;
Context: http, server, location

给缓存数据定义一个键,例如:

proxy_cache_key “$host$request_uri $cookie_user”;

默认情况下,该指令的值的字符串:

proxy_cache_key $scheme$proxy_host$uri$is_args$args;

(4)proxy_cache_methods

Syntax: proxy_cache_methods GET | HEAD | POST ...;
Default: proxy_cache_methods GET HEAD;
Context: http, server, location

该指令用于设置缓存哪些HTTP方法,默认缓存HTTP GET/HEAD方法,不缓存HTTP POST 方法.。

(5)proxy_cache_valid

Syntax: proxy_cache_valid [code ...] time;
Default:  —
Context:  http, server, location

设置不同响应码的缓存时间,当不指定响应码的时候,例如:

proxy_cache_valid 5m;

只对响应码为200,301,302的访问请求资源设置缓存时间,此外可以个性化定制,例如:

proxy_cache_valid 200 302 10m;
proxy_cache_valid 301 1h;
proxy_cache_valid 404 1m;
proxy_cache_valid any 1m;

此外,还可以在相应header里设置优先级更高的缓存有效时间:

  • “X-Accel-Expires”,设置响应的缓存过期时间,以秒为单位;0为不缓存;
  • 如果没有设置“X-Accel-Expires” header,则关于缓存的配置策略可能会在“Expires”或者“Cache-Control” header中;
  • 如果header含有“Set-Cookie”,则响应不会被缓存,类似的配置可以在“proxy_ignore_header”中可见;
  • header包含“Vary”并且设置为“*”,则请求不会被缓存,如果“Vary”有具体的值,则对应的请求会被缓存。

(6)proxy_ignore_headers

Syntax:  proxy_ignore_headers field ...;
Default:  —
Context:  http, server, location

不缓存包含在field的响应header,可以设置的值有:“X-Accel-Redirect”, “X-Accel-Expires”, “X-Accel-Limit-Rate”,“X-Accel-Buffering”, “X-Accel-Charset”, “Expires”, “Cache-Control”, “Set-Cookie” (0.8.44), and “Vary”。
如果上述的header field没有设置为忽略,则header filed中有“X-Accel-Expires”, “Expires”, “Cache-Control”, “Set-Cookie”, and “Vary”的话,响应会被缓存。

(7)proxy_cache_min_uses指令

Syntax:  proxy_cache_min_uses number;
Default: proxy_cache_min_uses 1;
Context: http, server, location

该指令用于设置缓存的最小使用次数,默认值为1。

3.nginx缓存扩展

(1)proxy_cache_use_stale增强站点容错能力
源站有问题时,nginx可以通过proxy_cache_use_stale指令开启容错能力,即使用缓存内容来响应客户端的请求。举例如下:

location / {  ...  proxy_cache_use_stale error timeout http_500 http_502 http_503 http_504;
}

如上配置表示,当作为cache的NGINX收到源站返回error、timeout或者其他指定的5XX错误,并且在其缓存中有请求文件的陈旧版本,则会将这些陈旧版本的文件而不是错误信息发送给客户端。

(2)多磁盘分割缓存
使用NGINX,不需要建立一个RAID(磁盘阵列)。如果有多个硬盘,NGINX可以用来在多个硬盘之间分割缓存。举例如下:

# 我们假设每块硬盘挂载在相应的目录中:/mnt/disk1、/mnt/disk2、/mnt/disk3proxy_cache_path /mnt/disk1 levels=1:2 keys_zone=cache_1:256m max_size=1024G use_temp_path=off;
proxy_cache_path /mnt/disk2 levels=1:2 keys_zone=cache_2:256m max_size=1024G use_temp_path=off;
proxy_cache_path /mnt/disk3 levels=1:2 keys_zone=cache_3:256m max_size=1024G use_temp_path=off;
split_clients $request_uri $disk {33.3%     1;33.3%     2;*         3;
}location / {proxy_pass http://backend;proxy_cache_key $request_uri;proxy_cache cache_$disk;
}

在这份配置中,使用了3个独立的缓存,每个缓存专用一块硬盘,另外,3个独立的线程池也各自专用一块硬盘。
缓存之间(其结果就是磁盘之间)的负载均衡使用split_clients模块,split_clients非常适用于这个任务。
在 proxy_cache_path指令中设置use_temp_path=off,表示NGINX会将临时文件保存在缓存数据的同一目录中。这是为了避免在更新缓存时,磁盘之间互相复制响应数据。

转自 https://www.cnblogs.com/bdhk/p/9198499.html

CDN知识

说白了,CND就是增加了一层网络结构。

什么是CDN

CDN的全称是内容分发网络。其目的是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络“边缘”,使用户可以就近取得所需的内容,提高用户访问网站的响应速度。
CDN有别于镜像,因为它比镜像更智能,或者可以做这样一个比喻:CDN=更智能的镜像+缓存+流量导流。因而,CDN可以明显提高Internet网络中信息流动的效率。从技术上全面解决由于网络带宽小、用户访问量大、网点分布不均等问题,提高用户访问网站的响应速度。

CDN的类型特点 :
  CDN的实现分为三类:镜像、高速缓存、专线。

镜像站点(Mirror Site),是最常见的,它让内容直接发布,适用于静态和准动态的数据同步。但是购买和维护新服务器的费用较高,还必须在各个地区设置镜像服务器,配备专业技术人员进行管理与维护。对于大型网站来说,更新所用的带宽成本也大大提高了。
  高速缓存,成本较低,适用于静态内容。Internet的统计表明,超过80%的用户经常访问的是20%的网站的内容,在这个规律下,缓存服务器可以处理大部分客户的静态请求,而原始的服务器只需处理约20%左右的非缓存请求和动态请求,于是大大加快了客户请求的响应时间,并降低了原始服务器的负载。
专线,让用户直接访问数据源,可以实现数据的动态同步。

CDN的实例

举个例子来说,当某用户访问网站时,网站会利用全球负载均衡技术,将用户的访问指向到距离用户最近的正常工作的缓存服务器上,直接响应用户的请求。当用户访问已经使用了CDN服务的网站时,其解析过程与传统解析方式的最大区别就在于网站的授权域名服务器不是以传统的轮询方式来响应本地DNS的解析请求,而是充分考虑用户发起请求的地点和当时网络的情况,来决定把用户的请求定向到离用户最近同时负载相对较轻的节点服务器上。通过用户定位算法和服务器健康检测算法综合后的数据,可以将用户的请求就近定向到分布在网络“边缘”的服务器上,保证用户的访问能得到更及时可靠的响应。由于大量的用户访问都由分布在网络边缘的CDN节点服务器直接响应了,这就不仅提高了用户的访问质量,同时有效地降低了源服务器的负载压力。
其实,上面这个例子只是CDN应该做到的最起码的服务,CDN还可以做更多,我们一直认为以前的互联网只是提供了一个环境,但它是一个松散的、无序的网络。互联网之所以发展得这么快,其主要原因便是从一开始的时候它就是按照最低的成本投入来设计,但这样一来难免也形成一些缺陷。不像电话——电话打不通,大家会立刻想到去找电信局;而在互联网上邮件收不到、网站上不了……却没有谁会觉得不正常。但王松就要改变这种状况、这种认知,因为互联网如果要盈利、要收费,就一定要有一个商业保障。只有用CDN保证了网络的稳定,互联网才会是一个真正的商用平台。如今的互联网要求提供有价值、有保障的服务,但传统的电信运营商只是提供物理层的建设,ICP只是关注内容,而整个互联网却远远不止这处于上方的内容层和底部的物理层。在这两者之间,运营商和ICP都可能会购买CDN的专业服务来为其创造更多的价值。

CDN的技术原理

在描述CDN的实现原理,让我们先看传统的未加缓存服务的访问过程,以便了解CDN缓存访问方式与未加缓存访问方式的差别:

由上图可见,用户访问未使用CDN缓存网站的过程为:
1、用户向浏览器提供要访问的域名;   
2、浏览器调用域名解析函数库对域名进行解析,以得到此域名对应的IP地址;   
3、浏览器使用所得到的IP地址,域名的服务主机发出数据访问请求;   
4、浏览器根据域名主机返回的数据显示网页的内容。

通过以上四个步骤,浏览器完成从用户处接收用户要访问的域名到从域名服务主机处获取数据的整个过程。CDN网络是在用户和服务器之间增加Cache 层,如何将用户的请求引导到Cache上获得源服务器的数据,主要是通过接管DNS实现,下面让我们看看访问使用CDN缓存后的网站的过程:

通过上图,我们可以了解到,使用了CDN缓存后的网站的访问过程变为:   
1、用户向浏览器提供要访问的域名;   
2、浏览器调用域名解析库对域名进行解析,由于CDN对域名解析过程进行了调整,所以解析函数库一般得到的是该域名对应的CNAME记录,为了得到实际IP地址,浏览器需要再次对获得的CNAME域名进行解析以得到实际的IP地址;在此过程中,使用的全局负载均衡DNS解析,如根据地理位置信息解析对应的IP 地址,使得用户能就近访问。
3、此次解析得到CDN缓存服务器的IP地址,浏览器在得到实际的IP地址以后,向缓存服务器发出访问请求;
4、缓存服务器根据浏览器提供的要访问的域名,通过Cache内部专用DNS解析得到此域名的实际IP地址,再由缓存服务器向此实际IP地址提交访问请求;   
5、缓存服务器从实际IP地址得得到内容以后,一方面在本地进行保存,以备以后使用,二方面把获取的数据返回给客户端,完成数据服务过程;   
6、客户端得到由缓存服务器返回的数据以后显示出来并完成整个浏览的数据请求过程。 通过以上的分析我们可以得到,为了实现既要对普通用户透明(即加入缓存以后用户客户端无需进行任何设置,直接使用被加速网站原有的域名即可访问),又要在为指定的网站提供加速服务的同时降低对ICP的影响,只要修改整个访问过程中的域名解析部分,以实现透明的加速服务,下面是CDN网络实现的具体操作过程。

Linux运维学习:高级提升(1)——HTTP服务代理缓存加速相关推荐

  1. linux系统运维费用,一般Linux运维学习的费用是多少?Linux学习

    随着IT 互联网技术的发展,Linux逐渐成为中高端服务器的主要操作系统,并且目前地位不可替代.Linux运维工程师是一位"复合型人才",他集成了网络.系统.数据库.开发和安全等工 ...

  2. linux学习项目,[ Linux运维学习 ] 路径及实战项目合集

    我们知道运维工程师(Operations)最基本的职责就是负责服务的稳定性并确保整个服务的高可用性,同时不断优化系统架构.提升部署效率.优化资源利用率,确保服务可以7*24H不间断地为用户提供服务. ...

  3. 阿里云官方学习课程推荐-Linux运维学习路线 从事云计算运维相关工作必备技能

    阿里云官方学习课程推荐-Linux运维学习路线 从事云计算运维相关工作必备技能 目前越来越多的企业需要依赖于IT技术发布产品与服务,尤其是电子商务最为明显,它凸显了IT技术在现代企业中的重要性.当企业 ...

  4. 兄弟连Linux运维学习笔记

    最新经典linux运维兄弟连Linux运维学习笔记... --------------- 全程1.5倍播放.加油我一定可以学完Linux ---------------------- Unix与Lin ...

  5. linux运维需要掌握什么知识?linux运维学习路线

    linux运维需要掌握什么知识?这个问题算是老生常谈了,但是本人认为知道需要掌握什么知识不是重点,重点是我们需要知道运维是做什么的?再来根据工作需求去讨论需要学习什么知识才是正途,须知知识是学不完的, ...

  6. 最适合初学者的Linux运维学习教程2018版

    Linux运维工程师是一个新颖岗位,现在非常吃香,目前从行业的角度分析,随着国内软件行业不断发展壮大,越来越多复杂系统应运而生,为了保证系统稳定运行,必须要有足够多的Linux运维工程师.维护是软件生 ...

  7. Linux运维学习教程

    Linux运维工程师是一个新颖岗位,现在非常吃香,目前从行业的角度分析,随着国内软件行业不断发展壮大,越来越多复杂系统应运而生,为了保证系统稳定运行,必须要有足够多的Linux运维工程师.维护是软件生 ...

  8. linux常见系统目录,Linux系统中常见目录有哪些?linux运维学习中心

    Linux系统中常见目录有哪些?随着开源软件在世界范围内影响力日益增强,Linux服务器操作系统在整个服务器操作系统市场格局中占据了越来越多的市场份额,市场对于Linux运维人才的需求也是逐渐增加.L ...

  9. linux如何使用eth0网卡,Linux运维学习之如何取出网卡eth0的ip地址?

    Linux运维基础学习中,关于awk了解多少呢?咱们今天就来简单了解下如何取出网卡eth0的ip地址. hostname -I awk处理: 方法一: [root@oldboy files]# ifc ...

  10. Linux运维学习路径全解析

    作为一个小白,想要入门Linux还是有一定难度的,想要将Linux作为谋生技能更是需要你付出更多的经历和努力,我分享一些我之前自学Linux的经验以及一些学习网站资源,希望能对你有所帮助. 先贴一张L ...

最新文章

  1. UVa 389 Basically Speaking
  2. JAVA SPI机制及SPI机制在Tomcat中的应用
  3. 漫谈强化学习中的引导搜索策略
  4. CVPR 2019 | 旷视研究院提出Re-ID新方法VPM,优化局部成像下行人再识别
  5. [Flexbox] Using order to rearrange flexbox children
  6. 《Java8实战》笔记汇总
  7. String练习代码保存
  8. 分布式精华问答 | 分布式与集群的区别是什么?
  9. 本周日直播丨Oracle 多租户容器数据库体系结构
  10. Fence Repair(不会优先队列的看过来)
  11. (14)机器学习_f1,auc值
  12. python采集世界大学排名并作数据可视化, 来看看你的母校上榜没~
  13. 百度地图保存图片_如何获得可编辑的专题分析地图底图?
  14. 计算机boot进入u盘启动,戴尔服务器怎么进入u盘启动模式 选择oneshotbios
  15. 反射:获取Class类的三种方法
  16. 5、TM4的PD7和PF0解锁问题
  17. 动态规划:最长子序列
  18. Unity3D开发之折线图的制作(二)
  19. Burp Suite测试小程序,设置代理之后手机一直连不上网
  20. Fortify SCA C#.NET 扫描方法(Visual Studio插件)

热门文章

  1. K3 CLOUD出纳相关知识(应收金额、手工日记账、银行对账单)
  2. 问答式网络社区(ASK)
  3. 安全siem_当时和现在的安全相关性是关于siem的可悲事实
  4. 【云贝学院】腾讯云TDSQL独立部署最佳实践
  5. python 将xls、xlsx、doc、docx文件转为pdf
  6. 负载均衡手段之DNS轮询
  7. 服务器开机一直显示dhcp,关于电脑开机显示dhcp是什么意思
  8. dncnn图像去噪_深度学习图像去噪发展概述
  9. 1997-2022年市场化指数/市场化指数分享/含计算原始代码
  10. 历史上最伟大的十款经典苹果机