如下ipvsadm配置命令:

$ ipvsadm -A -t 207.175.44.110:80 -s rr
$ ipvsadm -a -t 207.175.44.110:80 -r 192.168.10.1:80 -i

选项-i(–ipip)即指定使用IPIP隧道转发模式。由ipvsadm-1.29源码中的选项解析函数parse_options可知,-i对应着隧道Tunnel模式,使用标志IP_VS_CONN_F_TUNNEL标识。

static int parse_options(int argc, char **argv, struct ipvs_command_entry *ce, unsigned int *options, unsigned int *format)
{while ((c=poptGetNextOpt(context)) >= 0){switch (c) {case 'i':set_option(options, OPT_FORWARD);ce->dest.conn_flags = IP_VS_CONN_F_TUNNEL;break;

连接绑定转发函数

在连接新建函数ip_vs_conn_new中,对于新创建的连接,使用函数ip_vs_bind_xmit为其绑定发送函数。

struct ip_vs_conn *ip_vs_conn_new(const struct ip_vs_conn_param *p, int dest_af, const union nf_inet_addr *daddr, __be16 dport, unsigned int flags, struct ip_vs_dest *dest, __u32 fwmark)
{struct ip_vs_conn *cp;cp = kmem_cache_alloc(ip_vs_conn_cachep, GFP_ATOMIC);#ifdef CONFIG_IP_VS_IPV6if (p->af == AF_INET6)ip_vs_bind_xmit_v6(cp);else
#endifip_vs_bind_xmit(cp);

对于转发模式为隧道Tunnel的连接,其传输函数设置为ip_vs_tunnel_xmit。

/* Bind a connection entry with the corresponding packet_xmit. Called by ip_vs_conn_new. */
static inline void ip_vs_bind_xmit(struct ip_vs_conn *cp)
{ switch (IP_VS_FWD_METHOD(cp)) {case IP_VS_CONN_F_TUNNEL:
#ifdef CONFIG_IP_VS_IPV6if (cp->daf == AF_INET6)cp->packet_xmit = ip_vs_tunnel_xmit_v6;else
#endifcp->packet_xmit = ip_vs_tunnel_xmit;break;

请求报文(IPIP隧道发送处理)

在netfilter的hook点NF_INET_LOCAL_IN或者NF_INET_LOCAL_OUT处理客户端请求报文时,函数ip_vs_in在进行完相应的处理之后,使用连接(如果连接不存在,将新建连接)的packet_xmit函数指针执行发送操作。对于IPIP隧道转发模式,其为函数ip_vs_tunnel_xmit。

static unsigned int ip_vs_in(struct netns_ipvs *ipvs, unsigned int hooknum, struct sk_buff *skb, int af)
{ip_vs_set_state(cp, IP_VS_DIR_INPUT, skb, pd);if (cp->packet_xmit)ret = cp->packet_xmit(skb, cp, pp, &iph);/* do not touch skb anymore */

以下看以下IPIP隧道发送函数ip_vs_tunnel_xmit,首先使用出口路由查找函数__ip_vs_get_out_rt,更新skb中的路由缓存,关于IPVS路由函数请参考:https://blog.csdn.net/sinat_20184565/article/details/102410129。对于Tunnel转发模式,由于要使用路由源地址作为Tunnel的源地址,在查找路由时,要求获取到路由源地址。

其次对于路由目的地为本地的报文,使用函数ip_vs_send_or_cont进行处理,实际上并未做处理,返回NF_ACCEPT,交由内核协议栈进行后续处理了。

int ip_vs_tunnel_xmit(struct sk_buff *skb, struct ip_vs_conn *cp, struct ip_vs_protocol *pp, struct ip_vs_iphdr *ipvsh)
{struct netns_ipvs *ipvs = cp->ipvs;struct net *net = ipvs->net;struct rtable *rt;          /* Route to the other host */__be32 saddr;               /* Source for tunnel */struct net_device *tdev;        /* Device to other host */__be16 *dfp = NULL;local = __ip_vs_get_out_rt(ipvs, cp->af, skb, cp->dest, cp->daddr.ip,IP_VS_RT_MODE_LOCAL | IP_VS_RT_MODE_NON_LOCAL | IP_VS_RT_MODE_CONNECT | IP_VS_RT_MODE_TUNNEL, &saddr, ipvsh);if (local < 0)goto tx_error;if (local)return ip_vs_send_or_cont(NFPROTO_IPV4, skb, cp, 1);

接下来,为添加Tunnel头部(外层IP报头)做准备。需要skb头部空余空间为max_headroom。默认情况下,PROC文件/proc/sys/net/ipv4/vs/pmtu_disc的值为1,即sysctl_pmtu_disc为真,表示将报文当前IP头部中的DF标志拷贝到Tunnel外部IP头部中。函数ip_vs_prepare_tunneled_skb用于确保skb头部空余空间,以及获取下一个协议号next_protocol,DS字段,TTL字段。

    rt = skb_rtable(skb);tdev = rt->dst.dev;/* Okay, now see if we can stuff it in the buffer as-is.*/max_headroom = LL_RESERVED_SPACE(tdev) + sizeof(struct iphdr);/* We only care about the df field if sysctl_pmtu_disc(ipvs) is set */dfp = sysctl_pmtu_disc(ipvs) ? &df : NULL;skb = ip_vs_prepare_tunneled_skb(skb, cp->af, max_headroom, &next_protocol, NULL, &dsfield, &ttl, dfp);if (IS_ERR(skb))goto tx_error;

之后由函数iptunnel_handle_offloads进行卸载相关的处理。然后,对Tunnel的外层IP头部进行初始化。其中源地址为出口路由查询时获得的源地址,而目的IP地址为真实服务器的IP地址。

    if (iptunnel_handle_offloads(skb, __tun_gso_type_mask(AF_INET, cp->af)))goto tx_error;skb->transport_header = skb->network_header;skb_push(skb, sizeof(struct iphdr));skb_reset_network_header(skb);memset(&(IPCB(skb)->opt), 0, sizeof(IPCB(skb)->opt));/* Push down and install the IPIP header.*/iph         =   ip_hdr(skb);iph->version        =   4;iph->ihl        =   sizeof(struct iphdr)>>2;iph->frag_off       =   df;iph->protocol       =   next_protocol;iph->tos        =   dsfield;iph->daddr      =   cp->daddr.ip;iph->saddr      =   saddr;iph->ttl        =   ttl;ip_select_ident(net, skb, NULL);

在报文发送之前,设置忽略禁止分片标志ignore_df,以避免在分片函数ip_fragment中,遇到IP报头设置有DF标志的报文,并且其长度大于MTU,而引发icmp_send函数发送代码为ICMP_FRAG_NEEDED的ICMP报文。最后由协议栈函数ip_local_out发送报文。

    /* Another hack: avoid icmp_send in ip_fragment */skb->ignore_df = 1;ret = ip_vs_tunnel_xmit_prepare(skb, cp);if (ret == NF_ACCEPT)ip_local_out(net, skb->sk, skb);else if (ret == NF_DROP)kfree_skb(skb);return NF_STOLEN;

辅助函数

隧道准备函数ip_vs_prepare_tunneled_skb,首先检查skb缓存的头部空余空间是否满足max_headroom的需求,不满足的话,重新分配skb缓存。其次,对于IPv6,外层IP头部中的协议字段使用IPPROTO_IPV6;对于IPv4,协议字段使用IPPROTO_IPIP。

static struct sk_buff *ip_vs_prepare_tunneled_skb(struct sk_buff *skb, int skb_af,unsigned int max_headroom, __u8 *next_protocol,  __u32 *payload_len, __u8 *dsfield, __u8 *ttl,  __be16 *df)
{ struct sk_buff *new_skb = NULL;struct iphdr *old_iph = NULL;  __u8 old_dsfield;
#ifdef CONFIG_IP_VS_IPV6           struct ipv6hdr *old_ipv6h = NULL;
#endifip_vs_drop_early_demux_sk(skb);if (skb_headroom(skb) < max_headroom || skb_cloned(skb)) {new_skb = skb_realloc_headroom(skb, max_headroom); if (!new_skb)              goto error;            if (skb->sk)               skb_set_owner_w(new_skb, skb->sk);       consume_skb(skb);          skb = new_skb;}#ifdef CONFIG_IP_VS_IPV6if (skb_af == AF_INET6) {old_ipv6h = ipv6_hdr(skb);*next_protocol = IPPROTO_IPV6;if (payload_len)*payload_len = ntohs(old_ipv6h->payload_len) + sizeof(*old_ipv6h);old_dsfield = ipv6_get_dsfield(old_ipv6h);*ttl = old_ipv6h->hop_limit;if (df)*df = 0;} else
#endif{old_iph = ip_hdr(skb);/* Copy DF, reset fragment offset and MF */if (df)*df = (old_iph->frag_off & htons(IP_DF));*next_protocol = IPPROTO_IPIP;/* fix old IP header checksum */ip_send_check(old_iph);old_dsfield = ipv4_get_dsfield(old_iph);*ttl = old_iph->ttl;if (payload_len)*payload_len = ntohs(old_iph->tot_len);}/* Implement full-functionality option for ECN encapsulation */*dsfield = INET_ECN_encapsulate(old_dsfield, old_dsfield);

另外,外层IP头部的TOS字段保留内部IP头部的ECN标志。以及拷贝内部IP的ttl字段到外部IP头部中。

函数iptunnel_handle_offloads处理skb的卸载设置,如果当前skb不是封装报文(没有隧道,encapsulation为零),由于此时要进行IPIP隧道封装,使用函数skb_reset_inner_headers设置内层头部指针,并且值为encapsulation表示做封装。

int iptunnel_handle_offloads(struct sk_buff *skb, int gso_type_mask)
{   int err;if (likely(!skb->encapsulation)) {skb_reset_inner_headers(skb);skb->encapsulation = 1;}

对于GSO报文,首先,如果skb的头部(非共享数据区)是克隆clone的,使用函数skb_header_unclone将其独立出来,对于IPv6将其gso_type字段设置为SKB_GSO_IPXIP6,表明下一个协议为IPv6。对于IPv4将gso_type设置为SKB_GSO_IPXIP4,表明外层隧道为IP头,内层也为IP。目前只有Intel的i40e网卡驱动程序会使用此标志。

对于非GSO报文,如果skb的IP校验方式不等于CHECKSUM_PARTIAL,表明不需要网卡辅助计算校验和,以下代码清空了encapsulation标志,感觉这并没有什么用处,因为ip_summed不等于CHECKSUM_PARTIAL导致驱动根本不会计算校验和,更不会计算进行了封装的内部协议的校验和,encapsulation无论为何值,都没有作用。

    if (skb_is_gso(skb)) {err = skb_header_unclone(skb, GFP_ATOMIC);if (unlikely(err))return err;skb_shinfo(skb)->gso_type |= gso_type_mask;return 0;}if (skb->ip_summed != CHECKSUM_PARTIAL) {skb->ip_summed = CHECKSUM_NONE;/* We clear encapsulation here to prevent badly-written drivers potentially deciding to offload an inner checksum* if we set CHECKSUM_PARTIAL on the outer header. This should go away when the drivers are all fixed.*/skb->encapsulation = 0;}

但是,参见代码中的注释部分,其打算实现的作用是在设置了CHECKSUM_PARTIAL的时候,防止一些不规范的网卡驱动程序错误的计算内存协议的校验和,而清空encapsulation标志。然而,ip_summed等于CHECKSUM_PARTIAL表明内部四层协议的校验和并不完整,需要网卡驱动进行辅助计算,在以上代码中,如果将判断条件修改为skb->ip_summed == CHECKSUM_PARTIAL,也说不通,不能简单的将ip_summed修改为CHECKSUM_NONE。

真实服务器

如以上介绍,配置了如下的ipvs虚拟服务。

$ ipvsadm -A -t 207.175.44.110:80 -s rr
$ ipvsadm -a -t 207.175.44.110:80 -r 192.168.10.1:80 -i

需要在真实服务器192.168.10.1上创建ipip隧道接口(ipip01),以便接收ipvs调度来的报文。

# ip link add ipip01 type ipip remote 207.175.44.110 local 192.168.10.1
# ip link set device ipip01 up

另外,真实服务器可直接回复客户端的请求报文,无需再经过ipvs系统,可减轻ipvs的负荷。

内核版本 4.15

IPVS之隧道转发模式相关推荐

  1. 由浅入深玩转华为WLAN—21 漫游系列(8)不同AC之间三层漫游【二层上线+直连式+隧道转发模式,相同VLAN,但不同子网的环境】

    三层漫游数据包的过程(隧道转发模式下) 漫游前数据包的走向 1.STA发送数据报文给HAP 2.HAP通过CAPWAP隧道把报文发送给HAC 3.HAC收到以后把业务报文送给上层设备处理转发 漫游后数 ...

  2. 基于华为WAC双机VRRP热备份下旁挂三层组网隧道转发模式解决方案

    基于华为WAC双机VRRP热备份下旁挂三层组网隧道转发模式解决方案 组网拓扑 方案思路 (1) 本案例是旁挂三层组网,隧道转发模式,AP与WAC之间是CAPWAP隧道,业务数据流量通过CAPWAP隧道 ...

  3. 无线WLAN隧道转发模式下数据的封装以及转发过程

    无线WLAN隧道转发模式下数据的封装以及转发过程 实验用的拓扑: AP1.AP2的业务vlan为101.102,管理vlan为100,AR路由器作为DHCP服务器为AP和终端分配IP地址.DNS等信息 ...

  4. IPVS之NAT转发模式

    如下ipvsadm配置命令: $ ipvsadm -A -t 207.175.44.110:80 -s rr $ ipvsadm -a -t 207.175.44.110:80 -r 192.168. ...

  5. IPVS之路由转发模式

    如下ipvsadm配置命令: $ ipvsadm -A -t 207.175.44.110:80 -s rr $ ipvsadm -a -t 207.175.44.110:80 -r 192.168. ...

  6. ssh隧道原理及三种隧道转发模式

    ssh 是如何工作的? 在 terminal 中 ,当我们输入 ssh username@remote_host 时,terminal 程序调用 ssh client ,ssh client 发起网络 ...

  7. 案例3-1-1 构建旁挂二层组网隧道转发WLAN

    本案例将说明采用AC+FIT架构.旁挂二层组网和隧道转发方式下构建WLAN的基本配置过程.网络拓扑如图3-1-14所示. 图3-1-14旁挂二层组网隧道转发 1. 参数规划 二层组网时,AC和AP在同 ...

  8. 就是要你懂负载均衡--lvs和转发模式

    本文希望阐述清楚LVS的各种转发模式,以及他们的工作流程和优缺点,同时从网络包的流转原理上解释清楚优缺点的来由,并结合阿里云的slb来说明优缺点. 如果对网络包是怎么流转的不太清楚,推荐先看这篇基础: ...

  9. 由浅入深玩转华为WLAN—20 漫游系列(7)不同AC之间二层漫游【二层上线+直连式+直接转发模式】

    说明 之前介绍过在AC间漫游的新概念以及一些处理过程,对比AC内漫游相对从配置角度来说不是非常大,只是转发的过程有点小变化,这个可以参考之前介绍的转发过程即可. 二层漫游的数据包转发过程(该图中直接转 ...

最新文章

  1. HBuilder 的快捷键
  2. hibernate与mybatis的区别和应用场景
  3. python3 打印异常堆栈信息
  4. spring boot整合redis实现统计访问量
  5. 独辟蹊径,Python打造新型基于图像隐写术的C2通道
  6. python反距离权重法_反距离权重法 (Spatial Analyst)—ArcMap | 文档
  7. 《Mahout算法解析与案例实战》一一2.3 测试安装
  8. C++ plus Primer 第六版中文版 带书签的 PDF
  9. Labview之RS485通信
  10. linux备份目录命令tar,Linux中使用tar命令备份与还原数据
  11. 容器Docker学习系列五~命令学习history,save, import
  12. Android Studio个人使用记录
  13. 使用了一次VPN关闭后,网页打不开了
  14. 什么是SQL注入式攻击!如何防范SQL注入式攻击?
  15. 关于HOOK,如何通过钩子截获指定窗口的所有消息
  16. 【Node.js-6】consolidate模板引擎集成、router路由介绍
  17. 中国SEO可持续性发展问题
  18. 用java实现文学研究助手_数据结构文学研究助手 C语言代码实现(带源码+解析)...
  19. 根据流量 (Traffic) 来进行负载平衡器 (Auto Scaling Group) 的运作
  20. 关于极域软件卸载残留

热门文章

  1. copy的过去式_您知道copy都有哪些意思吗?
  2. Spring MVC 高级技术之文件上传(multipart)
  3. python 作业 2
  4. 登入学生账号的c语言编码,C语言学生账号信息管理系统.pdf
  5. Java 中的修饰符总结
  6. I2C和EEPROM
  7. 告别手动添加 iOS IAP 的烦恼,让脚本带你飞
  8. 使用Sqoop1将MySQL 导入数据到 HDFS
  9. 安卓app局域网内访问PC服务端
  10. 哈希冲突和哈希冲突攻击解析