简介:在存储系统中, NFS(Network File System,即网络文件系统)是一个重要的概念,已成为兼容POSIX语义的分布式文件系统的基础。它允许在多个主机之间共享公共文件系统,并提供数据共享的优势,从而最小化所需的存储空间。本文将通过分析NFS文件锁状态视图一致性的原理,帮助大家理解NFS的一致性设计思路。

文件锁

文件锁是文件系统的最基本特性之一,应用程序借助文件锁可以控制其他应用对文件的并发访问。NFS作为类UNIX系统的标准网络文件系统,在发展过程中逐步地原生地支持了文件锁(从NFSv4开始)。NFS从上个世界80年代诞生至今,共发布了3个版本:NFSv2、NFSv3、NFSv4。

NFSv4最大的变化是有“状态”了。某些操作需要服务端维持相关状态,如文件锁,例如客户端申请了文件锁,服务端就需要维护该文件锁的状态,否则和其他客户端冲突的访问就无法检测。如果是NFSv3就需要NLM协助才能实现文件锁功能,但是有的时候两者配合不够协调就会容易出错。而NFSv4设计成了一种有状态的协议,自身就可以实现文件锁功能,也就不需要NLM协议了。

应用接口

应用程序可以通过 fcntl() 或 flock() 系统调用管理NFS文件锁,下面是NAS使用NFSv4挂载时获取文件锁的调用过程:

从上图调用栈容易看出,NFS文件锁实现逻辑基本复用了VFS层设计和数据结构,在通过RPC从Server成功获取文件锁后,调用 locks_lock_inode_wait() 函数将获得的文件锁交给VFS层管理,关于VFS层文件锁设计的相关资料比较多,在此就不再赘述了。

EOS原理

文件锁是典型的非幂等操作,文件锁操作的重试和Failover会导致文件锁状态视图在客户端和服务端间的不一致。NFSv4借助SeqId机制设计了最多执行一次的机制,具体方法如下:

针对每个open/lock状态,Client和Server同时独立维护seqid,Client在发起会引起状态变化的操作时(open/close/lock/unlock/release_lockowner)会将seqid加1,并作为参数发送给Server,假定Client发送的seqid为R,Server维护的seqid为L,则:

  • 若R == L +1,表示合法请求,正常处理之。
  • 若R == L,表示重试请求,Server将缓存的reply返回即可。
  • 其他情况均为非法请求,决绝访问。

根据上述规则,Server可判断操作是否为正常、重试或非法请求。

该方法能够保证每个文件锁操作在服务端最多执行一次,解决了RPC重试带来的重复执行的问题,但是仅靠这一点是不够的。比如LOCK操作发送后调用线程被信号中断,此后服务端又成功接受并执行了该LOCK操作,这样服务端就记录了客户端持有了锁,但客户端中却因为中断而没有维护这把锁,于是就造成了客户端和服务端间的锁状态视图不一致。因此,客户端还需要配合处理异常场景,最终才能够保证文件锁视图一致性。

异常处理

由上一节的分析可知,客户端需要配合处理异常场景才能够保证文件视图一致性,那么客户端设计者主要做了哪些配合的设计呢?目前客户端主要从SunRPC和NFS协议实现两个维度相互配合解决该问题,下面分别介绍这两个维度的设计如何保证文件锁状态视图一致性。

SunRPC设计

SunRPC是Sun公司专门为远程过程调用设计的网络通讯协议,这里从保障文件锁视图一致性的维度来了解一下SunRPC实现层面的设计理念:

(1)客户端使用int32_t类型的xid标识上层使用者发起的每个远程过程调用过程,每个远程过程调用的多次RPC重试使用相同的xid标识,这样就保障了多次RPC重试中任何一个返回都可以告知上层远程过程调用已经成功,保证了服务端执行远程过程调用执行耗时较长时也能拿到结果,这一点和传统的netty/mina/brpc等都需要每个RPC都要有独立的xid/packetid不同。

(2)服务端设计了DRC(duplicate request cache)缓存最近执行的RPC结果,接收到RPC时会首先通过xid检索DRC缓存,若命中则表明RPC为重试操作,直接返回缓存的结果即可,这在一定程度上规避了RPC重试带来的重复执行的问题。为了避免xid复用导致DRC缓存返回非预期的结果,开发者通过下述设计进一步有效地减少复用引起错误的概率:

  • 客户端建立新链接时初始xid采用随机值。
  • 服务端DRC会额外记录请求的校验信息,缓存命中时会同时校验这些信息。

(3)客户端允许在获得服务端响应前无限重试,保证调用者能够获得服务端确定性的执行结果,当然这样的策略会导致无响应时调用者会一直hang。

(4)NFS允许用户在挂载时通过soft/hard参数指定SunRPC的重试策略,其中soft模式禁止超时后重试,hard模式则持续重试。当用户使用soft模式挂载时NFS实现不保证客户端和服务端状态视图的一致性,在遇到远程过程调用返回超时要求应用程序配合状态的清理和恢复,比如关闭访问出错的文件等,然而实践中很少有应用程序会配合,所以一般情况下NAS用户都使用hard模式挂载。

总之,SunRPC要解决的核心问题之一是,远程过程调用执行时间是不可控的,协议设计者为此定制化设计,尽量避免非幂等操作RPC重试带来的副作用。

信号中断

应用程序等待远程过程调用结果时允许被信号中断。当发生信号中断时,由于没有得到远程过程调用的执行结果,所以客户端和服务端的状态很可能就不一致了,比如加锁操作在服务端已经成功执行,但客户端并不知道这个情况。这就要求客户端做额外的工作将状态和服务端恢复一致。下面简要分析获取文件锁被信号中断后的处理,来说明NFS协议实现层面的一致性设计。

通过获取NFSv4文件锁的过程可知,NFSv4获取文件锁最终会调用 _nfs4_do_setlk() 函数发起RPC操作,最终调用 nfs4_wait_for_completion_rpc_task() 等待,下面是相关代码:

static int _nfs4_do_setlk(struct nfs4_state *state, int cmd, struct file_lock *fl, int recovery_type)
{      ......     task = rpc_run_task(&task_setup_data);     if (IS_ERR(task))         return PTR_ERR(task);     ret = nfs4_wait_for_completion_rpc_task(task);     if (ret == 0) {         ret = data->rpc_status;         if (ret)             nfs4_handle_setlk_error(data->server, data->lsp,                     data->arg.new_lock_owner, ret);     } else         data->cancelled = 1;       ......
}

通过分析 nfs4_wait_for_completion_rpc_task() 实现可知,当ret < 0时,表明获取锁过程被信号中断,并使用 struct nfs4_lockdata 的 cancelled 成员记录。继续查看rpc_task完成后释放时的回调函数 nfs4_lock_release():

从上面红色框中的代码可知,nfs4_lock_release() 检测到存在信号中断时会调用 nfs4_do_unlck()函数尝试将可能成功获得文件锁释放掉,注意此时没有调用 nfs_free_seqid() 函数将持有的nfs_seqid释放掉,这是为了:

  • 保证订正状态过程中不会有用户新发起的并发加锁或者释放锁操作,简化实现。
  • 保证hard模式下UNLOCK操作只会在LOCK操作返回后才会发送,保障已经获得锁能够被释放掉。

客户端通过上面的方法能够有效地保证信号中断后客户端和服务端锁状态的最终一致性,但也是在损失一部分可用性为代价的。

总结

文件锁是文件系统原生支持的基础特性,NAS作为共享的文件系统要面临客户端和服务端锁状态视图一致性的问题,NFSv4.0在一定程度上解决了这个问题,当然,技术前进的脚步不会停止,NFS的更新迭代也就不会停止,未来的NFS将会有更多的期待。

最后

我们相信技术的力量,更相信拥有技术力量的人。我们期待存储的未来,更期待与你一起创造未来。

原文链接:https://developer.aliyun.com/article/769594?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

如何保证NFS文件锁的一致性?相关推荐

  1. NFS文件锁一致性设计原理解析

    简介:在存储系统中, NFS(Network File System,即网络文件系统)是一个重要的概念,已成为兼容POSIX语义的分布式文件系统的基础.它允许在多个主机之间共享公共文件系统,并提供数据 ...

  2. Kafka 是如何保证数据可靠性和一致性

    学过大数据的同学应该都知道 Kafka,它是分布式消息订阅系统,有非常好的横向扩展性,可实时存储海量数据,是流数据处理中间件的事实标准.本文将介绍 Kafka 是如何保证数据可靠性和一致性的. 数据可 ...

  3. 如何保证缓存和数据库一致性?

    如何保证缓存和数据库一致性? 引入缓存提高性能 缓存利用率和一致性问题 并发引起的一致性问题 删除缓存可以保证一致性吗? 如何保证两步都执行? 主从延迟和延迟双删问题 可以做到强一致性吗? 总结 如何 ...

  4. 怎么保证缓存和数据库一致性

    背景 缓存是软件开发中一个非常有用的概念,数据库缓存更是在项目中必然会遇到的场景.而缓存一致性的保证,更是在面试中被反复问到,这里进行一下总结,针对不同的要求,选择恰到好处的一致性方案. 缓存是什么 ...

  5. 保证MQ消息传递的一致性

    https://my.oschina.net/floor/blog/1587537 1.保证消息传递与一致性 1.1生产者确保消息自主性 当生产者发送一条消息时,它必须完成他的所有业务操作. 如下图: ...

  6. 【数据竞赛】Kaggle竞赛如何保证线上线下一致性?

    作者: 尘沙樱落.杰少.新峰.谢嘉嘉.DOTA.有夕 验证策略设计 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们的公众号,如有任 ...

  7. MySQL 怎么保证备份数据的一致性?

    为了数据安全,数据库需要定期备份,这个大家都懂,然而数据库备份的时候,最怕写操作,因为这个最容易导致数据的不一致,松哥举一个简单的例子大家来看下: 假设在数据库备份期间,有用户下单了,那么可能会出现如 ...

  8. rocketmq怎么保证消息一致性_RocketMQ为什么要保证订阅关系的一致性?

    微信公众号「后端进阶」,专注后端技术分享:Java.Golang.WEB框架.分布式中间件.服务治理等等. 前段时间有个朋友向我提了一个问题,他说在搭建 RocketMQ 集群过程中遇到了关于消费订阅 ...

  9. 启动rocketmq 报错_RocketMQ为什么要保证订阅关系的一致性?

    前段时间有个朋友向我提了一个问题,他说在搭建 RocketMQ 集群过程中遇到了关于消费订阅的问题,具体问题如下: 然后他发了报错的日志给我看: the consumer's subscription ...

最新文章

  1. 图论 ---- B. Graph Subset Problem (图中找k阶完全子图 or 找一个子集里面的点的度数都打过k)
  2. Codeforces数学1600day3[数学CodeForces - 1213D2, CodeForces - 1165E 数论,CodeForces - 1165D 因子分解]
  3. linux错误代码0x8008005,利用Windows10自带Linux学习(附带:0x8007019e错误解决方法)...
  4. python判断题题库大数据技术_智慧树_大数据分析的python基础_搜题公众号
  5. 红米k30 android版本,Redmi K30 Pro 推送 MIUI 12.2.1 稳定版:为安卓跨版本升级
  6. 无法安装 Microsoft Visual Studio 2010 Service Pack 1
  7. java案例代码21-电影院购票系统[重要]
  8. 【训练计划】--2019-04
  9. (Josephus )约瑟夫环问题 C语言实现
  10. lightblue使用教程_使用LightBlue Bean和IFTTT自动化LIFX灯
  11. t检验和wilcoxon秩和检验 判断两组数据间的显著性差异
  12. win8计算机管理员权限删除文件,如何解决 win8系统管理员权限删除文件夹访问被拒绝(3页)-原创力文档...
  13. ES 检索 word、pdf 文档插件 ingest attachment 的管道配置和文档结构映射
  14. 2022-2027年中国安防智能化行业市场全景评估及发展战略规划报告
  15. Thymeleaf 表单回填
  16. 51单片机的指令系统(一)
  17. 针对CSS说一说|技术点评
  18. Linux系统配置及服务管理-网络管理实战1
  19. mysql字符集maxlen_Mysql_字符集设置
  20. 可悲的智人類。  文/奧斯·科特林

热门文章

  1. 30 本 Python 新书《谁说菜鸟不会数据分析》,包邮送到你手上!!
  2. python3.7如何使用enum_Python3.4 枚举类型的使用
  3. 西南交通大学计算机程序设计实验13,西南交通大学C++实验报告.doc
  4. GAN生成对抗网络-text to image原理与基本实现-文字转图像-11
  5. java 防止拷贝_[改善Java代码]避免对象的浅拷贝
  6. idea部署tomcat项目时,在项目里打断点不能拦截
  7. bootstrap学习(一)栅格、布局
  8. Linux上用Jenkins执行shell
  9. Linux MySQL5.5的安装
  10. 【编程之美】2.21 只考加法的面试题