背景

分布式系统的挑战

  • 时序性:运行在不同网络下的机器中的进程如何判断一些事件的发生顺序。
  • 并发性:运行在不同网络下的机器中的进程如何共享资源,而互不打扰。比如访问共同的数据库。
  • 健壮性:应对网络的不稳定以及硬件的不稳定。
  • 一致性:如何保障无论访问哪个服务节点,都能获取相同的结果。

分布式共识

分布式系统中多个节点之间,彼此对某个状态达成一致结果的过程。

分布式共识的应用

  • 逻辑时间的共识,来决定事件发生的顺序。
  • 互斥性的共识,用于决定谁正拥有访问的资源。
  • 协调者的共识,谁是当下的leader。

Raft 角色

  • 跟随者(Follower):普通群众,默默接收和来自领导者的消息,当领导者心跳 信息超时的时候,就主动站出来,推荐自己当候选人。
  • 候选人(Candidate):候选人将向其他节点请求投票 RPC 消息,通知其他节 点来投票,如果赢得了大多数投票选票,就晋升当领导者。
  • 领导者(Leader):霸道总裁,一切以我为准。处理写请求、管理日志复制和 不断地发送心跳信息,通知其他节点“我是领导者,我还活着,你们不要”发起新的 选举,不用找新领导来替代我。

如下图所示,分别用三种图代表跟随者、候选人和领导者。

Raft选举过程

演示案例
http://thesecretlivesofdata.com/raft/

1.初始状态

初始状态下,集群中所有节点都是跟随者的状态。 如下图所示,有三个节点(Node) a、b、c,任期(Term)都为 0。

Raft 算法实现了随机超时时间的特性,每个节点等待领导者节点心跳信息的超时时间间隔是随机的(150ms - 300ms)。比如 A 节点等待超时的时间间隔 150 ms,B 节点 200 ms,C 节点 300 ms。 那么 a 先超时,最先因为没有等到领导者的心跳信息,发生超时。如下图所示,三个节点 的超时计时器开始运行。

2.发起投票

当 A 节点的超时时间到了后,A 节点成为候选者,并增加自己的任期编号,Term 值从 0 更新为 1,并给自己投了一票。

  • Node A:Term = 1, Vote Count = 1。
  • Node B:Term = 0。
  • Node C:Term = 0。

开始倒计时

A节点倒计时结束,给自己投票

3. 成为领导者的简化过程

我们来看下候选者如何成为领导者的。

  • 节点 A 成为候选者后,向其他节点发送请求投票 RPC 信息,请它们选举自己为领 导者。
  • 节点 B 和 节点 C 接收到节点 A 发送的请求投票信息后,在编号为 1 的这届任期 内,还没有进行过投票,就把选票投给节点 A,并增加自己的任期编号。
  • 节点 A 收到 3 次投票,得到了大多数节点(n/2+1)的投票,从候选者成为本届任 期内的新的领导者。
  • 节点 A 作为领导者,固定的时间间隔给 节点 B 和节点 C 发送心跳信息,告诉节点 B 和 C,我是领导者,组织其他跟随者发起新的选举。
  • 节点 B 和节点 C 发送响应信息给节点 A,告诉节点 A 我是正常的。

4.领导者的任期

英文单词是 term,领导者是有任期的。

  • 自动增加:跟随者在等待领导者心跳信息超时后,推荐自己为候选人,会增加自 己的任期号,如上图所示,节点 A 任期为 0,推举自己为候选人时,任期编号增加为 1。
  • 更新为较大值:当节点发现自己的任期编号比其他节点小时,会更新到较大的编号值。比如节点 A 的任期为 1,请求投票,投票消息中包含了节点 A 的任期编号, 且编号为 1,节点 B 收到消息后,会将自己的任期编号更新为 1。
  • 恢复为跟随者:如果一个候选人或者领导者,发现自己的任期编号比其他节点 小,那么它会立即恢复成跟随者状态。这种场景出现在分区错误恢复后,任期为 3 的 领导者受到任期编号为 4 的心跳消息,那么前者将立即恢复成跟随者状态。
  • 拒绝消息:如果一个节点接收到较小的任期编号值的请求,那么它会直接拒绝这 个请求,比如任期编号为 6 的节点 A,收到任期编号为 5 的节点 B 的请求投票 RPC 消息,那么节点 A 会拒绝这个消息。
  • 一个任期内,领导者一直都会领导者,直到自身出现问题(如宕机),或者网络 问题(延迟),其他节点发起一轮新的选举。

5.防止多个节点同时发起投票

为了防止多个节点同时发起投票,会给每个节点分配一个随机的选举超时时间。这个时间 内,节点不能成为候选者,只能等到超时。比如上述例子,节点 A 先超时,先成为了候选 者。这种巧妙的设计,在大多数情况下只有一个服务器节点先发起选举,而不是同时发起选 举,减少了因选票瓜分导致选举失败的情况。

6.触发新的一轮选举

如果领导者节点出现故障,则会触发新的一轮选举。假设导者节点 A 发生故 障,节点 B 和 节点 C 就会重新选举 Leader。

  • 节点 A 发生故障,节点 B 和节点 C 没有收到领导者节点 A 的心跳信息,等待超 时。
  • 节点 C (175ms) 先发生超时,节点 C 成为候选人。
  • 节点 C 向节点 A 和 节点 B 发起请求投票信息。
  • 节点 C 响应投票,将票投给了 C,而节点 A 因为发生故障了,无法响应 C 的投票 请求。
  • 节点 C 收到两票(大多数票数),成为领导者。
  • 节点 C 向节点 A 和 B 发送心跳信息,节点 B 响应心跳信息,节点 A 不响应心跳信息。
  • 节点 A 恢复后,收到节点 C 的高任期消息,自身将为跟随者,接收节点 C 的消息。

总结:Raft 算法的几个关键机制

Raft 算法通过以下几个关键机制,保证了一个任期只有一位领导,极大减少了选举失败的 情况。

  • 任期机制
  • 领导者心跳信息
  • 随机选举超时时间
  • 先来先服务的投票原则
  • 大多数选票原则

分布式 - Raft选举相关推荐

  1. 分布式协议学习笔记(一) Raft 选举

    Raft官网 官方可视化动画1 官方可视化动画2 论文中文翻译 论文英文地址 感觉作为paxos的升级精简版 Raft在设计之初就以容易理解为目标 看完资料 脑海里都有了大概的轮廓. 有了这些详细的资 ...

  2. 用动图讲解分布式 Raft

    用动图讲解分布式 Raft 一.Raft 概述 Raft 算法是分布式系统开发首选的共识算法.比如现在流行 Etcd.Consul. 如果掌握了这个算法,就可以较容易地处理绝大部分场景的容错和一致性需 ...

  3. 分布式 | Raft 共识算法

    1.简介 Raft算法讨论的也是分布式系统中如何就一系列的值达成共识和各个节点日志保持一致, 但是Raft算法是通过一切以一个领导者为核心的方式, 所有写请求都是通过Leader去发表提案 Raft算 ...

  4. [分布式]-Raft论文研读

    前言 本文是对 Raft 论文的研读.跳过了原文中评价 Paxos 以及对 Raft 性质进行实验评估的部分.文中出现的引用体部分为本人的个人理解或者在论文之外的其它文章阅读到的相关内容,作为补充 摘 ...

  5. 浅谈分布式一致性:Raft 与 SOFAJRaft

    简介: SOFAJRaft已开源 作者 | 家纯 来源 | 阿里技术公众号 一 分布式共识算法 (Consensus Algorithm) 1 如何理解分布式共识? 多个参与者针对某一件事达成完全一致 ...

  6. 分布式计算原理之分布式协调与同步(1)——分布式选举

    1:分布式选举的概念 一般来说,集群有两个或两个以上的服务器组件而成,其中,每个服务器都是集群中的一个节点.对于一个节点来说,多个节点是如何做到协同工作?比如数据库集群,如何保证数据库写入集群在每个节 ...

  7. Go实现Raft第二篇:选举

    女主宣言 今天小编为大家分享一篇关于Golang实现Raft的文章,本篇文章为系列中的第二篇,对Raft中的选举机制进行介绍并使用go进行实现.希望能对大家有所帮助. PS:丰富的一线技术.多元化的表 ...

  8. 分布式锁选型背后的架构设计思维【附源码】

    1. 分布式锁本质 提到分布式锁,有很多实现,比如Redis分布式锁.ZooKeeper分布式锁.etcd分布式锁等.但是选择哪个更适合你的项目?在<基于CAP模型设计企业级真正高可用的分布式锁 ...

  9. mysqlbinlog查看日志_一个分布式 MySQL Binlog 存储系统的架构设计

    1. kingbus简介 1.1 kingbus是什么? kingbus是一个基于raft强一致协议实现的分布式MySQL binlog 存储系统.它能够充当一个MySQL Slave从真正的Mast ...

最新文章

  1. 2021年大数据Kafka(五):❤️Kafka的java API编写❤️
  2. 14 Java面试之 IO 流技术
  3. PTA 基础编程题目集 7-16 求符合给定条件的整数集 C语言
  4. tp剩余未验证内容-7
  5. 网站搭建从零开始(六) WordPress的基本配置
  6. 高可用架构可行性方案
  7. 关于单元测试的那些事儿,Mockito 都能帮你解决
  8. 别太相信自己,总有一种诈骗戳中你的刚需
  9. leetcode5 Longest Palindromic Substring 最长且为回数的子字符串
  10. 2349 Arctic Network prim最小生成树 基础
  11. c语言如何实现单进程,如何用C语言实现多线程
  12. plsql导出表结构到excel_PLSQL导出表结构和数据的三种方式
  13. 性能测试流程、优化、指标
  14. 苹果应用商店反垄断案败诉,市值蒸发500多亿美元;脸书杠上了土耳其政府;Nutanix 扩展多云产品组合……...
  15. 我的测试入门——需求分析与用例编写
  16. html5文本框里插图片文字,word应用教程:在文本框内插入图片
  17. 无线充电安全性如何?最安全的无线充电宝盘点
  18. 斐讯n1刷鸿蒙系统,【总结】在N1上面成功刷入armbian并启动的步骤
  19. html5流水账,流水记账.html
  20. “大多数人,都死在了 30 岁”

热门文章

  1. python rgb2gray,skimage.color中的rgb2gray是如何实现彩色图片灰度化
  2. 解决chrome下https无法打开方法
  3. 【算法分析】分治法详解+范例+习题解答
  4. 中国剩余定理(孙子定理) 原理及模板代码
  5. OPC协议学习笔记?
  6. idea 2021 快捷键
  7. win10笔记本WLAN已关闭,无法打开,解决办法
  8. mysql5.19安装教程_MySQL5.5.19安装图解
  9. 在Linux下进行jre环境配置(以JDK1.7.0_79为例)
  10. 挣值法的三个参数及四个指标总结