一致性Hash算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot Spot)问题,初衷和CARP十分相似。一致性Hash修正了CARP使用的简单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用。

一致性Hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义:

1、平衡性(Balance):平衡性是指哈希的结果能够尽可能分布在所有的缓冲(Cache)中去,这样可以使得所有的缓冲空间得到利用。很多哈希算法都能够满足这一条件。

2、单调性(Monotonicity):单调性是指如果已经有一些内容通过哈希分派到了相应的缓冲中,又有新的缓冲加入到系统中。哈希的结果应该能够保证原有已分配的内容可以被映射到原有的或者新的缓冲中去,而不会映射到旧的缓冲集合中的其他缓冲区。

3、分散性(Spread):在分布式环境中,终端有可能看不到所有的缓冲,而只能看到其中的一部分。当终端希望通过哈希过程将内容映射到缓冲上去,由于不同终端所见的缓冲范围有可能不同,从而导致哈希的结果不一致,最终的结果是相同的内容被不同的终端映射到不同的缓冲区中。这种情况显然是应该避免的,因为它导致相同内容被存储到不同缓冲中去,降低了系统存储的效率。分散性的定义就是上述情况发生的严重程度。好的哈希算法应该能够尽量避免不一致的情况发生,也就是尽量降低分散性。

4、负载(Load):负载问题实际上是从另一个角度看待分散性问题。既然不同的终端可能将相同的内容映射到不同的缓冲区中,那么对于一个特定的缓冲区而言,也可能被不同的用户映射到不同的内容。与分散性一样,这种情况也是应当避免的,因此好的哈希算法应能够尽量降低缓冲的负荷。

   在分布式集群中,对机器的添加删除,或者机器故障后自动脱落集群这些操作是分布式集群管理最基本的功能。如果采用常用的hash(object)%N算法,那么在有机器添加或者删除后,很多原有的数据就无法找到了,这样严重的违反了单调性原则。

解释使用hash(object)%N,其中N是指N个cache服务器/N个节点为啥不行:

如果N个cache服务器中编号为a的服务器故障了,需要把a从服务器群中移除,这个时候cache服务器的数量就变成了N-1台,那么所有对象(object)映射到cache服务器的计算公式就变成了hash(object)%N-1,对,影响到了所有的对象与cache服务器的映射关系,类似,由于访问加重,需要添加cache服务器,这时候cache服务器是N+1台,映射公式就变成了hash(object)%N+1,这就意味着几乎所有的cache都失效了,对于服务器而言,这是一场灾难,所有访问都会直接冲向后台服务器。

接下来主要讲解一下哈希算法是如何设计的:

环形Hash空间

按照常用的hash算法来将对应的key哈希到一个具有2^32次方个桶的空间中,即0~(2^32)-1的数字空间。现在我们可以将这些数字头尾相连,想象成一个闭合的环形。如下图

把数据(对象)通过一定的hash算法处理后映射到环上

现在我们将object1、object2、object3、object4四个对象通过特定的Hash函数计算出对应的key值,然后散列到hash换上。如下图:

Hash(object1)=key1;Hash(object2)=key2;Hash(object3)=key3;Hash(object4)=key4;

将机器通过hash算法映射到环上

在采用一致性哈希算法的分布式集群中将新的机器加入,其原理是通过使用与对象存储一样的Hash算法将机器也映射到换种(一般情况下对机器的hash计算是采用机器的IP或者唯一的别名作为输入值),然后以顺时针的方向计算,将所有对象存储到离自己最近的机器中。

假设现在有NODE1,NODE2,NODE3三台机器中,通过hash算法得到对应的KEY值,映射到环中,其示意图如下:

Hash(NODE1)=KEY1;Hash(NODE2)=KEY2;Hash(NODE3)=KEY3;

通过上图可以看出对象与机器处于同一个哈希空间中,这样按顺时针转动object1(对象)存储到了NODE1(机器)中,object3(对象)存储到了NODE2(机器)中,object2、object4(对象)存储到了NODE3(机器)中。在这样的部署环境中,hash环是不会变更的,因此,通过算出对象的hash值就能快速的定位到对应的机器中,这样就能找到对象真正的存储位置了。

机器删除与添加

普通hash求余算法最为不妥的地方就是在有机器的添加与删除以后会造成大量的对象存储位置的失效,这样就大大的不满足单调性了。下面来分析一下一致性哈希算法是如何处理的。

1、节点(机器)的删除

以上面的分布式集群为例,如果NODE2出现故障被删除了,那么按照顺时针迁移的方法,object3将会被迁移到NODE3中,这样仅仅是object3的映射位置发生了变化,其他的对象没有任何的变动,如下图:

2、节点(机器)的添加

如果往集群中添加一个新的节点NODE4,通过对应的Hash算法得到KEY4,并映射到环中,如下图:

通过按照顺时针迁移的规则,那么object2被迁移到NODE4中,其他对象还保持这原有的存储位置。通过对节点的添加和删除的分析,一致性哈希算法在保持了单调性的同时,还是数据的迁移达到了最小,这样的算法对分布式集群来说非常合适的,避免了大量收数据迁移,减少了服务器的压力。

平衡性

根据上面的图解分析,一致性哈希算法满足了单调性和负载均衡的特性以及一般hash算法的分散性,但这还并不能当做其被广泛应用的原由,因为缺少了平衡性。下面将分析一致性哈希算法是如何满足平衡性的。hash算法是不保证平衡性的,如上面只部署了NODE1和NODE3的情况(NODE2被删除的图),object1存储在NODE1中,而object2、object3、object4都存储在NODE3中,这样就造成了非常不平衡的状态。在一致性哈希算法中,为了尽可能的满足平衡性,其引入了虚拟节点。

何为虚拟节点?虚拟节点(Virtual node)是实际节点(机器)在hash空间的复制品(replica),一个实际节点对应了若干个“虚拟节点”,这个对应个数也称为“复制个数”,“虚拟节点”在hash空间中以hash值排列。

在上面只部署了NODE1和NODE3的情况(NODE2被删除的图)为例,之前的对象在机器上的分布很不均衡,现在我们以2个副本(每个节点复制2个)为例,这样整个hash环就存在4个虚拟节点,最后对象映射的关系图如下:

根据上图可知对象的映射关系:object1->NODE1-1,object2->NODE1-2 ,object3->NODE3-2,object4->NODE3-1,通过虚拟节点的引入,对象的分布就比较均衡了。那么在实际操作中,真正的对象查询是如何工作的呢?对象从hash到虚拟节点到实际节点的转换如下图:

虚拟节点”的hash计算可以采用对应节点的IP地址加数字后缀的方式。例如假设NODE1的IP地址为192.168.1.100。引入“虚拟节点”前,计算 cache A 的 hash 值:

Hash(“192.168.1.100”);

引入“虚拟节点”后,计算“虚拟节”点NODE1-1和NODE1-2的hash值:

Hash(“192.168.1.100#1”); // NODE1-1

Hash(“192.168.1.100#2”); // NODE1-2

参考:https://blog.csdn.net/cywosp/article/details/23397179/

https://www.jianshu.com/p/e8fb89bb3a61

看完此文,必须明白一致性Hash算法相关推荐

  1. 不会一致性hash算法,劝你简历别写搞过负载均衡

    这两天看到技术群里,有小伙伴在讨论一致性hash算法的问题,正愁没啥写的题目就来了,那就简单介绍下它的原理.下边我们以分布式缓存中经典场景举例,面试中也是经常提及的一些话题,看看什么是一致性hash算 ...

  2. 什么是一致性 Hash 算法

    数据分片 先让我们看一个例子吧 我们经常会用 Redis 做缓存,把一些数据放在上面,以减少数据的压力. 当数据量少,访问压力不大的时候,通常一台Redis就能搞定,为了高可用,弄个主从也就足够了: ...

  3. 一致性 Hash 算法原理总结

    一致性 Hash 算法是解决分布式缓存等问题的一种算法,本文介绍了一致性 Hash 算法的原理,并给出了一种实现和实际运用的案例: 一致性 Hash 算法背景 考虑这么一种场景: 我们有三台缓存服务器 ...

  4. 一致性 Hash 算法的实际应用

    前言 记得一年前分享过一篇<一致性 Hash 算法分析>,当时只是分析了这个算法的实现原理.解决了什么问题等. 但没有实际实现一个这样的算法,毕竟要加深印象还得自己撸一遍,于是本次就当前的 ...

  5. 一致性hash算法使用

    一.概述 1.我们的memcache客户端(这里我看的spymemcache的源码),使用了一致性hash算法ketama进行数据存储节点的选择.与常规的hash算法思路不同,只是对我们要存储数据的k ...

  6. hash的算法 java_【数据结构与算法】一致性Hash算法及Java实践

    追求极致才能突破极限 一.案例背景 1.1 系统简介 首先看一下系统架构,方便解释: 页面给用户展示的功能就是,可以查看任何一台机器的某些属性(以下简称系统信息). 消息流程是,页面发起请求查看指定机 ...

  7. MemCache和一致性Hash算法讲解

    文章目录 1 MemCache讲解 1.1 MemCache是什么 1.2 MemCache访问模型 1.3 MemCache写缓存流程 1.4 一致性Hash算法 1.4.1 余数Hash 1.4. ...

  8. java hash取模,一致性hash算法及其java实现

    目录 背景 随着业务系统越来越大,我们需要对API的访问进行更多的缓存,使用Redis是一个很好的解决方案. 但是单台Redis性能不足够且迟早要走向集群的,那么怎么才能良好的利用Redis集群来进行 ...

  9. 一致性Hash算法及Java实践

    目录 一.案例背景 1.1 系统简介 1.2 遇到问题 1.3 初步优化 1.4 继续优化 二.使用一致性Hash解决问题 三.一致性Hash介绍 3.1 理论简介 3.2 设计实现 四.对一致性Ha ...

最新文章

  1. 服务发现:Zookeeper vs etcd vs Consul
  2. linux df 目录大小,Linux命令du df查看文件和文件夹大小
  3. 关于win7禁止标准用户安装软件 AppLocker使用
  4. 1005 矩阵快速幂
  5. 使用log4j2打印mybatis的sql执行日志
  6. 计算机c语言二级试题及答案,计算机c语言二级考试试题及其答案.doc
  7. 管理学习(2)——职场中最重要的四件事
  8. 漫步数理统计十二——随机变量的期望
  9. SkinSharp用法
  10. SignalR的Javascript客户端API使用方式整合
  11. RestTemplate使用笔记
  12. 关于placement new
  13. flutter怎么手动刷新_Flutter 怎样更新?怎样升级? - Flutter - Angular 教程网
  14. AI智能语音系统,智能语音机器人详解
  15. Rayman的绝顶之路——Leetcode每日一题打卡14
  16. 浅析部分物化以及冰山立方体的计算方法Star-Cubing
  17. HTML+CSS 简易搜索框
  18. 小盒子可以在大盒子里面移动
  19. 程序员该如何学习技术
  20. Breakpoint is not hit

热门文章

  1. Java加密算法—对称加密(DES、AES)
  2. python存数据库、c++读数据库_如何从C中读取python pickle数据库/文件?
  3. linux禁止普通用户修改密码,禁止普通用户Sudo修改root密码
  4. UE 在Editor的资源右键菜单上添加两个按钮
  5. wepy 小程序 echarts 搭配使用
  6. java 周历_Java中公历和ISO 8601周历的一个坑
  7. 利用深度优先搜索算法解决老鼠吃奶酪问题(python)
  8. java中static关键字的作用_面试|static 关键字有什么作用
  9. 在arm开发板上实现播放内存里所有的jpg和bmp格式图片
  10. Hello Yo产品体验报告