C++ 中的 hashTable
1. 什么是hashTable
用来存储数据的最基本的的结构有数组和链表两种,其他结构都是在这两种基础之上的复用与衍生。当用户进行输入时,输入可能有一定的规律,更大的可能性是输入的数据具有很大的随机性,采用数组进行存储的话,索引是一个很大的问题,因为数据的类型不一定为整数;如果采用链表,查找时必须进行遍历,对性能有很大的影响。但我们希望能找到这样的结构,不仅查找时有很高的效率,而且适用于多种结构。
幸运的是现在已经有很多这样的结构了,比如二叉搜索平衡树(红黑树、SB树等)以及这篇文章提到的hashTable。
hashTable希望提供常数时间的基本操作。
当我们要存储一定量(设为N)的数据(设为int类型)时,最先想到的是创建一个大小为N * T的数组,然后将数据依次放入空间(1放入array[0],2数据放在array[1]。。。)。但这样会有两个问题:如果N * T的值太大,我们可能没有这么大的空间供使用;数据不是数字,也没有数字类型的标号(比如数据的类型可能是字符串),就没有办法作为数组的索引。
其中索引问题不难解决,我们可以把字符编码,然后用一些数学公式得出索引值。
第一个问题就需要用到哈希函数了。
哈希函数其实就是一种映射函数,将大数映射为小数(0 -- N - 1之间)的函数。使用哈希函数可能会碰到一个问题,不同的元素可能会被映射到相同的位置,也就是“碰撞”,解决碰撞的方法有很多种,包括线性探测、二次探测、开链等做法。这些做法的效率与负载系数有很大的关系,负载系数是指元素个数除以数组大小,除非使用开链策略,负载系数一般在 0 -- 1 之间。
线性探测
需要注意的是采用线性探测策略的话,在删除元素时采用的是惰性删除,也就是只标记删除记号,实际删除元素要等到hashTable重新整理(rehashing)时再进行(因为hashTable中的每一个元素不仅表示它自己,也关系到其他元素的排列)。
线性探测最大的问题就是cluster,就是当多个元素被哈希函数映射到同一位置后导致该位置后的一大片位置被占用,最后插入的时间成本很高,甚至插入成本的增长幅度远高于负载系数的成长幅度。
二次探测
二次探测主要用来姐解决cluster问题,命名由来是因为解决问题的方程式是个二次方程式。
F(i) = i * i;
开链
这种做法是在每一个bucket中维护一个list。
C++ STL 采用的是开链的做法。
2. C++ STL 中的hashTable
2.1 结构
本文所引用的代码是 gcc-2.95版。
hashTable的图形描述如下
hashTable的主干部分使用vector来实现的,vector上的每一个元素被称为bucket,即桶,而每一个bucket都指向一个list。这里的list并不是 stl 中的list,而是自行维护的 hashTable node。
hashTable node的代码如下
template <class _Val>
struct _Hashtable_node
{_Hashtable_node* _M_next;_Val _M_val;
};
hashTable的部分代码如下
template <class _Val, class _Key, class _HashFcn,class _ExtractKey, class _EqualKey, class _Alloc>
class hashtable {
public:typedef _Key key_type;typedef _Val value_type;typedef _HashFcn hasher;typedef _EqualKey key_equal;typedef size_t size_type;hasher hash_funct() const { return _M_hash; }key_equal key_eq() const { return _M_equals; }private:typedef _Hashtable_node<_Val> _Node;//下面三个都是仿函数hasher _M_hash;key_equal _M_equals;_ExtractKey _M_get_key;vector<_Node*,_Alloc> _M_buckets;size_type _M_num_elements;size_type bucket_count() const { return _M_buckets.size(); }//计算vector的大小
};
hashTable的模板参数非常多,包括:
- Value:节点的实值类型;
- Key:节点的键值类型;
- HashFunc:哈希函数;
- ExtractKey:从节点中取出键值的方法(函数或仿函数);
- EqualKey:判断键值相同与否的方法;
- Alloc:空间配置器
当元素个数要大于bucket个数,也就是负载系数大于1时,会执行rehash ing操作,将vector扩大到两倍附近的一个质数,然后将每个数据重新通过哈希函数计算一遍,然后插入到相应的位置。所以hashtable扩充空间是非常消耗性能的,尤其是在数据很多的情况下。
实际上hashTable扩充时要扩充的到校已经计算好写死在了代码中,如下
static const int __stl_num_primes = 28;
static const unsigned long __stl_prime_list[__stl_num_primes] =
{53ul, 97ul, 193ul, 389ul, 769ul,1543ul, 3079ul, 6151ul, 12289ul, 24593ul,49157ul, 98317ul, 196613ul, 393241ul, 786433ul,1572869ul, 3145739ul, 6291469ul, 12582917ul, 25165843ul,50331653ul, 100663319ul, 201326611ul, 402653189ul, 805306457ul, 1610612741ul, 3221225473ul, 4294967291ul
};
选择质数的原因是stl的哈希函数是通过计算hashCode 除以 bucket个数的余数得到的,而质数做除数得到的结果更加分散。
需要扩充时通过二分查找确定到底要用这些质数中的哪一个
inline unsigned long __stl_next_prime(unsigned long __n)
{const unsigned long* __first = __stl_prime_list;const unsigned long* __last = __stl_prime_list + __stl_num_primes;const unsigned long* pos = lower_bound(__first, __last, __n);//二分查找return pos == __last ? *(__last - 1) : *pos;
}
hashTable的大小为20:vector(12) + num_elements(4) + 3个仿函数 = 19 (分配空间时会按最大变量的大小分配) = 20
2.2 哈希函数
stl中有一系列内置的哈希函数,全都是仿函数,如下
template <class _Key> struct hash { };//泛化inline size_t __stl_hash_string(const char* __s)
{unsigned long __h = 0; for ( ; *__s; ++__s)__h = 5*__h + *__s;return size_t(__h);
}__STL_TEMPLATE_NULL struct hash<char*>//特化
{size_t operator()(const char* __s) const { return __stl_hash_string(__s); }
};__STL_TEMPLATE_NULL struct hash<const char*>
{size_t operator()(const char* __s) const { return __stl_hash_string(__s); }
};__STL_TEMPLATE_NULL struct hash<char> {size_t operator()(char __x) const { return __x; }
};
__STL_TEMPLATE_NULL struct hash<unsigned char> {size_t operator()(unsigned char __x) const { return __x; }
};
__STL_TEMPLATE_NULL struct hash<signed char> {size_t operator()(unsigned char __x) const { return __x; }
};
__STL_TEMPLATE_NULL struct hash<short> {size_t operator()(short __x) const { return __x; }
};
__STL_TEMPLATE_NULL struct hash<unsigned short> {size_t operator()(unsigned short __x) const { return __x; }
};
__STL_TEMPLATE_NULL struct hash<int> {size_t operator()(int __x) const { return __x; }
};
__STL_TEMPLATE_NULL struct hash<unsigned int> {size_t operator()(unsigned int __x) const { return __x; }
};
__STL_TEMPLATE_NULL struct hash<long> {size_t operator()(long __x) const { return __x; }
};
__STL_TEMPLATE_NULL struct hash<unsigned long> {size_t operator()(unsigned long __x) const { return __x; }
};
可以看到第一行给出了一个函数模板(泛化),之后全是该模板的特化。
2.3 hashTable 的迭代器
以下是stl中对hashtable_iterator的定义
template <class _Val, class _Key, class _HashFcn,class _ExtractKey, class _EqualKey, class _Alloc>
struct _Hashtable_iterator {_Node* _M_cur;//当前节点_Hashtable* _M_ht;//指向vector_Hashtable_iterator(_Node* __n, _Hashtable* __tab) : _M_cur(__n), _M_ht(__tab) {}_Hashtable_iterator() {}reference operator*() const { return _M_cur->_M_val; }
#ifndef __SGI_STL_NO_ARROW_OPERATORpointer operator->() const { return &(operator*()); }
#endif /* __SGI_STL_NO_ARROW_OPERATOR */iterator& operator++();//需要注意的是,这个iterator没有--操作iterator operator++(int);bool operator==(const iterator& __it) const{ return _M_cur == __it._M_cur; }bool operator!=(const iterator& __it) const{ return _M_cur != __it._M_cur; }
};template <class _Val, class _Key, class _HF, class _ExK, class _EqK, class _All>
_Hashtable_iterator<_Val,_Key,_HF,_ExK,_EqK,_All>&
_Hashtable_iterator<_Val,_Key,_HF,_ExK,_EqK,_All>::operator++()//先重载前++
{const _Node* __old = _M_cur;_M_cur = _M_cur->_M_next;//node后面仍有元素,直接后移if (!_M_cur) {//否则下一个bucket的头节点就是返回值//计算出下一个bucket在vector中的位置,下面会列出源码size_type __bucket = _M_ht->_M_bkt_num(__old->_M_val);while (!_M_cur && ++__bucket < _M_ht->_M_buckets.size())_M_cur = _M_ht->_M_buckets[__bucket];}return *this;
}template <class _Val, class _Key, class _HF, class _ExK, class _EqK, class _All>
inline _Hashtable_iterator<_Val,_Key,_HF,_ExK,_EqK,_All>
_Hashtable_iterator<_Val,_Key,_HF,_ExK,_EqK,_All>::operator++(int)
{iterator __tmp = *this;++*this;//直接调用前++return __tmp;
}
hashTable的迭代器有两个指针,指针cur指向当前节点,ht指向hashTable。当cur后移时,首先判断它的下一个节点是不是为null,不是则cur直接++,否则就需要先通过哈希函数计算出cur在vector中的位置(设为i),然后返回vector[i + 1]的头节点。
需要注意的是,hashTable的迭代器中没有--的操作,也没有定义逆向迭代器(reverse iterator)。
上面引用的函数 _M_bkt_num()在求特定元素在vector中的位置很简单,就是对vector_size 取余而已。
size_type _M_bkt_num(const value_type& __obj) const{return _M_bkt_num_key(_M_get_key(__obj));}size_type _M_bkt_num_key(const key_type& __key, size_t __n) const{return _M_hash(__key) % __n;}
2.4 构造与内存管理
当我们初始化一个hashTable时
调用的函数如下
void _M_initialize_buckets(size_type __n){const size_type __n_buckets = _M_next_size(__n);//计算出vector应该有多长_M_buckets.reserve(__n_buckets);//给vector分配空间_M_buckets.insert(_M_buckets.end(), __n_buckets, (_Node*) 0);//初始化vector_M_num_elements = 0;}//vector中的reserve函数实现如下,如果vector的容量小于n则扩充否则不变void reserve(size_type __n) {if (capacity() < __n) {const size_type __old_size = size();iterator __tmp = _M_allocate_and_copy(__n, _M_start, _M_finish);destroy(_M_start, _M_finish);_M_deallocate(_M_start, _M_end_of_storage - _M_start);_M_start = __tmp;_M_finish = __tmp + __old_size;_M_end_of_storage = _M_start + __n;}}
首先通过传入的数字n与__stl_prime_list为vector分配空间,如果这里n = 50,但分配的空间会是53。因为实际分配的空间大小是要根据__stl_prime_list 中列出的数字决定的,系统会选择最接近n的一个数字(一般是>= n的区间内,这里情况特殊)。
hashtable有两种插入操作(insert)时,可分别使用语句
iht.insert_unique(39);
iht.insert_equal(39);
第一条语句所调用的函数的代码如下
pair<iterator, bool> insert_unique(const value_type& __obj){resize(_M_num_elements + 1);//判断是否需要扩大vectorreturn insert_unique_noresize(__obj);}c//判断是否需要扩大vector,其实就是将hashTable中的元素个数与vector的节点个数进行比较,前者大于后者就扩大
template <class _Val, class _Key, class _HF, class _Ex, class _Eq, class _All>
void hashtable<_Val,_Key,_HF,_Ex,_Eq,_All>::resize(size_type __num_elements_hint)
{const size_type __old_n = _M_buckets.size();if (__num_elements_hint > __old_n) {//如果元素个数大于vector的长度,vector扩大//根据现在vector的长度返回扩充后vector的长度const size_type __n = _M_next_size(__num_elements_hint);/if (__n > __old_n) {//如果扩充后的长度比现在的vector长vector<_Node*, _All> __tmp(__n, (_Node*)(0),_M_buckets.get_allocator());//创建新的vector__STL_TRY {//这里开始处理旧的vectorfor (size_type __bucket = 0; __bucket < __old_n; ++__bucket) {_Node* __first = _M_buckets[__bucket];//获取旧vector上的每一个bucketwhile (__first) {size_type __new_bucket = _M_bkt_num(__first->_M_val, __n);//重新调用哈希函数找到新的vector的插入位置//接下来四行代码把旧的bucket上的链表转移到新的bucket上_M_buckets[__bucket] = __first->_M_next;__first->_M_next = __tmp[__new_bucket];__tmp[__new_bucket] = __first;__first = _M_buckets[__bucket]; }}_M_buckets.swap(__tmp);//通过swap函数回收旧的vector}
# ifdef __STL_USE_EXCEPTIONScatch(...) {for (size_type __bucket = 0; __bucket < __tmp.size(); ++__bucket) {while (__tmp[__bucket]) {_Node* __next = __tmp[__bucket]->_M_next;_M_delete_node(__tmp[__bucket]);__tmp[__bucket] = __next;}}throw;}
# endif /* __STL_USE_EXCEPTIONS */}}
}//插入新节点
template <class _Val, class _Key, class _HF, class _Ex, class _Eq, class _All>
pair<typename hashtable<_Val,_Key,_HF,_Ex,_Eq,_All>::iterator, bool>
hashtable<_Val,_Key,_HF,_Ex,_Eq,_All>::insert_unique_noresize(const value_type& __obj)
{const size_type __n = _M_bkt_num(__obj);//__obj在vector上的哪一个bucket里_Node* __first = _M_buckets[__n];//寻找__obj在bucket的链表上的位置for (_Node* __cur = __first; __cur; __cur = __cur->_M_next) if (_M_equals(_M_get_key(__cur->_M_val), _M_get_key(__obj)))return pair<iterator, bool>(iterator(__cur, this), false);
//发现有重复值,返回该重复值的iterator与false//找到位置,插入_Node* __tmp = _M_new_node(__obj);__tmp->_M_next = __first;_M_buckets[__n] = __tmp;++_M_num_elements;//hashTable元素计数器++return pair<iterator, bool>(iterator(__tmp, this), true);
}
这四行代码负责将旧的bucket的链表上的节点转移到新的bucket上
_M_buckets[__bucket] = __first->_M_next;
__first->_M_next = __tmp[__new_bucket];
__tmp[__new_bucket] = __first;
__first = _M_buckets[__bucket];
过程如下图
第二行代码调用的函数的源码如下
iterator insert_equal(const value_type& __obj){resize(_M_num_elements + 1);//判断是否需要扩充vectorreturn insert_equal_noresize(__obj);}template <class _Val, class _Key, class _HF, class _Ex, class _Eq, class _All>
typename hashtable<_Val,_Key,_HF,_Ex,_Eq,_All>::iterator
hashtable<_Val,_Key,_HF,_Ex,_Eq,_All>::insert_equal_noresize(const value_type& __obj)
{const size_type __n = _M_bkt_num(__obj);_Node* __first = _M_buckets[__n];for (_Node* __cur = __first; __cur; __cur = __cur->_M_next) if (_M_equals(_M_get_key(__cur->_M_val), _M_get_key(__obj))) {//发现重复的键值_Node* __tmp = _M_new_node(__obj);//创建新节点并插入到链表中__tmp->_M_next = __cur->_M_next;__cur->_M_next = __tmp;++_M_num_elements;//hashTable元素计数器++return iterator(__tmp, this);}//没有发现重复值,将新节点插入到链表头部_Node* __tmp = _M_new_node(__obj);__tmp->_M_next = __first;_M_buckets[__n] = __tmp;++_M_num_elements;//hashTable元素计数器++return iterator(__tmp, this);
}
当我们想要删除hashTable时,可以调用clear函数,该函数的实现如下
template <class _Val, class _Key, class _HF, class _Ex, class _Eq, class _All>
void hashtable<_Val,_Key,_HF,_Ex,_Eq,_All>::clear()
{for (size_type __i = 0; __i < _M_buckets.size(); ++__i) {_Node* __cur = _M_buckets[__i];while (__cur != 0) {//循环删除bucket链表的每一个节点_Node* __next = __cur->_M_next;_M_delete_node(__cur);__cur = __next;}_M_buckets[__i] = 0;}_M_num_elements = 0;//令hashTable元素计数器为0
}
通过源码可以发现,clear函数并没有删除vector,而是删除了bucket上挂的list,vector的capacity不变。
可以调用copy_from函数函数赋值hashTable,该函数源码如下,可以看到并不是简单的指针传递,而是真正分配了空间。
template <class _Val, class _Key, class _HF, class _Ex, class _Eq, class _All>
void hashtable<_Val,_Key,_HF,_Ex,_Eq,_All>::_M_copy_from(const hashtable& __ht)
{_M_buckets.clear();//清除自己的hashTable,造成所有元素为0_M_buckets.reserve(__ht._M_buckets.size());//如果目的hashTable要比自己的大,就扩充,否则保持不变_M_buckets.insert(_M_buckets.end(), __ht._M_buckets.size(), (_Node*) 0);//从尾端开始给hashTable的vector赋值为0.__STL_TRY {for (size_type __i = 0; __i < __ht._M_buckets.size(); ++__i) {if (const _Node* __cur = __ht._M_buckets[__i]) {_Node* __copy = _M_new_node(__cur->_M_val);_M_buckets[__i] = __copy;for (_Node* __next = __cur->_M_next;__next;__cur = __next, __next = __cur->_M_next) {__copy->_M_next = _M_new_node(__next->_M_val);__copy = __copy->_M_next;}}}_M_num_elements = __ht._M_num_elements;}__STL_UNWIND(clear());
}
3. 以hashTable为底层结构的容器
以下容器所供应的操作接口,hashTable几乎都提供了,所以以下容器的操作行为,基本都是在调用hashTable的函数罢了。
3.1 hash_set/unordered_set
运用set是为了更快的搜寻元素,但rb_tree有自动排序功能而hashTable没有,反应到set层面上就是set可以自动排序而hash_set不可以。
hash_set的使用方式与set完全相同。
#include <iostream>
#include <unordered_set>
#include <cstring>using namespace std;int main()
{unordered_set<int> s;s.insert(4);s.insert(3);s.insert(5);unordered_set<int>::iterator ite = s.begin();for( ; ite != s.end(); ite++){cout << *ite <<" ";}cout << endl;for(int i = 0; i < s.bucket_count(); i++){cout <<"bucket: " << i << " 有" << s.bucket_size(i)<< "个元素"<<endl;}cout << s.size() << endl;cout << s.bucket_count() << endl;cout << s.max_bucket_count() << endl;return 0;
}
3.2 hash_multiset/unordered_multiset
hash_multiset与multiset的特性几乎完全相同,唯一的差别在于hash_multiset没有自动排序的功能
3.3 hash_map/unordered_map
3.4 hash_multimap/unordered_multimap
参考 《STL 源码剖析》 作者:侯捷
C++ 中的 hashTable相关推荐
- WPF中使用Hashtable剔除重复字符串(比如电话号码)
WPF中使用Hashtable剔除重复字符串(比如电话号码) 原文:WPF中使用Hashtable剔除重复字符串(比如电话号码) 本文中的输入框中的字符串是逗号隔开的,你可以换成其他特别的字符串. 本 ...
- 在webservice中传递Hashtable
< DOCTYPE html PUBLIC -WCDTD XHTML StrictEN httpwwwworgTRxhtmlDTDxhtml-strictdtd> webservice中不 ...
- 在 Delphi 6 中使用 Hashtable
Java 中的 Hashtable 类小巧好用,尤其是因为采用了哈希算法,查找的速度奇快.后来因 工作需要,使用 Delphi 实施一些项目,特别不习惯没有哈希表的日子.于是决定自己动手做 一个. ...
- 三十七、Java集合中的Hashtable
@Author:Runsen @Date:2020/6/4 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件.导致翘课严重,专业排名 ...
- 聊聊传说中的散列哈希Hash算法,以及Java中的HashTable,HashMap,HashSet,ConcurrentHashMap......
建议本文结合java源码来阅读,看了之后就什么都懂了,还有参考文献. 散列(Hash) 是一种按关键字编址的存储和检索方法 散列表(HashTable)根据元素的关键字确定元素的位置 散列函数(Has ...
- java中为什么Hashtable是线程安全的,而HashMap是线程不安全的?还有ArrayList为什么是线程不安全的,Vector是线程安全的??
文章目录 一.HashMap解析 二.Hashtable解析 三.Collections.synchronizedMap()解析 四.ConcurrentHashMap 五.ArrayList为什么是 ...
- 在C#中应用哈希表(Hashtable)
一,哈希表(Hashtable)简述 在.NET Framework中,Hashtable是System.Collections命名空间提供的一个容器,用于处理和表现类似key/value的键值对,其 ...
- C#中HashTable的用法
1. 哈希表(Hashtable)简述 在.NET Framework中,Hashtable是System.Collections命名空间提供的一个容器,用于处理和表现类似key-value的键值对, ...
- C#中Hashtable表的应用
一,哈希表(Hashtable)简述 在.NET Framework中,Hashtable是System.Collections命名空间提供的一个容器,用于处理和表现类似keyvalue的键值对,其中 ...
最新文章
- 分布式存储系统的关键技术-存储层级内的优化技术
- pptv网络电视android,PP视频(原聚力视频)
- angular 打印 lodop 引入css样式
- 连接查询,结构、循环语句
- 关联规则 java_Java实现的关联规则算法
- 初一级练习题(2019.3.8)
- poi读取合并单元格
- 一个月薪两万的Web安全工程师要掌握哪些技能?
- shell之任务控制
- SQL语句中常用关键词及其解释如下.pdf
- C Tricks(一)—— 一维数组变二维数组
- liunx安装Lamp
- 数据结构-约瑟夫问题课后作业
- php 判断来源 微信客户端_常见WebShell客户端的流量特征及检测思路
- Spring、SpringMVC、Shiro面试题
- 常用的excel函数—汇总
- 编写热血江湖模拟按键外挂
- 在用户计算机上的万维网客户程序是( ),在用户计算机上的万维网客户程序是()...
- html上图片用js绘制点,用 js + html 描图 与画箭头
- 井盖智能监测终端——井盖状态监测仪