哈希表
哈希表(hash table) ,又称散列表 ,它通过建立键 key
与值 value
之间的映射,实现高效的元素查询。具体而言,我们向哈希表中输入一个键 key
,则可以在 O ( 1 ) O(1) O ( 1 ) 时间内获取对应的值 value
。
如下图所示,给定 n n n 个学生,每个学生都有“姓名”和“学号”两项数据。假如我们希望实现“输入一个学号,返回对应的姓名”的查询功能,则可以采用下图所示的哈希表来实现。
除哈希表外,数组和链表也可以实现查询功能,它们的效率对比如下表所示。
添加元素 :仅需将元素添加至数组(链表)的尾部即可,使用 O ( 1 ) O(1) O ( 1 ) 时间。
查询元素 :由于数组(链表)是乱序的,因此需要遍历其中的所有元素,使用 O ( n ) O(n) O ( n ) 时间。
删除元素 :需要先查询到元素,再从数组(链表)中删除,使用 O ( n ) O(n) O ( n ) 时间。
表 元素查询效率对比
数组
链表
哈希表
查找元素
O ( n ) O(n) O ( n )
O ( n ) O(n) O ( n )
O ( 1 ) O(1) O ( 1 )
添加元素
O ( 1 ) O(1) O ( 1 )
O ( 1 ) O(1) O ( 1 )
O ( 1 ) O(1) O ( 1 )
删除元素
O ( n ) O(n) O ( n )
O ( n ) O(n) O ( n )
O ( 1 ) O(1) O ( 1 )
观察发现,在哈希表中进行增删查改的时间复杂度都是 O ( 1 ) O(1) O ( 1 ) ,非常高效。
哈希表常用操作
哈希表的常见操作包括:初始化、查询操作、添加键值对和删除键值对等,示例代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 hmap: dict = {} hmap[12836 ] = "小哈" hmap[15937 ] = "小啰" hmap[16750 ] = "小算" hmap[13276 ] = "小法" hmap[10583 ] = "小鸭" name: str = hmap[15937 ] hmap.pop(10583 )
哈希表有三种常用的遍历方式:遍历键值对、遍历键和遍历值。示例代码如下:
1 2 3 4 5 6 7 8 9 10 for key, value in hmap.items(): print (key, "->" , value) for key in hmap.keys(): print (key) for value in hmap.values(): print (value)
哈希表简单实现
我们先考虑最简单的情况,仅用一个数组来实现哈希表 。在哈希表中,我们将数组中的每个空位称为桶(bucket) ,每个桶可存储一个键值对。因此,查询操作就是找到 key
对应的桶,并在桶中获取 value
。
那么,如何基于 key
定位对应的桶呢?这是通过哈希函数(hash function) 实现的。哈希函数的作用是将一个较大的输入空间映射到一个较小的输出空间。在哈希表中,输入空间是所有 key
,输出空间是所有桶(数组索引)。换句话说,输入一个 key
,我们可以通过哈希函数得到该 key
对应的键值对在数组中的存储位置 。
输入一个 key
,哈希函数的计算过程分为以下两步。
通过某种哈希算法 hash()
计算得到哈希值。
将哈希值对桶数量(数组长度)capacity
取模,从而获取该 key
对应的数组索引 index
。
1 index = hash(key) % capacity
随后,我们就可以利用 index
在哈希表中访问对应的桶,从而获取 value
。
设数组长度 capacity = 100
、哈希算法 hash(key) = key
,易得哈希函数为 key % 100
。下图以 key
学号和 value
姓名为例,展示了哈希函数的工作原理。
以下代码实现了一个简单哈希表。其中,我们将 key
和 value
封装成一个类 Pair
,以表示键值对。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 class Pair : """键值对""" def __init__ (self, key: int , val: str ): self .key = key self .val = val class ArrayHashMap : """基于数组实现的哈希表""" def __init__ (self ): """构造方法""" self .buckets: list [Pair | None ] = [None ] * 100 def hash_func (self, key: int ) -> int : """哈希函数""" index = key % 100 return index def get (self, key: int ) -> str : """查询操作""" index: int = self .hash_func(key) pair: Pair = self .buckets[index] if pair is None : return None return pair.val def put (self, key: int , val: str ): """添加操作""" pair = Pair(key, val) index: int = self .hash_func(key) self .buckets[index] = pair def remove (self, key: int ): """删除操作""" index: int = self .hash_func(key) self .buckets[index] = None def entry_set (self ) -> list [Pair]: """获取所有键值对""" result: list [Pair] = [] for pair in self .buckets: if pair is not None : result.append(pair) return result def key_set (self ) -> list [int ]: """获取所有键""" result = [] for pair in self .buckets: if pair is not None : result.append(pair.key) return result def value_set (self ) -> list [str ]: """获取所有值""" result = [] for pair in self .buckets: if pair is not None : result.append(pair.val) return result def print (self ): """打印哈希表""" for pair in self .buckets: if pair is not None : print (pair.key, "->" , pair.val) """Driver Code""" if __name__ == "__main__" : hmap = ArrayHashMap() hmap.put(12836 , "小哈" ) hmap.put(15937 , "小啰" ) hmap.put(16750 , "小算" ) hmap.put(13276 , "小法" ) hmap.put(10583 , "小鸭" ) print ("\n添加完成后,哈希表为\nKey -> Value" ) hmap.print () name = hmap.get(15937 ) print ("\n输入学号 15937 ,查询到姓名 " + name) hmap.remove(10583 ) print ("\n删除 10583 后,哈希表为\nKey -> Value" ) hmap.print () print ("\n遍历键值对 Key->Value" ) for pair in hmap.entry_set(): print (pair.key, "->" , pair.val) print ("\n单独遍历键 Key" ) for key in hmap.key_set(): print (key) print ("\n单独遍历值 Value" ) for val in hmap.value_set(): print (val)
哈希冲突与扩容
从本质上看,哈希函数的作用是将所有 key
构成的输入空间映射到数组所有索引构成的输出空间,而输入空间往往远大于输出空间。因此,理论上一定存在“多个输入对应相同输出”的情况 。
对于上述示例中的哈希函数,当输入的 key
后两位相同时,哈希函数的输出结果也相同。例如,查询学号为 12836 和 20336 的两个学生时,我们得到:
1 2 12836 % 100 = 36 20336 % 100 = 36
如下图所示,两个学号指向了同一个姓名,这显然是不对的。我们将这种多个输入对应同一输出的情况称为哈希冲突(hash collision) 。
容易想到,哈希表容量 n n n 越大,多个 key
被分配到同一个桶中的概率就越低,冲突就越少。因此,我们可以通过扩容哈希表来减少哈希冲突 。
如下图所示,扩容前键值对 (136, A)
和 (236, D)
发生冲突,扩容后冲突消失。
类似于数组扩容,哈希表扩容需将所有键值对从原哈希表迁移至新哈希表,非常耗时;并且由于哈希表容量 capacity
改变,我们需要通过哈希函数来重新计算所有键值对的存储位置,这进一步增加了扩容过程的计算开销。为此,编程语言通常会预留足够大的哈希表容量,防止频繁扩容。
负载因子(load factor) 是哈希表的一个重要概念,其定义为哈希表的元素数量除以桶数量,用于衡量哈希冲突的严重程度,也常作为哈希表扩容的触发条件 。例如在 Java 中,当负载因子超过 0.75 0.75 0.75 时,系统会将哈希表扩容至原先的 2 2 2 倍。