您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

Hash算法沖突解決方法分析

看了ConcurrentHashMap的實現, 使用的是拉鏈法。

雖然我們不希望發生沖突，但實際上發生沖突的可能性仍是存在的。當關鍵字值域遠大於哈希表的長度，而且事先並不知道關鍵字的具體取值時。沖突就難免會發生。另外，當關鍵字的實際取值大於哈希表的長度時，而且表中已裝滿了記錄，如果插入一個新記錄，不僅發生沖突，而且還會發生溢出。因此，處理沖突和溢出是哈希技術中的兩個重要問題。

--------------------------------------分割線 --------------------------------------

2014阿裡實習面試題——哈希的原理和Java中HashMap如何實現的 http://www.linuxidc.com/Linux/2014-04/100598.htm

哈希連接(hash join) 原理 http://www.linuxidc.com/Linux/2013-11/92483.htm

C++中對hash_map自定義哈希函數和比較函數的理解 http://www.linuxidc.com/Linux/2012-11/73706.htm

--------------------------------------分割線 --------------------------------------

1、開放定址法

　用開放定址法解決沖突的做法是：當沖突發生時，使用某種探查(亦稱探測)技術在散列表中形成一個探查(測)序列。沿此序列逐個單元地查找，直到找到給定的關鍵字，或者碰到一個開放的地址(即該地址單元為空)為止（若要插入，在探查到開放的地址，則可將待插入的新結點存人該地址單元）。查找時探查到開放的地址則表明表中無待查的關鍵字，即查找失敗。

注意：

①用開放定址法建立散列表時，建表前須將表中所有單元(更嚴格地說，是指單元中存儲的關鍵字)置空。

②空單元的表示與具體的應用相關。

　按照形成探查序列的方法不同，可將開放定址法區分為線性探查法、線性補償探測法、隨機探測等。

（1）線性探查法(Linear Probing)

該方法的基本思想是：

將散列表T[0..m-1]看成是一個循環向量，若初始探查的地址為d(即h(key)=d)，則最長的探查序列為：

d，d+l，d+2，…，m-1，0，1，…，d-1

　即:探查時從地址d開始，首先探查T[d]，然後依次探查T[d+1]，…，直到T[m-1]，此後又循環到T[0]，T[1]，…，直到探查到T[d-1]為止。

探查過程終止於三種情況：

　(1)若當前探查的單元為空，則表示查找失敗（若是插入則將key寫入其中）；

(2)若當前探查的單元中含有key，則查找成功，但對於插入意味著失敗；

　(3)若探查到T[d-1]時仍未發現空單元也未找到key，則無論是查找還是插入均意味著失敗(此時表滿)。

利用開放地址法的一般形式，線性探查法的探查序列為：

hi=(h(key)+i)％m 0≤i≤m-1 //即di=i

用線性探測法處理沖突，思路清晰，算法簡單，但存在下列缺點：

① 處理溢出需另編程序。一般可另外設立一個溢出表，專門用來存放上述哈希表中放不下的記錄。此溢出表最簡單的結構是順序表，查找方法可用順序查找。

② 按上述算法建立起來的哈希表，刪除工作非常困難。假如要從哈希表 HT 中刪除一個記錄，按理應將這個記錄所在位置置為空，但我們不能這樣做，而只能標上已被刪除的標記，否則，將會影響以後的查找。

③ 線性探測法很容易產生堆聚現象。所謂堆聚現象，就是存入哈希表的記錄在表中連成一片。按照線性探測法處理沖突，如果生成哈希地址的連續序列愈長 ( 即不同關鍵字值的哈希地址相鄰在一起愈長 ) ，則當新的記錄加入該表時，與這個序列發生沖突的可能性愈大。因此，哈希地址的較長連續序列比較短連續序列生長得快，這就意味著，一旦出現堆聚 ( 伴隨著沖突 ) ，就將引起進一步的堆聚。

（2）線性補償探測法

線性補償探測法的基本思想是：

將線性探測的步長從 1 改為 Q ，即將上述算法中的 j ＝ (j ＋ 1) % m 改為： j ＝ (j ＋ Q) % m ，而且要求 Q 與 m 是互質的，以便能探測到哈希表中的所有單元。

【例】 PDP-11 小型計算機中的匯編程序所用的符合表，就采用此方法來解決沖突，所用表長 m ＝ 1321 ，選用 Q ＝ 25 。

（3）隨機探測

隨機探測的基本思想是：

將線性探測的步長從常數改為隨機數，即令： j ＝ (j ＋ RN) % m ，其中 RN 是一個隨機數。在實際程序中應預先用隨機數發生器產生一個隨機序列，將此序列作為依次探測的步長。這樣就能使不同的關鍵字具有不同的探測次序，從而可以避免或減少堆聚。基於與線性探測法相同的理由，在線性補償探測法和隨機探測法中，刪除一個記錄後也要打上刪除標記。

2、拉鏈法

（1）拉鏈法解決沖突的方法

　拉鏈法解決沖突的做法是：將所有關鍵字為同義詞的結點鏈接在同一個單鏈表中。若選定的散列表長度為m，則可將散列表定義為一個由m個頭指針組成的指針數組T[0..m-1]。凡是散列地址為i的結點，均插入到以T[i]為頭指針的單鏈表中。T中各分量的初值均應為空指針。在拉鏈法中，裝填因子α可以大於 1，但一般均取α≤1。

【例】設有 m ＝ 5 ， H(K) ＝ K mod 5 ，關鍵字值序例 5 ， 21 ， 17 ， 9 ， 15 ， 36 ， 41 ， 24 ，按外鏈地址法所建立的哈希表如下圖所示：

（2）拉鏈法的優點

與開放定址法相比，拉鏈法有如下幾個優點：

①拉鏈法處理沖突簡單，且無堆積現象，即非同義詞決不會發生沖突，因此平均查找長度較短；

②由於拉鏈法中各鏈表上的結點空間是動態申請的，故它更適合於造表前無法確定表長的情況；

③開放定址法為減少沖突，要求裝填因子α較小，故當結點規模較大時會浪費很多空間。而拉鏈法中可取α≥1，且結點較大時，拉鏈法中增加的指針域可忽略不計，因此節省空間；

④在用拉鏈法構造的散列表中，刪除結點的操作易於實現。只要簡單地刪去鏈表上相應的結點即可。而對開放地址法構造的散列表，刪除結點不能簡單地將被刪結點的空間置為空，否則將截斷在它之後填人散列表的同義詞結點的查找路徑。這是因為各種開放地址法中，空地址單元(即開放地址)都是查找失敗的條件。因此在用開放地址法處理沖突的散列表上執行刪除操作，只能在被刪結點上做刪除標記，而不能真正刪除結點。

（3）拉鏈法的缺點

　拉鏈法的缺點是：指針需要額外的空間，故當結點規模較小時，開放定址法較為節省空間，而若將節省的指針空間用來擴大散列表的規模，可使裝填因子變小，這又減少了開放定址法中的沖突，從而提高平均查找速度。

上一篇文章：編程實現哈希存儲算法的簡單實例
下一篇文章：字符串哈希到整數函數，算法

Linux編程

Linux系統下Qt5工程打不開的解決方法

常見算法設計方法-分治法

關聯分析：FP-Growth算法

排序算法對比分析

紅黑樹的原理分析和算法設計

Hibernate列名是保留字的解決方法

Adroid 4.0 HttpURLConnection拋異常解決方法

Android bionic缺失pthread_cancel的解決方法

相關文章

Linux內核分析方法談

python 中文解決方法 gb2312 utf8

忘了root密碼的解決方法

Zabbix2.2.3中文亂碼的解決方法

HP450安裝Ubuntu 12.10黑屏的解決方法

RHEL5.6 useradd的bug解決方法

Ubuntu 10.04花屏的另類解決方法

Ubuntu 9.10啟動黑屏的解決方法

Ubuntu 9.04中解決永中與Fcitx沖突的方法

Ubuntu8.04不能更新的解決方法

Linux2.6定時器的時間輪算法分析

jQuery與其他庫沖突的解決方法

Linux編程

SHELL編程

PERL編程