您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

Linux協議棧查找算法優化隨想

Linux的網絡協議棧實現可謂精確卻不失精巧，不必說Netfilter，單單說TC就夠了，但是有幾處硬傷，本文做一個不完備的記錄，就當是隨筆，不必當真。

0.查找的種類

Linux協議棧作為一個純軟件實現，保留了硬件接口，但是本文不涉及硬件。

在Linux的協議棧實現中，由於沒有硬件電路的固化，查找算法是難免的，比如路由查找，鄰居查找，conntrack查找，socket查找，不一而足。事實上，協議棧作為一個公共組織，為所有的數據包服務，如果一個數據包到達協議棧，處理邏輯必須幫它找到和它相關的數據結構，因此查找是必然的，即使在硬件中，也是這樣。但是查找分為兩種類型，這兩種類型的查找對性能的影響是不一致的。

0.1.查不到不創建

像路由查找這類，如果查找不到路由項，那麼就直接返回失敗，數據包就此丟棄。對於這類查找，表項的創建和刪除是特定事件(比如人為配置，網卡up/down等)觸發的，不是自動的。查找結果的成功與失敗所消耗的性能是一致的，所不同的協議棧對待成功與失敗的方式不同，因此本文不關注這類查找。

0.2.查不到即創建

像conntrack查找，鄰居查找這類，如果查找失敗，將會建立一個新的表項，因此查找結果的成功與失敗對性能的影響是完全不對稱的。如果查找失敗，性能損耗是巨大的，即使對於高效的hash算法，起碼你要遍歷完特定hash值指定的沖突鏈表才能發現失敗，這在平均看來已經是一筆很大的開銷了，然後發現失敗，這才是一個開始，接下來要分配內存，創建表項，這又是一筆很大的花費，既消耗了時間又消耗了空間。雖然空間損耗不可避免，但是我希望在必須分配內存創建表項之前，用最快的速度發現查找失敗。

0.3.介於0.1與0.2的查找

TCP socket查找介於0.1和0.2之間，對於Listen狀態socket的查找，它的目標是創建一個客戶socket，但是首先它要確保特定的TCP四元組不在ESTABLISHED狀態或者TW狀態的socket中被找到，如果存在大量的TW套接字，將會消耗大量的時間來證明“這麼多TW socket中沒有一個匹配它”。如果能快速說明這一點該多好啊。

而對於連Listen套接字都不匹配的元組，將會直接報告查找失敗。

接下來我將不那麼詳細分析幾種Linux內核協議棧中的查找方法。

2.nf_conntrack查找

Linux nf_conntrack優化的空間很大很大，測試表明，加入conntrack的內核協議棧在滿載情況下PPS(Packet Per Second)會下降一半，長連接最大連接數下降一半。對於短連接，即使將各個timeout時間設置很短，性能下降也很明顯。

新建conntrack表項的速度限制了新建連接的速度，而conntrack所能占用的內存大小以及一個conntrack表項持續的時間限制了最大的連接數量。在同時保持大量conntrack表項的情況下，如果HASHSIZE不夠大，那麼hash沖突鏈表將會很長，新建連接，即NEW conntrack的創建將會極其損耗資源，因為它必須在經過極大消耗後才會發現查找失敗，接下來才是干正事。如果在創建之前，快速發現查找失敗，將是一件好事。

3.路由cache查找

對於類似cache的查找，也是同樣的，比如路由cache的查找，我們知道，路由cache有一個過期時間，如果一台路由器的過境流量過多，將會有大量的路由項被cache，查找cache本身就是一筆很大的開銷，hash沖突的可能性很大，費了這麼大的勁還沒有查到，不得不進入slow路徑，簡直氣死人！

事實上，在存在大量過境流量時，路由cache的查找開銷將遠遠大於正規路由表查找的slow路徑開銷，也許正是因為這樣，Linux終於還是取消了路由cache。

4.ipset查找

對於ipset中的表項查找也類似，今天在醫院給小小看病的間隙，突然發現6.23版本的ipset擁有了timeout參數，支持了超時時間本身能做很多事，邏輯處理自動化了不少，但是協議棧並不知道一個表項是否已經因為過期而被刪除，個人覺得，像ipset查找這類，即使不攜帶timeout參數，如果能快速確定“不在set”中也是很好的，當然不能明確確定“不在set中”的時候，再進行特定數據結構的查找，比如hash，tree查找。

5.Bloom過濾器

在上文中，我最終都表達了一種渴望，那就是盡快發現查找失敗，這樣就可以直接去干正事，而不必將時間花在一件必然失敗的事上，這代價也許對於OpenWRT這樣的煙囪垃圾能付得起，但是對於登上大雅之堂的Linux而言，絕對付不起。當然，幾乎所有的操作系統實現的協議棧，都和Linux一樣。

如何能快速發現查找失敗，這是一個根本問題，但是再抽象一點，那就是如何確定“一個元素一定不在一個集合中”。這件事有一個專門的理論去處理，那就是Bloom過濾器，它事實上在時間復雜度和空間復雜度上的效率都很高，但是天下沒有免費的午餐，代價是什麼？代價就是可能誤判！雖然可能誤判，但是這個算法還是可以確定一些事實的，如果它對每一個判斷的回答都是”可能“，那麼它就是不可用的，我們總是希望確定一些事實，100%地確定一些事實！為了更好的說明，我將其寫成一個函數r=B(x)，如果返回0，那麼就說明x不在集合中，如果返回1，那麼就說明一個”可能“的事實，即x有y%的可能性不在集合中，具體y是多少，背後的數學其實也不復雜，但並不是本文的重點。

正規的hash表是用一個hash算法將搜索范圍縮小，然後在沖突鏈表中進行精確匹配，因此結果無疑是確定的。然而Bloom過濾算法並不維護沖突鏈表，它只是逐步用多個不同的hash算法將搜索范圍一步步縮小，即使這個范圍再小，也還是有沖突的可能，而這種可能就是誤判。Bloom過濾算法在數據結構上設計地十分精巧，如果使用N個hash算法，那麼只需維護一個N位的位圖，為集合添加一個元素的時候，為該元素應用每一個hash算法計算N個范圍從0到N-1的hash值Si，並在位圖中置位Si為1。現在判斷元素x是否在集合中，為x計算N個hash值Xi，將位圖上位於Xi上的所有值做與運算，結果為0的話，說明元素x一定不在集合中，如果它在的話，一定在添加的時候會將所有相關位設置為1。

6.應用Bloom過濾器

我在上述2-5小節所描述的查找算法開始之前部署一個Bloom過濾器，是不是更好呢？如果這個Bloom算法設計地足夠好，對於大多數情況，如果返回0，我就可以直接跳到創建操作的邏輯，省去了大量的遍歷時間。如果返回1，那麼仍然需要進行精確匹配，這相當於在我本來就覺得不好的算法基礎上又平添了一個Bloom過濾，情形惡化了。但是這就是代價！這就是冒險！我可以將責任推到”這個Bloom算法設計地不夠好“！另一方面，需要權衡計算N個hash的開銷和計算1個hash加上遍歷的開銷哪個大，此時不應該簡單分析時間復雜度，因為對於Bloom，如果N確定了，那麼時間復雜度無疑是O(1)，難道一定比hash表的效率更好嗎？事實上我們應該取加權統計值，而這個值依賴於嚴格的性能壓力測試。

還是那句話，沒有免費的午餐，要麼使用硬件加速，此時你花費的是錢，要麼設計一個良好的算法，此時你付出的冒險以及算法失敗後的補償！

7.分級hash查找

像MMU中的頁表查找思想一樣，也和BSD中的路由查找算法的思想一樣，采用多層hash查找而不是單一hash加沖突鏈表遍歷。

我以conntrack查找為例，我可以將conntrack簡化為一個{IP1,IP2}對，第一個元素為鍵，第二個為值，這樣就可以將conntrack的查找做成BSD系統的路由查找的樣子，其中IP2可以被看成下一跳。或者別的......

我並不是說多級的hash算法要比單獨的hash算法更高效，而是說多級的hash表可以在多個CPU核心分別計算，多級hash表可以將每一個hash計算視為一個維度，每一個CPU核心計算一個維度的hash值，定位該維度的坐標，反觀單一hash表就不能利用多CPU核心優勢，你必須先計算好hash值才能定位hash桶從而遍歷沖突鏈表。在多CPU核心時代，傳統的基於時間復雜度計算分析性能的方式可能已經過時。

上一篇文章： Linux環境編程：獲取網卡的實時網速
下一篇文章： Hadoop最大值整數算法詳解

Linux編程

二分查找算法

Linux基本操作-----Linux系統下的查找

Linux 第十天: (08月15日) Linux文件查找和壓縮

Linux學習總結（11）——Linux文件查找

Linux C 算法——查找

Linux基本操作 6 Linux系統下的查找

linux-圖形化遠程管理協議，linux-遠程管理

Linux的基本優化，Linux優化

相關文章

linux系統：定制Linux內核，發揮Linux潛能

進程調度算法Linux進程調度算法

最大子序列和問題之算法優化

二分查找算法 Java

Linux協議棧pf_packet相關分析

順序查找的優化方法

Linux學習總結（24）——Linux查找文件命令

【Linux大系】Linux的概念與體系，linux概念體系

(一) linux初學 :linux 概念和常用命令，linux常用命令

Linux學習心得之 linux命令，linux學習心得命令

Linux命令速查手冊，超詳細Linux命令教程，linux速查手冊

Linux,嵌入式Linux及實時Linux的概念

Linux編程

SHELL編程

PERL編程