您现在的位置： Linux教程網 >> UnixLinux > >> Linux基礎 >> 關於Linux

Linux-HA開源軟件Heartbeat的概念

一、 heartbeat的概念

Linux-HA的全稱是High-Availability Linux，它是一個開源項目，這個開源項目的目標是：通過社區開發者的共同努力，提供一個增強linux可靠性（reliability）、可用性（availability）和可服務性（serviceability）（RAS）的群集解決方案。其中Heartbeat就是Linux-HA項目中的一個組件，也是目前開源HA項目中最成功的一個例子，它提供了所有 HA 軟件所需要的基本功能，比如心跳檢測和資源接管、監測群集中的系統服務、在群集中的節點間轉移共享 IP 地址的所有者等，自1999年開始到現在，Heartbeat在行業內得到了廣泛的應用，也發行了很多的版本，可以從Linux-HA的官方網站www.linux-ha.org下載到Heartbeat的最新版本。

二、 HA集群中的相關術語

1．節點（node）

運行heartbeat進程的一個獨立主機，稱為節點，節點是HA的核心組成部分，每個節點上運行著操作系統和heartbeat軟件服務，在heartbeat集群中，節點有主次之分，分別稱為主節點和備用/備份節點，每個節點擁有唯一的主機名，並且擁有屬於自己的一組資源，例如，磁盤、文件系統、網絡地址和應用服務等。主節點上一般運行著一個或多個應用服務。而備用節點一般處於監控狀態。

2．資源（resource）

資源是一個節點可以控制的實體，並且當節點發生故障時，這些資源能夠被其它節點接管，heartbeat中，可以當做資源的實體有：

磁盤分區、文件系統

IP地址

應用程序服務

NFS文件系統

3．事件（event）

也就是集群中可能發生的事情，例如節點系統故障、網絡連通故障、網卡故障、應用程序故障等。這些事件都會導致節點的資源發生轉移，HA的測試也是基於這些事件來進行的。

4．動作（action）

事件發生時HA的響應方式，動作是由shell腳步控制的，例如，當某個節點發生故障後，備份節點將通過事先設定好的執行腳本進行服務的關閉或啟動。進而接管故障節點的資源。

三、 Heartbeat的組成與原理

1．Heartbeat的組成

Heartbeat提供了高可用集群最基本的功能，例如，節點間的內部通信方式、集群合作管理機制、監控工具和失效切換功能等等，目前的最新版本是Heartbeat2.x，這裡的講述也是以Heartbeat2.x為主，下面介紹Heartbeat2.0的內部組成，主要分為以下幾大部分：

heartbeat：節點間通信檢測模塊

ha-logd：集群事件日志服務

CCM（Consensus Cluster Membership）：集群成員一致性管理模塊

LRM （Local Resource Manager）：本地資源管理模塊

Stonith Daemon：使出現問題的節點從集群環境中脫離

CRM（Cluster resource management）：集群資源管理模塊

Cluster policy engine：集群策略引擎

Cluster transition engine：集群轉移引擎

圖1顯示了Heartbeat2.0內部結構組成：

Heartbeat僅僅是個HA軟件，它僅能完成心跳監控和資源接管，不會監視它控制的資源或應用程序，要監控資源和應用程序是否運行正常，必須使用第三方的插件，例如ipfail、Mon、Ldirector等。Heartbeat自身包含了幾個插件，分別是ipfail、Stonith和Ldirectord，介紹如下：

ipfail的功能直接包含在Heartbeat裡面，主要用於檢測網絡故障，並作出合理的反應，為了實現這個功能，ipfail使用ping節點或者ping節點組來檢測網絡連接是否出現故障，從而及時的做出轉移措施。

Stonith插件可以在一個沒有響應的節點恢復後，合理接管集群服務資源，防止數據沖突，當一個節點失效後，會從集群中刪除，如果不使用Stonith插件，那麼失效的節點可能會導致集群服務在多於一個節點運行，從而造成數據沖突甚至是系統崩潰。因此，使用Stonith插件可以保證共享存儲環境中的數據完整性。

Ldirector是一個監控集群服務節點運行狀態的插件。Ldirector如果監控到集群節點中某個服務出現故障，就屏蔽此節點的對外連接功能，同時將後續請求轉移到正常的節點提供服務，這個插件經常用在LVS負載均衡集群中，關於Ldirector插件的使用，將在後面詳細講述。

同樣，對於操作系統自身出現的問題，Heartbeat也無法監控，如果主節點操作系統掛起，一方面可能導致服務中斷，另一方面由於主節點資源無法釋放，而備份節點卻接管了主節點的資源，此時就發生了兩個節點同時爭用一個資源的狀況。

針對這個問題，就需要在linux內核中啟用一個叫watchdog的模塊，watchdog是一個Linux內核模塊，它通過定時向/dev/watchdog設備文件執行寫操作，從而確定系統是否正常運行，如果watchdog認為內核掛起，就會重新啟動系統，進而釋放節點資源。

在linux中完成watchdog功能的軟件叫softdog，softdog維護一個內部計時器，此計時器在一個進程寫入/dev/watchdog設備文件時更新，如果softdog沒有看到進程寫入/dev/watchdog文件，就認為內核可能出了故障。watchdog超時周期默認是一分鐘，可以通過將watchdog集成到Heartbeat中，從而通過Heartbeat來監控系統是否正常運行。

2．Heartbeat的工作原理

從圖18.1可以看出，heartbeat內部結構有三大部分組成。

集群成員一致性管理模塊（CCM）用於管理集群節點成員，同時管理成員之間的關系和節點間資源的分配，heartbeat模塊負責檢測主次節點的運行狀態，以決定節點是否失效。ha-logd模塊用於記錄集群中所有模塊和服務的運行信息。

本地資源管理器（LRM）負責本地資源的啟動，停止和監控，一般由LRM守護進程lrmd和節點監控進程（Stonith Daemon）組成，lrmd守護進程負責節點間的通信，Stonith Daemon通常是一個Fence設備，主要用於監控節點狀態，當一個節點出現問題時處於正常狀態的節點會通過Fence設備將其重啟或關機以釋放IP、磁盤等資源，始終保持資源被一個節點擁有，防止資源爭用的發生。

集群資源管理模塊（CRM）用於處理節點和資源之間的依賴關系，同時，管理節點對資源的使用，一般由CRM守護進程crmd、集群策略引擎和集群轉移引擎三個部分組成，集群策略引擎（Cluster policy engine）具體實施這些管理和依賴，集群轉移引擎（Cluster transition engine）監控CRM模塊的狀態，當一個節點出現故障時，負責協調另一個節點上的進程進行合理的資源接管。

在Heartbeat集群中，最核心的是heartbeat模塊的心跳監測部分和集群資源管理模塊的資源接管部分，心跳監測一般由串行接口通過串口線來實現，兩個節點之間通過串口線相互發送報文來告訴對方自己當前的狀態，如果在指定的時間內未受到對方發送的報文，那麼就認為對方失效，這時資源接管模塊將啟動，用來接管運行在對方主機上的資源或者服務。

本文出自 “技術成就夢想” 博客，請務必保留此出處http://ixdba.blog.51cto.com/2895551/547775

上一篇文章： Linux-HA開源軟件Heartbeat的安裝
下一篇文章： Linux負載均衡軟件LVS的測試

關於Linux

Linux和開源軟件真的能用嗎？

Ubuntu和開源軟件的概念

Linux、開源軟件發展史

Linux-HA開源軟件Heartbeat的測試

Linux-HA開源軟件Heartbeat的配置

Linux-HA開源軟件Heartbeat的安裝