Linux教程網 >> Linux基礎 >> Linux教程 >> 在 Linux 下使用 RAID（八）：當軟件 RAID 故障時如何恢復和重建數據

在 Linux 下使用 RAID（八）：當軟件 RAID 故障時如何恢復和重建數據

日期：2017/2/28 13:57:01 编辑：Linux教程

在閱讀過 RAID 系列前面的文章後你已經對 RAID 比較熟悉了。回顧前面幾個軟件 RAID 的配置，我們對每一個都做了詳細的解釋，使用哪一個取決與你的具體情況。

在 Linux 下使用 RAID（七）：在 RAID 中擴展現有的 RAID 陣列和刪除故障的磁盤 http://www.linuxidc.com/Linux/2015-09/122602.htm

介紹 RAID 的級別和概念 http://www.linuxidc.com/Linux/2015-08/122191.htm
使用 mdadm 工具創建軟件 RAID 0 （條帶化） http://www.linuxidc.com/Linux/2015-08/122236.htm
用兩塊磁盤創建 RAID 1（鏡像） http://www.linuxidc.com/Linux/2015-08/122289.htm
如何在Linux上構建 RAID 10陣列 http://www.linuxidc.com/Linux/2014-12/110318.htm
Debian軟RAID安裝筆記 - 使用mdadm安裝RAID1 http://www.linuxidc.com/Linux/2013-06/86487.htm
常用RAID技術介紹以及示例演示(多圖) http://www.linuxidc.com/Linux/2013-03/81481.htm
Linux實現最常用的磁盤陣列-- RAID5 http://www.linuxidc.com/Linux/2013-01/77880.htm
RAID0+1和RAID5的性能測試結果 http://www.linuxidc.com/Linux/2012-07/65567.htm
Linux入門教程：磁盤陣列（RAID） http://www.linuxidc.com/Linux/2014-07/104444.htm
在 Linux 下使用 RAID（四）：創建 RAID 5（條帶化與分布式奇偶校驗） http://www.linuxidc.com/Linux/2015-08/122343.htm

恢復並重建故障的軟件 RAID - 第8部分

在本文中，我們將討論當一個磁盤發生故障時如何重建軟件 RAID 陣列並且不會丟失數據。為方便起見，我們僅考慮RAID 1 的配置 - 但其方法和概念適用於所有情況。

RAID 測試方案

在進一步討論之前，請確保你已經配置好了 RAID 1 陣列，可以按照本系列第3部分提供的方法：在 Linux 中如何創建 RAID 1（鏡像）。

在目前的情況下，僅有的變化是：

使用不同版本 CentOS（v7），而不是前面文章中的（v6.5）。
磁盤容量發生改變， /dev/sdb 和 /dev/sdc（各8GB）。

此外，如果 SELinux 設置為 enforcing 模式，你需要將相應的標簽添加到掛載 RAID 設備的目錄中。否則，當你試圖掛載時，你會碰到這樣的警告信息：

啟用 SELinux 時 RAID 掛載錯誤

通過以下命令來解決:

# restorecon -R /mnt/raid1

配置 RAID 監控

存儲設備損壞的原因很多（盡管固態硬盤大大減少了這種情況發生的可能性），但不管是什麼原因，可以肯定問題隨時可能發生，你需要准備好替換發生故障的部分，並確保數據的可用性和完整性。

首先建議是。雖然你可以查看 /proc/mdstat 來檢查 RAID 的狀態，但有一個更好的和節省時間的方法，使用監控 + 掃描模式運行 mdadm，它將警報通過電子郵件發送到一個預定義的收件人。

要這樣設置，在 /etc/mdadm.conf 添加以下行：

MAILADDR user@<domain or localhost>

我自己的設置如下：

MAILADDR gacanepa@localhost

監控 RAID 並使用電子郵件進行報警

要讓 mdadm 運行在監控 + 掃描模式中，以 root 用戶添加以下 crontab 條目：

@reboot/sbin/mdadm--monitor --scan --oneshot

默認情況下，mdadm 每隔60秒會檢查 RAID 陣列，如果發現問題將發出警報。你可以通過添加 --delay 選項到crontab 條目上面，後面跟上秒數，來修改默認行為（例如，--delay 1800意味著30分鐘）。

最後，確保你已經安裝了一個郵件用戶代理（MUA），如mutt 或 mailx。否則，你將不會收到任何警報。

在一分鐘內，我們就會看到 mdadm 發送的警報。

模擬和更換發生故障的 RAID 存儲設備

為了給 RAID 陣列中的存儲設備模擬一個故障，我們將使用 --manage 和 --set-faulty 選項，如下所示：

#mdadm--manage --set-faulty /dev/md0 /dev/sdc1

這將導致 /dev/sdc1 被標記為 faulty，我們可以在 /proc/mdstat 看到：

在 RAID 存儲設備上模擬問題

更重要的是，讓我們看看是不是收到了同樣的警報郵件：

RAID 設備故障時發送郵件警報

在這種情況下，你需要從軟件 RAID 陣列中刪除該設備：

#mdadm/dev/md0 --remove /dev/sdc1

然後，你可以直接從機器中取出，並將其使用備用設備來取代（/dev/sdd 中類型為 fd 的分區是以前創建的）：

#mdadm--manage /dev/md0 --add /dev/sdd1

幸運的是，該系統會使用我們剛才添加的磁盤自動重建陣列。我們可以通過標記 /dev/sdb1 為 faulty 來進行測試，從陣列中取出後，並確認 tecmint.txt 文件仍然在 /mnt/raid1 是可訪問的：

#mdadm--detail /dev/md0
#mount|grep raid1
#ls-l /mnt/raid1 |grep tecmint
#cat/mnt/raid1/tecmint.txt

確認 RAID 重建

上面圖片清楚的顯示，添加 /dev/sdd1 到陣列中來替代 /dev/sdc1，數據的重建是系統自動完成的，不需要干預。

雖然要求不是很嚴格，有一個備用設備是個好主意，這樣更換故障的設備就可以在瞬間完成了。要做到這一點，先讓我們重新添加 /dev/sdb1 和 /dev/sdc1：

#mdadm--manage /dev/md0 --add /dev/sdb1
#mdadm--manage /dev/md0 --add /dev/sdc1

取代故障的 Raid 設備

從冗余丟失中恢復數據

如前所述，當一個磁盤發生故障時， mdadm 將自動重建數據。但是，如果陣列中的2個磁盤都故障時會發生什麼？讓我們來模擬這種情況，通過標記 /dev/sdb1 和 /dev/sdd1 為 faulty：

#umount/mnt/raid1
#mdadm--manage --set-faulty /dev/md0 /dev/sdb1
#mdadm--stop /dev/md0
#mdadm--manage --set-faulty /dev/md0 /dev/sdd1

此時嘗試以同樣的方式重新創建陣列就（或使用 --assume-clean 選項）可能會導致數據丟失，因此不到萬不得已不要使用。

讓我們試著從 /dev/sdb1 恢復數據，例如，在一個類似的磁盤分區（/dev/sde1 - 注意，這需要你執行前在/dev/sde 上創建一個 fd 類型的分區）上使用 ddrescue：

# ddrescue -r 2/dev/sdb1 /dev/sde1

恢復 Raid 陣列

請注意，到現在為止，我們還沒有觸及 /dev/sdb 和 /dev/sdd，它們的分區是 RAID 陣列的一部分。

現在，讓我們使用 /dev/sde1 和 /dev/sdf1 來重建陣列：

#mdadm--create /dev/md0 --level=mirror --raid-devices=2/dev/sd[e-f]1

請注意，在真實的情況下，你需要使用與原來的陣列中相同的設備名稱，即設備失效後替換的磁盤的名稱應該是 /dev/sdb1 和 /dev/sdc1。

在本文中，我選擇了使用額外的設備來重新創建全新的磁盤陣列，是為了避免與原來的故障磁盤混淆。

當被問及是否繼續寫入陣列時，鍵入 Y，然後按 Enter。陣列被啟動，你也可以查看它的進展：

#watch-n 1cat/proc/mdstat

當這個過程完成後，你就應該能夠訪問 RAID 的數據：

確認 Raid 數據

總結

在本文中，我們回顧了從 RAID 故障和冗余丟失中恢復數據。但是，你要記住，這種技術是一種存儲解決方案，不能取代備份。

本文中介紹的方法適用於所有 RAID 中，其中的概念我將在本系列的最後一篇（RAID 管理）中涵蓋它。

如果你對本文有任何疑問，隨時給我們以評論的形式說明。我們期待傾聽閣下的心聲！

via: http://www.tecmint.com/recover-data-and-rebuild-failed-software-raid/

作者：Gabriel Cánepa 譯者：strugglingyouth 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

Linux教程

Linux操作系統學習筆記權限管理（2）

用戶密碼文件——shadow　　用於保存密碼串、密碼有效期等信息，文件位置：/etc/shadow，每一

Gentoo 安裝之intel無線網卡篇

Ubuntu 編譯安裝 Linux 4.0.5 內核，並修復 vmware 網絡內核模塊編譯錯誤

搭建Qt5.1.0 Beta的Android開發環境

Ubuntu “無法獲得鎖”解決方案

Solaris 10 u10 中安裝Solaris Studio12.3備記

linux綜合輔導：linux設置網絡訪問權限

CentOS6 sysbench libtool error

Ubuntu 8.04 體驗之使用Wubi快速安裝Ubuntu(圖)

Linux教程網

使用Linux和Hadoop進行分布式計算

Hadoop 由 Apache Software Foundation 公司於 2005 年秋天

Git版本控制--tag標簽的使用(二)

從USB安裝Ubuntu Server 10.04.3 圖文詳解

搭建LNMP網站服務平台

linux apt-get源配置

限制服務器上的指定用戶可以擁有的磁盤空間或文件個數

URL編碼與解碼

Android程序全屏方法

三種嵌入式操作系統的深入分析與比較

Linux基礎知識 Linux入門 Linux技術 Linux教程 Linux服務器關於Linux

文章推荐

Nginx作為反向Proxy的優化要點

Linux操作系統學習筆記權限管理（2）

用戶密碼文件——shadow　　用於保

Zabbix實現微信告警

CUPS介紹

热点聚焦

.Net Core 之 Ubuntu 14.04 部署過程

如何從linux的圖形界面切換到文本界面

Linux控制台漢化Fbterm和小小輸入法Yong

Linux下磁盤lvm掛在顯示容量問題

Linux find命令忽略目錄的查找方法

Fedora8 Gnome桌面環境下安裝EVA QQ