引言: 筆者單位部分用戶出現(xiàn)不能訪問(wèn)網(wǎng)絡(luò)故障,登錄檢查之后發(fā)現(xiàn)存儲(chǔ)的一個(gè)控制器損壞。當(dāng)控制器損壞之后,服務(wù)器丟失到存儲(chǔ)的連接,導(dǎo)致部分虛擬機(jī)不能啟動(dòng)。本文介紹更換控制器并替換即將失效磁盤(pán)的操作過(guò)程。
某日一早接到電話,說(shuō)單位內(nèi)部分用戶不能訪問(wèn)網(wǎng)絡(luò),登錄檢查之后發(fā)現(xiàn)存儲(chǔ)的一個(gè)控制器損壞,主要原因概述如下。
當(dāng)前客戶核心業(yè)務(wù)運(yùn)行在vSphere虛擬化平臺(tái),該單位有3臺(tái)HP服務(wù)器+1臺(tái)IBM 3524存儲(chǔ),服務(wù)器與存儲(chǔ)之間采用SAS接口連接,其中2臺(tái)HP服務(wù)器使用SAS線連接到A控制器,另一臺(tái)HP服務(wù)器使用SAS線連接到B控制器,服務(wù)器與存儲(chǔ)之間無(wú)冗余連接。3臺(tái)HP服務(wù)器安裝ESXi 6.0配置成HA,所有虛擬機(jī)都保存在IBM 3524存儲(chǔ)中,當(dāng)A控制器損壞之后,前兩臺(tái)HP服務(wù)器丟失到存儲(chǔ)的連接導(dǎo)致部分虛擬機(jī)不能啟動(dòng),因?yàn)镠A中損壞了兩臺(tái)服務(wù)器,HA失效。
圖1 已經(jīng)離線
知道原因之后,讓客戶將其中1臺(tái)HP服務(wù)器的SAS線連接到B控制器的空閑端口(當(dāng)前IBM 3524有兩個(gè)控制器,每個(gè)控制器有兩個(gè)SAS接口,所以B控制器當(dāng)前有一個(gè)端口空閑),將這臺(tái)服務(wù)器重新啟動(dòng),此時(shí)會(huì)有兩臺(tái)服務(wù)器可以正常工作,之后將業(yè)務(wù)虛擬機(jī)啟動(dòng),此時(shí)單位應(yīng)用暫時(shí)恢復(fù)。
業(yè)務(wù)恢復(fù)后,因當(dāng)前的存儲(chǔ)已經(jīng)過(guò)保,所以申請(qǐng)購(gòu)買(mǎi)新的同型號(hào)控制器。控制器到貨后更換損壞的A控制器。更換過(guò)程中發(fā)現(xiàn)Slot 8磁盤(pán)即將失效,在更換控制器后同時(shí)替換了即將失效的磁盤(pán),下面介紹操作過(guò)程。
1.進(jìn) 入IBM DS Storage Manager管理軟件,可以看到A控制器已經(jīng)離線,同時(shí)有兩塊盤(pán)有黃色的五星符號(hào)(如圖 1)。
說(shuō)明:當(dāng)前示意圖中Slot 3與Slot 8都有黃色的五星符號(hào),其中Slot 3里面有一塊磁盤(pán),因?yàn)樽畛踉摫P(pán)位有點(diǎn)故障,此盤(pán)位未分配到陣列中,故當(dāng)前磁盤(pán)未分配未使用,但此磁盤(pán)是一塊可用的磁盤(pán),可以將其從盤(pán)位取出,放到其他需要的位置。而Slot 8分配為Array-2邏輯磁盤(pán),該磁盤(pán)有數(shù)據(jù)丟失的風(fēng)險(xiǎn)。
2.在“Recovery Guru”的進(jìn)一步檢查中,看到第8盤(pán)位的磁盤(pán)即將失效,有數(shù)據(jù)丟失的風(fēng)險(xiǎn)(如圖2)。
3.將損壞的A控制器從存儲(chǔ)中拆下,更換上新購(gòu)置的控制器。
4.在存儲(chǔ)管理中,右擊A控制器,在彈出的快捷菜單中選擇“Advanced→Place→Online”將其置于在線狀態(tài)。
5.控制器在線后,連接A控制器的服務(wù)器沒(méi)有發(fā)現(xiàn)LUN,近一步檢查發(fā)現(xiàn)A控制器的flash狀態(tài)不對(duì)。
估計(jì)控制器在快遞過(guò)來(lái)的過(guò)程中,可能有顛簸或其他原因?qū)е驴刂破髦械腟D卡(是一個(gè)8GB的高速緩存卡)松動(dòng),或者有問(wèn)題。將新安裝上的控制器設(shè)置為“離線狀態(tài)”,打開(kāi)控制器,將原來(lái)?yè)p壞的控制器的SD卡插到新購(gòu)置的控制器中。
6.右 擊A控制器,在彈出的快捷菜單中選擇“Advanced→ Place→Offline”將其置于離線狀態(tài)。
7.在彈出的“Confirm Place Offline”對(duì)話框中單擊“yes”按鈕確認(rèn)。
8.當(dāng)控制器A處于離線之后,拆下控制器。換上原來(lái)?yè)p壞控制器的SD卡,重新插上控制器。
9.再次將控制器設(shè)置為在線狀態(tài),此時(shí)看到SD卡狀態(tài)正常。
此時(shí)連接到A控制器的服務(wù)器應(yīng)該能發(fā)現(xiàn)存儲(chǔ)分配的LUN,如果不能,則可以在“Storage & Copy Services”,右擊LUN,選擇“Change→Ownership/Preferred Path”選擇“Controller in Slot A”(如圖3)。
圖2 slot 8磁盤(pán)
圖3 更換LUN到A控制器
圖4 磁盤(pán)重建
對(duì)于盤(pán)位8即將失效的磁盤(pán),可以將其置于“Fail”,然后用熱備磁盤(pán)代替,在盤(pán)位8換上新的磁盤(pán)即可,主要步驟如下。
1.右擊Slot 8的磁盤(pán)在彈出的快捷菜單中選擇“Advanced→Fail”。
2.在彈出的“Confirm Fail Drive”對(duì)話框中輸入yes然后單擊“OK”按鈕。
3.右擊Slot 6(這個(gè)盤(pán)位的磁盤(pán)是熱備磁盤(pán)),在彈出的快捷菜單中選擇“Hot Spare Converage”。
4.在彈出的“Hot Spare Drive Options”對(duì)話框中選擇“Automatically assign drives”,然后單擊“OK”按鈕。
5. 在“Replace Drives”對(duì)話框中將顯示將Slot 8的失效的磁盤(pán)替換到Slot 6。
6.返回到“Storage &Copy services”對(duì)話框,瀏覽LUN可以看到涉及到邏輯磁盤(pán)會(huì)重建(如圖4)。當(dāng)時(shí)的時(shí)間是10點(diǎn)02。
7.此時(shí)可以將盤(pán)位8的磁盤(pán)拆下,換上新的同容量的磁盤(pán)。等重構(gòu)完成之后,盤(pán)位8的磁盤(pán)會(huì)被替換回來(lái)。此時(shí)盤(pán)位8的磁盤(pán)有個(gè)黃色的五星標(biāo)志,而盤(pán)位6的有個(gè)紅色的十字標(biāo)志。
8.在“Storage & Copy services”對(duì)話框?yàn)g覽涉及到的LUN,可以看到狀態(tài)變 為“Copyback Progress data unavailable”,當(dāng)前時(shí)間是22:23分,復(fù)制過(guò)程進(jìn)行了大約60%。因?yàn)樵谔鎿QSlot 8的時(shí)間大約是上 午10點(diǎn),時(shí)間到現(xiàn)在大約過(guò)了12小時(shí),以此計(jì)算,整個(gè)更換、替換磁盤(pán)所需要時(shí)間大約15小時(shí)。
9.第二天早晨7點(diǎn)33分檢查,復(fù)制進(jìn)度已經(jīng)完成。
圖5 系統(tǒng)狀態(tài)正常
10.在“Hardware” 選項(xiàng)卡中單擊Slot 8,可以看到當(dāng)前磁盤(pán)已經(jīng)分配到Array-2,原來(lái) Slot 6仍然變?yōu)闊醾浯疟P(pán)(如圖5)。至此整個(gè)維護(hù)完成。