■ 石家莊 王春海 馬衛(wèi)華
某2節(jié)點(diǎn)萬兆網(wǎng)卡直連vSAN延伸群集(網(wǎng)絡(luò)拓?fù)淙鐖D1所示),在某一天晚上,工作人員發(fā)現(xiàn)首選站點(diǎn)節(jié)點(diǎn)1服務(wù)器(圖1中IP地址為192.168.251.2的計(jì)算機(jī))的一條64GB內(nèi)存出現(xiàn)問題導(dǎo)致服務(wù)器死機(jī)。
第二天管理員到單位之后,發(fā)現(xiàn)所有的業(yè)務(wù)虛擬機(jī)都無法使用,vCenter Server已經(jīng)無法連接。
使用vSphere Host Client可以直接登錄到192.168.251.2、192.168.251.3及192.168.251.6等每臺(tái)主機(jī),但虛擬機(jī)的信息不正常,已經(jīng)無法顯示虛擬機(jī)的名稱。另外,vSAN存儲(chǔ)容量只有其中一臺(tái)主機(jī)的容量(每臺(tái)主機(jī)配置了1個(gè)磁盤組,每個(gè)磁盤組有1塊400GB的SSD,5塊1.2TB的HDD,總?cè)萘渴?0.92TB,現(xiàn)在只有5.46TB)。
在關(guān)閉這三臺(tái)服務(wù)器,然后打開服務(wù)器的電源之后,業(yè)務(wù)仍然沒有恢復(fù)。
后來檢查發(fā)現(xiàn),將IP地址為192.168.251.2的故障主機(jī)關(guān)閉,只打開IP地址為192.168.251.3與192.168.251.6的主機(jī)(包括見證虛擬機(jī),IP地址為192.168.251.8),此時(shí)包括vCenter Server在內(nèi)的所有虛擬機(jī)都自動(dòng)啟動(dòng)并可以對(duì)外提供服務(wù)。如果此時(shí)再打開192.168.251.2的主機(jī),那么所有的虛擬機(jī)都會(huì)死機(jī)。
為了不影響業(yè)務(wù)的辦理,用戶暫時(shí)選擇關(guān)閉了192.168.251.2的主機(jī)。此時(shí)在vSphere Web Client中顯示192.168.251.2無響應(yīng),主機(jī)已從VC斷開連接。
在“監(jiān)控→vSAN→虛擬對(duì)象”選項(xiàng)中,可以看到所有的服務(wù)器都提示“可用性降低但未重建”,如圖2所示。因?yàn)榇藭r(shí)首選站點(diǎn)節(jié)點(diǎn)主機(jī)不在線,系統(tǒng)無法重建冗余數(shù)據(jù)。
在“配置→vSAN→磁盤管理”選項(xiàng)中,看到192.168.251.2狀態(tài)為“未響應(yīng)”,見證主機(jī)與192.168.251.3的狀態(tài)正常。
在關(guān)機(jī)之后,用戶使用備用內(nèi)存,更換了192.168.251.2這臺(tái)主機(jī)的內(nèi)存。
晚上下班之后,在不影響業(yè)務(wù)虛擬機(jī)使用的情況下,筆者使用下述的方法修復(fù)了192.168.251.2的主機(jī),主要方法與步驟如下。
1.首先使用vSphere Web Client登錄到vCenter Server,并從清單中移除IP地址為192.168.251.2的主機(jī)。
圖2 虛擬對(duì)象
圖3 系統(tǒng)重置
2.由于IP地址為192.168.251.2的主機(jī)無法上線,筆者將192.168.251.2的管理端口網(wǎng)線暫時(shí)斷開,等服務(wù)器開機(jī)并進(jìn)入控制臺(tái)界面之后,按“F2”進(jìn)入系統(tǒng)配置,在“System Customization”中移動(dòng)光標(biāo)到“Reset System Configuration”并回車,在彈出的對(duì)話框再次按回車鍵重置系統(tǒng)配置,如圖3所示。在重置后,系統(tǒng)將會(huì)重新啟動(dòng),root密碼重置為空(無密碼)。
3.再次進(jìn)入系統(tǒng)后,使用用戶名root、密碼為空登錄系統(tǒng)。進(jìn)入系統(tǒng)之后,為服務(wù)器重新設(shè)置管理IP地址,選擇管理網(wǎng)卡,仍然使用原來的IP地址192.168.251.2及原來的網(wǎng)卡端口,并設(shè)置為原來的密碼。然后重新插上服務(wù)器管理網(wǎng)卡的網(wǎng)線。
4.在vSphere Web Client中,將192.168.251.2加入清單。參照192.168.251.1的網(wǎng)絡(luò)設(shè)置,為192.168.251.2重新創(chuàng)建虛擬交換機(jī),并為192.168.251.2的主機(jī)設(shè)置vSAN流量。
5.此時(shí)在“群集→配置→磁盤管理”選項(xiàng)中,可以看到192.168.251.2的磁盤組已經(jīng)添加,但狀態(tài)不正常。
6.使用SSH登錄到節(jié)點(diǎn)1的ESXi主機(jī),執(zhí)行“esxcli vsan network ip add -I vmk0 -T=witness”命令,將192.168.251.2的管理地址設(shè)置為見證流量。
(7)在“配置→vSAN→故障域和延伸群集”選項(xiàng)中,重新將IP地址為192.168.251.2的主機(jī)添加到“首選”站點(diǎn)。需要注意,兩臺(tái)節(jié)點(diǎn)主機(jī)中,必須一臺(tái)主機(jī)在“首選”站點(diǎn),一臺(tái)在“輔助”站點(diǎn),其他名稱都不行,如圖4所示。
8.在“配置→vSAN→磁盤管理”中,可以看到192.168.251.2的磁盤組狀態(tài)已經(jīng)正常。
9.在“監(jiān)控→vSAN→虛擬對(duì)象”中,看到大多數(shù)的虛擬機(jī)狀態(tài)都恢復(fù)正常,只有一臺(tái)虛擬機(jī)數(shù)據(jù)需要重建。在“監(jiān)控→vSAN→重新同步組件”中,可以看到正在重新同步的組件,當(dāng)前只有一個(gè)磁盤文件需要同步,如圖5所示。
圖4 配置故障域
圖5 查看重新同步組件
10.在“監(jiān)控→vSAN→運(yùn)行狀況”中,查看vSAN運(yùn)行狀況,在解決所有問題后,運(yùn)行狀態(tài)都是顯示“已通過”,此時(shí)表示vSAN恢復(fù)正常。
這個(gè)故障現(xiàn)象比較特殊,因?yàn)檎G闆r下,如果節(jié)點(diǎn)主機(jī)出現(xiàn)故障,只要修復(fù)了節(jié)點(diǎn)主機(jī)并重新上線,vSAN會(huì)重新連接,很少出現(xiàn)vSAN主機(jī)都在線而導(dǎo)致虛擬機(jī)無法訪問的情況。
因?yàn)槭走x站點(diǎn)的主機(jī)上線就會(huì)導(dǎo)致vSAN群集出錯(cuò),所以本次修復(fù)的關(guān)鍵就是在首選站點(diǎn)不在線的前提下重新配置首選站點(diǎn)。如果重新配置首選站點(diǎn),可以重新安裝ESXi,也可以重置ESXi然后再重新配置,本文就選擇了第二種方法。