4節(jié)點主機(jī)組成的vSAN集群,從舊vCenter關(guān)聯(lián)到新版本vCenter下,順利添加了3個后,剩下1個節(jié)點主機(jī)因為其他緊急事情耽誤了差不多半天時間才添加進(jìn)來。添加后,一條“主機(jī)位于VirtualSAN集群中,但尚未啟用VirtualSAN”的警告消息立即蹦了出來(如圖 1)。
圖1 尚未啟用vSAN告警
圖2 vSAN進(jìn)群通信問題警告
第一感覺就是vSAN集群的配置信息錯亂了,因為4個節(jié)點還關(guān)聯(lián)在舊vCenter中未清除,新vCenter中又只有3個節(jié)點在一起,不一致的配置信息保持了太久時間,完全就是不嫌事多還要給自己挖坑。問題出來了還是要解決,如果拖更久,則可能影響后臺副本的同步也出現(xiàn)錯亂。
首先將該主機(jī)置于維護(hù)模式,萬幸此時虛機(jī)還能漂到其他節(jié)點主機(jī),確認(rèn)虛機(jī)都漂走且運行正常后,對該主機(jī)進(jìn)行重啟。
本以為重啟完后就恢復(fù)正常,沒想到又換了一條警告信息“主機(jī)無法與已啟用VirtualSAN的集群中的其他一個或多個節(jié)點進(jìn)行通信”(如圖2)。
比較前后不一樣的警告,感覺是重啟后已經(jīng)承認(rèn)在集群中了,但還是與其他節(jié)點主機(jī)孤立了。立即檢查了主機(jī)上VSAN相關(guān)的vmk配置,都還在,也沒有錯誤,但為什么說無法通信呢?眼下也只有進(jìn)命令行看看主機(jī)在集群中的狀態(tài)了。
可見,主機(jī)是成功加入了vSAN集群,并且用命令再次加入進(jìn)群也會提示已在集群且啟用了vSAN。
無奈,只得求助于網(wǎng)絡(luò)搜索,原來這可能是一個Bug。正常情況下,一旦主機(jī)恢復(fù)通信,此消息便會自動清除,而現(xiàn)在節(jié)點經(jīng)過重新引導(dǎo)并重新加入群集后,消息并未自動清除。繼續(xù)查看了其他vVSAN相關(guān)指示器,均報告vSAN網(wǎng)絡(luò)運行正常,因此,此問題可能是個表面問題。重新啟動ESXi主機(jī)節(jié)點上的VPXA(vCenter Server)管理代理就可以清除。
小結(jié):vSAN自身就是一個集群方式運行的分布式文件系統(tǒng),與主機(jī)的HA集群有著復(fù)雜的聯(lián)系。vSAN節(jié)點的健康狀況也直接影響著存儲在其中的文件,在日常巡檢中要保持較高的警惕。
雖然vSAN經(jīng)過很多嚴(yán)苛生產(chǎn)環(huán)境的實踐,是非??煽康模⒎敲恳粋€場景都能與最佳實踐做到一致的部署,也未必達(dá)到高標(biāo)準(zhǔn)的運維水平。因此,為了應(yīng)對vSAN發(fā)生意外導(dǎo)致不可逆的損壞,還要通過VDPA等備份手段將重要的虛機(jī)備份到vSAN之外的存儲中,根據(jù)業(yè)務(wù)的特點設(shè)置不同頻率的增量備份,才能高枕無憂。