三節(jié)點主機組成的VSAN集群,更新到ESXi 6.5后完全無法忍受磁盤的性能。查看vSAN健康檢查信息,發(fā)現(xiàn)原本符合兼容列表的陣列卡已經(jīng)不屬于兼容硬件??紤]到設備剛滿3年,距離報廢還有3年,計劃對其更換陣列卡提升性能,延續(xù)硬件壽命。
首先查找官網(wǎng)確定硬件型號還能兼容的陣列卡型號,只剩一個可選擇的h710,并且最高支持到ESXi6u2,并未明確ESXi 6.5的兼容性。猜想可能剛推出6.5時間不長,尚未進行兼容性測試,但一想到低下的存儲性能,還是抱著希望準備試一下。
粗略制定更換方案,當前vSAN環(huán)境的虛機沒有其他資源可遷移,且不能停機,需要冒險在無備份的情況操作。因此,先拿一臺停機做更換,驗證能有效使用vSAN再逐臺更換另外兩個節(jié)點。而對于待更換的一臺,先漂移虛機到其他節(jié)點,進入維護模式,移除磁盤組、關機、更換陣列卡,開機查看識別情況,配置卡連接的磁盤每塊盤獨立Raid,最后進入vCenter恢復磁盤到vSAN配置中。
按照既定方案,首先是遷移虛機,使待更換節(jié)點主機正常進入維護模式。vSAN環(huán)境的維護模式,有三個選項:不遷移數(shù)據(jù)、遷出數(shù)據(jù)、保持可用性(如圖1)。選擇遷出數(shù)據(jù)能夠確保所有虛機至少有2個副本,然而當前的vSAN性能太糟糕,很快就失敗了。于是只能進一步冒險,選擇不遷出數(shù)據(jù)進入維護模式,這導致部分虛機只有1個副本在運行,此時為解決問題,也只能硬著頭皮移除該節(jié)點磁盤組。移除本主機的磁盤組后關機服務器,拆開機箱更換陣列卡,然后到開機都比較順利,服務器自檢新陣列卡已被準確識別到。根據(jù)官方資料,使用該卡需要將每塊盤采用write through模式創(chuàng)建為 raid0的 VirtualDisk,并關閉寫緩存。
配置完陣列卡重啟順利進入ESXi,在vCenter中查看所有磁盤均已被掃描到,SSD盤在陣列卡創(chuàng)建的VirtualDisk外殼下,也被識別成了HDD,需先將其標記為SSD,再創(chuàng)建磁盤組。此時的磁盤組創(chuàng)建速度比較塊,至少相對刪除磁盤組的速度要好。隨后觀察后臺同步的統(tǒng)計和性能圖表,可以直觀看到后臺同步恢復寫入吞吐量最高達到220MB/s,這也說明了更換陣列卡來提升vSAN性能的決定是正確的。僅僅等待3個多小時,vSAN后臺的同步就全部完成了。為了安全起見,又多等待了1天才開始第二臺服務器的更換。一周后,3臺服務器的陣列卡都更換完成,且后臺同步均正常,冒險都成功了。
圖1 vSAN維護模式選項
小結(jié):技術發(fā)展的速度總是不斷超出我們的預期,僅僅三年的時間,虛擬化軟件的發(fā)展就快速淘汰了一批曾經(jīng)符合兼容性規(guī)范的硬件。升級軟件,能夠帶來新的vSAN特性,提供新的處理能力和生產(chǎn)效率,但冒著對現(xiàn)有生產(chǎn)環(huán)境帶來停機、丟數(shù)據(jù)等影響的風險。不升級軟件,則可能與其他新購置硬件環(huán)境無法兼容而產(chǎn)生一定的割裂,并可能面臨舊版軟件停止更新服務后缺少補丁,服務器過保、停產(chǎn)沒有備件,難以遷移等更大的麻煩。
總的來說,在關鍵的生產(chǎn)環(huán)境中,更需要確保每個虛機都有多個存儲副本,再進行磁盤組的移除將更加安全妥當。假設在本例的操作過程中,剩余的主機節(jié)點出現(xiàn)了單塊磁盤的損壞,則單副本的虛機則可能永久丟失,風險是非常大的。