■ 河北 王春海
編者按: 筆者近期遇到部分網(wǎng)卡被識(shí)別錯(cuò)誤的原因,造成了某些業(yè)務(wù)系統(tǒng)訪問緩慢。雖然這種故障發(fā)生的概率很低,但也會(huì)影響單位的日常業(yè)務(wù)運(yùn)轉(zhuǎn),對(duì)此問題也要有所了解。
某企業(yè)所有業(yè)務(wù)系統(tǒng)及應(yīng)用運(yùn)行在由5臺(tái)安裝了ESXi 6.0的服務(wù)器組成的虛擬化環(huán)境中,已經(jīng)穩(wěn)定運(yùn)行了多年,基本上沒有出過問題。
某天下午企業(yè)工程師聯(lián)系筆者,說單位的業(yè)務(wù)系統(tǒng)訪問很慢。在業(yè)務(wù)系統(tǒng)中ping網(wǎng)關(guān)的延時(shí)超過2ms,平常都是小于1ms。近期單位服務(wù)器與網(wǎng)絡(luò)沒有改動(dòng)。
檢查發(fā)現(xiàn)有臺(tái)物理主機(jī)內(nèi)存報(bào)警(提示第20個(gè)內(nèi)存插槽的內(nèi)存有問題),將這臺(tái)服務(wù)器置于維護(hù)模式,遷移虛擬機(jī)到其他主機(jī)時(shí)提示“等待數(shù)據(jù)失敗……”、“遷移被取消,因?yàn)樘摂M機(jī)內(nèi)存的更改量超過可用網(wǎng)絡(luò)帶寬……”,如圖1所示。
圖1 遷移失敗
圖2 部分網(wǎng)卡端口速率識(shí)別錯(cuò)誤
圖3 移動(dòng)到待機(jī)適配器
如果手動(dòng)遷移虛擬機(jī)到其他主機(jī),原來需要幾分鐘的遷移遲遲不能完成(直到下午用了3個(gè)多小時(shí)才遷移完成一臺(tái))。因?yàn)楣P者沒在現(xiàn)場(chǎng),就讓用戶分別登錄每臺(tái)ESXi主機(jī)ping網(wǎng)關(guān)看延時(shí)和丟包情況,經(jīng)檢查這五臺(tái)主機(jī)中,只有一臺(tái)延時(shí)在2~3ms,其他都在1ms以內(nèi),而延時(shí)在2~3ms的就是內(nèi)存有故障的主機(jī)。
下午到現(xiàn)場(chǎng)之后檢查發(fā)現(xiàn),一些服務(wù)器的網(wǎng)卡被識(shí)別為10Mb、100Mb,如圖3所示。當(dāng)前一共5臺(tái)ESXi主機(jī),其中有4臺(tái)主機(jī)的部分網(wǎng)卡識(shí)別有錯(cuò)誤。如圖2所示。
這種問題一般是線路或交換機(jī)配置問題導(dǎo)致。但這套系統(tǒng)已經(jīng)使用幾年,原來的網(wǎng)卡都能正確識(shí)別到千兆,不應(yīng)該是交換機(jī)配置的問題。網(wǎng)線或網(wǎng)線接頭問題居多,也可能是接觸不好造成的。
因?yàn)楝F(xiàn)在業(yè)務(wù)系統(tǒng)還比較緩慢,現(xiàn)在也不是著急檢查網(wǎng)絡(luò)的時(shí)候,因此為了應(yīng)急,在vSphere Client中選中ESXi主機(jī),在“配置→硬件→網(wǎng)絡(luò)”中修改虛擬交換機(jī)vSwitch及端口組、Management Network屬性,在“常規(guī)→網(wǎng)卡綁定”選項(xiàng)中,可以將錯(cuò)誤識(shí)別為10Mb或100Mb的端口移動(dòng)到“待機(jī)適配器”中,如圖3所示。
修改之后千兆網(wǎng)卡為活動(dòng)適配器,識(shí)別為10Mb或100Mb的網(wǎng)卡為待機(jī)適配器。
在配置好每一臺(tái)主機(jī)后,再次將內(nèi)存有故障的主機(jī)置于維護(hù)模式,此時(shí)虛擬機(jī)遷移很快完成。此時(shí)單位訪問業(yè)務(wù)系統(tǒng)的速度也恢復(fù)正常,如圖4所示。
再去機(jī)房將識(shí)別為10Mb、100Mb 的網(wǎng)卡更換網(wǎng)線,網(wǎng)卡全部識(shí)別為1000Mb。
圖4 遷移順利
圖5 設(shè)置端口速度
將主機(jī)置于維護(hù)模式后,將ESXi主機(jī)關(guān)閉電源,取下20插槽有故障的內(nèi)存開機(jī),正常啟動(dòng)后將主機(jī)退出維護(hù)模式,遷移到其他主機(jī)的虛擬機(jī)會(huì)慢慢遷移回這臺(tái)主機(jī),至此故障解決。
在本項(xiàng)目中,每臺(tái)服務(wù)器管理使用2個(gè)千兆端口、虛擬機(jī)使用另外2個(gè)千兆端口,本來無論是管理還是應(yīng)用,網(wǎng)絡(luò)都是有冗余的。但此次故障在于部分網(wǎng)卡被識(shí)別為10Mb或100Mb,用戶在通過物理網(wǎng)絡(luò)、物理交換機(jī)訪問虛擬機(jī)時(shí),有可能使用被識(shí)別為10Mb或100Mb的上行鏈路,這就造成了某些業(yè)務(wù)系統(tǒng)訪問緩慢。
實(shí)際上這種故障出現(xiàn)的概率很低,在使用合格的網(wǎng)線時(shí)一般不會(huì)出現(xiàn)此類故障。那么怎么避免這個(gè)問題呢?
可以在虛擬交換機(jī)屬性→網(wǎng)絡(luò)適配器中,將上行鏈路的“自動(dòng)協(xié)商”改為“1000Mb,全雙工”,如圖5所示。在設(shè)置為這種模式后,如果線路速度不能達(dá)到千兆,那么這個(gè)端口就被斷開,這避免了線路降速運(yùn)行。
但需要注意,如果兩條都設(shè)置為1000Mb,當(dāng)兩條都不能識(shí)別為千兆時(shí),網(wǎng)絡(luò)中斷,此時(shí)業(yè)務(wù)可能受到影響;如果設(shè)置其中一條為1000Mb,當(dāng)兩條都不能識(shí)別為千兆時(shí),還會(huì)有一條降速運(yùn)行,可以保證業(yè)務(wù)受影響但不中斷。管理員可以根據(jù)實(shí)際情況,選擇將其中一條或兩條設(shè)置為1000Mb。