筆者所在單位有一個(gè)大型數(shù)據(jù)中心,數(shù)據(jù)中心部署有一套內(nèi)網(wǎng)VMware云桌面系統(tǒng)。該云桌面系統(tǒng)采用Trunk隧道上聯(lián),Trunk隧道引入VLAN 100和VLAN 130兩個(gè)網(wǎng)段,VLAN 100作為VMware物理主機(jī)的管理網(wǎng)段;VLAN 130作為云桌面虛擬機(jī)地址網(wǎng)段。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示。
在總核心與數(shù)據(jù)中心核心交換機(jī)上啟用OSPF路由協(xié)議,全局只使用單區(qū)域0??偤诵慕粨Q機(jī)上聯(lián)其他單位的遠(yuǎn)端OSPF鄰居,并通過Trunk下聯(lián)各個(gè)樓層的辦公接入交換機(jī)。數(shù)據(jù)中心核心交換機(jī)通過互聯(lián)網(wǎng)段上聯(lián)總核心,并通過Trunk下聯(lián)數(shù)據(jù)中心服務(wù)器接入交換機(jī)。屬于典型的區(qū)域數(shù)據(jù)中心+辦公網(wǎng)架構(gòu)。其中,云桌面系統(tǒng)就部署在數(shù)據(jù)中心機(jī)房內(nèi)。這套系統(tǒng)運(yùn)行還算穩(wěn)定,然而,一個(gè)隱藏多年的網(wǎng)關(guān)沖突故障突然來襲。
圖1 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
某天下班前,發(fā)現(xiàn)云桌面用戶無法打開數(shù)據(jù)中心提供的眾多服務(wù)。測試表明,數(shù)據(jù)中心服務(wù)正常,影響范圍僅限于云桌面用戶。從云桌面用戶或者云桌面接入交換機(jī)上,只能Ping通自己所屬的網(wǎng)關(guān),Ping不通數(shù)據(jù)中心眾多網(wǎng)關(guān)和應(yīng)用地址。
在排除云桌面系統(tǒng)本身的問題后,將排查重點(diǎn)轉(zhuǎn)向網(wǎng)絡(luò)故障。
從數(shù)據(jù)中心核心交換機(jī)上只能Ping通VLAN 100和VLAN 130網(wǎng)關(guān),無法Ping通云桌面服務(wù)器。從云桌面上聯(lián)的總核心交換機(jī)上能Ping通VLAN 100和VLAN 130網(wǎng)關(guān)和云桌面服務(wù)器。這樣看,問題應(yīng)該出在數(shù)據(jù)中心核心交換機(jī)與總核心交換機(jī)之間。
查看交換機(jī)路由表,發(fā)現(xiàn)總核心與數(shù)據(jù)中心核心交換機(jī)都顯示VLAN 100和VLAN 130網(wǎng)段是直連路由。再對比檢查配置,發(fā)現(xiàn)總核心與數(shù)據(jù)中心核心交換機(jī)竟然都配了一模一樣的VLAN 100和VLAN 130網(wǎng)關(guān)。手工關(guān)閉數(shù)據(jù)中心交換機(jī)上的兩個(gè)重復(fù)網(wǎng)關(guān),故障消失。
事后了解到,幾年前,曾經(jīng)做過把云桌面系統(tǒng)上聯(lián)線路改到數(shù)據(jù)中心核心交換機(jī)的嘗試,畢竟云桌面系統(tǒng)部署在數(shù)據(jù)中心機(jī)房內(nèi)。但那次嘗試因?yàn)閭€(gè)別云桌面用戶無法登錄而放棄,可數(shù)據(jù)中心交換機(jī)上配置的網(wǎng)關(guān)和接口都忘了清除。
為什么重復(fù)網(wǎng)關(guān)配置了多年,故障現(xiàn)在才出現(xiàn)呢?這與華三交換機(jī)的網(wǎng)關(guān)特性有關(guān)。查閱相關(guān)手冊,關(guān)于VLAN虛接口有這樣一段描述:“缺省情況下,當(dāng)VLAN虛接口下所有以太網(wǎng)端口狀態(tài)為Down時(shí),VLAN虛接口為Down狀態(tài);只要VLAN虛接口下有一個(gè)以太網(wǎng)端口狀態(tài)為Up,VLAN虛接口就為Up狀態(tài)”。
也就是說,雖然之前在數(shù)據(jù)中心核心交換機(jī)上啟用了兩個(gè)重復(fù)的網(wǎng)關(guān),因?yàn)閂LAN內(nèi)沒有Up的二層接口,網(wǎng)關(guān)也沒有Up起來,自然不會(huì)引起路由問題。網(wǎng)絡(luò)科同事說,他們下班前接了一條災(zāi)備專線光纖到數(shù)據(jù)中心核心交換機(jī)上,這條專線端口采用port trunk permit vlan all命令引用了數(shù)據(jù)中心交換機(jī)上的所有網(wǎng)段,使得塵封已久的VLAN 100和VLAN 130網(wǎng)關(guān)被激活,才導(dǎo)致了本次故障。