■ 江西 劉秋根
編者按:筆者單位因斷電進(jìn)行網(wǎng)絡(luò)改造,卻引發(fā)了網(wǎng)絡(luò)故障問題,該問題是因端口聚合配置不當(dāng),以致在特定情況下產(chǎn)生的網(wǎng)絡(luò)故障。
去年5 月份,筆者單位完成了業(yè)務(wù)網(wǎng)核心網(wǎng)絡(luò)設(shè)備的更新以及核心交換機(jī)到各樓層交換機(jī)主干網(wǎng)絡(luò)的光纖改造工作。
更新后,兩臺新核心交換機(jī)采用IRF 堆疊技術(shù),代替了原來的VRRP+STP 雙核冗余技術(shù),優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),提高了性能。各樓層交換機(jī)均分別與兩臺核心交換機(jī)連接,通過采用端口聚合技術(shù),能夠避免網(wǎng)絡(luò)環(huán)路,增加帶寬提高可靠性。
但在去年11 月中發(fā)生的一起由停電引發(fā)的網(wǎng)絡(luò)故障,暴露了因端口聚合配置不當(dāng)在特定情況下也可能產(chǎn)生網(wǎng)絡(luò)環(huán)路的問題,引發(fā)其他網(wǎng)絡(luò)故障,值得引起關(guān)注。
由于供電設(shè)備檢修,去年11 月13 日上午9 點(diǎn)筆者單位市電停電,過幾分鐘后改由單位發(fā)電機(jī)供電。9 點(diǎn)半左右,筆者陸續(xù)接到單位業(yè)務(wù)網(wǎng)網(wǎng)絡(luò)時通時斷,訪問速度很慢的報(bào)告。例如,打開單位主頁,有時候都會無法訪問。經(jīng)檢查,單位業(yè)務(wù)網(wǎng)確實(shí)出現(xiàn)了問題,Ping 單位服務(wù)器和業(yè)務(wù)網(wǎng)網(wǎng)關(guān)均出現(xiàn)明顯丟包現(xiàn)象。
剛開始接到網(wǎng)絡(luò)問題報(bào)告時,筆者以為是個別現(xiàn)象。在檢查了問題終端的配置、網(wǎng)卡和網(wǎng)線等都工作正常后,筆者排除了終端本身問題。更換連接終端的樓層交換機(jī)端口,故障問題依舊。
是否是終端所在樓層交換機(jī)的問題呢?比如存在環(huán)路等。筆者斷開了該樓層交換機(jī)連接核心交換機(jī)的一條線路,但問題依舊,丟包甚至更嚴(yán)重。進(jìn)一步檢查該樓層交換機(jī)配置參數(shù)和日志,都沒發(fā)現(xiàn)問題。
隨著接到故障報(bào)告數(shù)量的增多,我們檢查了數(shù)個樓層的終端,顯示網(wǎng)絡(luò)故障問題都相同,因此確定是整個局域網(wǎng)的問題。
由于單位樓層到核心交換機(jī)主干網(wǎng)光纖改造工作完成不久,而且是在市電停后發(fā)電機(jī)供電時出現(xiàn)的故障,筆者懷疑是發(fā)電機(jī)供電不穩(wěn)定,導(dǎo)致各樓層交換機(jī)光收發(fā)器工作不穩(wěn)定。筆者到機(jī)房檢查配電柜和UPS,發(fā)現(xiàn)UPS 出現(xiàn)報(bào)警提示“旁路相序發(fā)生錯誤”。
是否真是發(fā)電機(jī)供電引起的問題呢?經(jīng)過查找資料和咨詢廠家,排除了供電問題。
接著,筆者登錄核心交換機(jī)檢查配置參數(shù)和日志,在使用“display logbuffer”命令檢查日志記錄時,發(fā)現(xiàn)有如圖1 所示大量的告警信息,基本上是2 s 一條。
這些日志表示核心交換機(jī)開啟了STP_DISPUTE 保護(hù)功能,聚合鏈路組Bridge-Aggregation17 收到了指定端口發(fā)出的低優(yōu)先級BPDU,且發(fā)送端口處于forwarding或learning 狀態(tài),從而觸發(fā)STP_DISPUTE 保護(hù),阻塞了端口以防止環(huán)路。通過使用“dis stp abnormal-port”命令可以顯示阻塞端口,如圖2 所示。
很明顯,是聚合鏈路組Bridge-Aggregation17 所連接的樓層交換機(jī)出了問題,使得網(wǎng)絡(luò)出現(xiàn)了環(huán)路,以致影響了整個局域網(wǎng)絡(luò)。筆者通過斷開聚合鏈路組Bridge-Aggregation17 的其中一條線路,STP_DISPUTE 保護(hù)告警信息消失,單位局域網(wǎng)網(wǎng)絡(luò)恢復(fù)正常訪問。
經(jīng)過查找,發(fā)現(xiàn)聚合鏈路組Bridge-Aggregation17所連接的樓層交換機(jī)為一樓交換機(jī),放置在門衛(wèi)監(jiān)控室。為什么該交換機(jī)工作好好的,突然就出問題了呢?
通過登錄一樓交換機(jī)檢查配置,筆者發(fā)現(xiàn)其中的端口聚合配置丟失,還原成了5月份業(yè)務(wù)網(wǎng)核心網(wǎng)絡(luò)設(shè)備的更新前的配置。這應(yīng)該是在更新完成時忘記保存配置導(dǎo)致的,而監(jiān)控室平時不斷電,直到這次停電才使得新配置丟失。在樓層交換機(jī)上增加如圖3 所示端口聚合配置并保存,問題得到解決。
圖1 檢查核心交換機(jī)日志記錄發(fā)現(xiàn)大量的告警信息
圖2 查看阻塞端口
圖3 在樓層交換機(jī)上增加端口聚合配置
核心和樓層交換機(jī)都配置了STP,并且核心交換機(jī)能夠發(fā)現(xiàn)并阻塞環(huán)路,為什么還會影響整個局域網(wǎng)呢?
我們分析原因,可能有以下兩點(diǎn):
一是單位核心交換機(jī)為H3C S7506E-X,Comware為Version 7.1.070,樓層交換機(jī)大部分為H3C S2626,Comware 為Version 5.20.99。端口聚合大部分配置為推薦的動態(tài)聚合,但不知為何核心聚合鏈路組Bridge-Aggregation17 配置的是默認(rèn)的靜態(tài)聚合。而靜態(tài)聚合出現(xiàn)故障時不會自動刪除,只能手工刪除,對端樓層交換機(jī)沒有了聚合配置,聚合建立失敗,所以網(wǎng)絡(luò)出現(xiàn)環(huán)路,產(chǎn)生廣播風(fēng)暴。
二是核心交換機(jī)的H3C V7 平臺支持STP 端口的DISPUTE 保護(hù)功能,而樓層交換機(jī)的H3C V5 平臺不支持STP端口的DISPUTE 保護(hù)機(jī)制,因而DISPUTE 保護(hù)功能沒有正常發(fā)揮作用。