■ 湖南工業(yè)大學(xué)現(xiàn)代教育技術(shù)中心 郭兆宏 李強(qiáng)
編者按:筆者在對(duì)一些用戶進(jìn)行更換匯聚交換機(jī)時(shí),遇到了部分網(wǎng)絡(luò)連接不通的問題,最后查明是因交換機(jī)兩邊端口聚合配置的原因而引發(fā)的。
筆者單位1臺(tái)匯聚交換機(jī)8606鏈接7棟樓網(wǎng)絡(luò),且已經(jīng)在線運(yùn)行12年了,近期需要進(jìn)行更換。單位計(jì)劃使用1臺(tái)半新8605E進(jìn)行替換,原8606與核心交換機(jī)只有1條千兆線路,更換后準(zhǔn)備增加到2~4條萬兆線路。
在更換之前準(zhǔn)備好新增加的光路、舊設(shè)備的配置備份、新設(shè)備配置修改、線路標(biāo)記等工作,可在替換時(shí)筆者卻遇到了部分樓棟用戶網(wǎng)絡(luò)不通的故障,最后查明是因交換機(jī)兩邊端口聚合配置的原因而引發(fā)的。
在準(zhǔn)備更換這臺(tái)匯聚交換機(jī)前,單位規(guī)劃與核心交換機(jī)之間使用2~4條線路,已經(jīng)在線的1條,計(jì)劃再增加2條。由于這臺(tái)匯聚交換機(jī)8606與核心交換機(jī)在相距200 m左右的兩棟樓內(nèi),這兩棟樓沒有直達(dá)光纜,需要通過中間室外的一個(gè)光交箱進(jìn)行中轉(zhuǎn)。因?yàn)橐郧肮P者通過打紅光方式跳接光路遇到過無法使光模塊亮起來的情況,因此這次就在核心交換機(jī)拿出4個(gè)連續(xù)萬兆光口,因使用的都是雙蕊光模塊,在每個(gè)發(fā)光蕊測試光功率正常后,將4個(gè)發(fā)光蕊接到4根光跳線上,另一頭在測光功率都正常后再接到配線架上。
筆者到室外光交箱中檢測發(fā)現(xiàn),一蕊光衰過大,在換過一蕊后再把4路光接到8606所在樓。但因在8606所在機(jī)房測得光衰太大,換過多次蕊才把4路光打通。因其間光路質(zhì)量不好,兩端標(biāo)號(hào)不一致且開始筆者只帶了一臺(tái)光功率計(jì),需要2頭往返測試,最后2個(gè)人花了一天時(shí)間才打通這2棟樓的新增4蕊光路(在跳接光路時(shí)最好兩端同時(shí)用光功率計(jì)測試,接通時(shí)先用紅光測試通過后再測光功率)。
將8606交換機(jī)的配置備份,各端口線路打好標(biāo)記,替換的8605E清空配置并導(dǎo)入8606配置,修改接口為聚合端口,在核心交換機(jī)上也做好2個(gè)光口聚合。
因8606所在機(jī)房是十年前舊機(jī)房,有很多不用的光跳線和網(wǎng)線跳線,筆者和同事兩個(gè)人又花了一天時(shí)間清理掉了不用的光跳線和網(wǎng)線,清出4蕊以前備用這兩棟樓的互聯(lián)線路,做好標(biāo)記。
更換過程是先將8605E的兩個(gè)聚合端口用新接的4蕊光先接到核心交換機(jī)上,接口地址先用一個(gè)臨時(shí)地址測試,馬上發(fā)現(xiàn)一個(gè)光模塊不亮,在8605E上換光模塊或端口都無效,測試發(fā)光正常但收光很弱。筆者再到核心交換機(jī)上換光模塊,在核心交換機(jī)上發(fā)現(xiàn)光模型號(hào)有兩種,把一對(duì)蕊兩端換成同型號(hào)后,并換掉光跳線再次測試還是光太弱,也換過新端口都無法使這一路光模塊亮起。
筆者在核心機(jī)房正好看到以前2蕊備用蕊是在清理8606所在機(jī)房時(shí)清理出來并標(biāo)記的,通過紅光測試后發(fā)現(xiàn)是通的,就臨時(shí)在地板上接光跳線到核心交換機(jī)上,在8605E上對(duì)應(yīng)的這條備用線路所接的端口上光模塊燈亮了,在核心交換機(jī)上可以Ping通8605E。
因機(jī)柜空間充足,筆者把8605E放在8606上面,開始換線路,將原來的接口地址換到聚合端口上,8605E與核心交換機(jī)設(shè)備間Ping通了,Ping出口設(shè)備也是通的。但當(dāng)用筆記本接到8605E上一個(gè)電口卻網(wǎng)絡(luò)不通,檢查配置是正確的,而檢查8605E發(fā)現(xiàn)最早接通的上聯(lián)端口是shutdown的,原因未知。
筆者馬上將其打開,再測試筆記本電腦的網(wǎng)絡(luò)通了,可通過筆記本電腦連接遠(yuǎn)程服務(wù)器打開非常慢,基本不可能在遠(yuǎn)程服務(wù)器上面操作。通過檢查8605E的配置是正常的,各接口地址都正常,接線也都按標(biāo)記接好且各端口都是UP的,到7棟樓的交換機(jī)都能ping通。到故障用戶所在的交換機(jī)上查看都正常,8605E的上聯(lián)聚合口是通的,2個(gè)物理口都是UP的,聚合口接口數(shù)據(jù)也有,再檢查發(fā)現(xiàn)8605E上面顯示有“aggregateport load-balance src-dst-ipl4port”,馬上將其刪除,再次連接遠(yuǎn)程服務(wù)器,非??焖俅蜷_了。
但還是有用戶顯示有故障問題,主要集中在A樓的用戶無法認(rèn)證,或認(rèn)證后網(wǎng)絡(luò)不通。筆者登錄A樓的交換機(jī)檢查發(fā)現(xiàn)都正常,但發(fā)現(xiàn)A樓交換機(jī)上Ping核心交換機(jī)不通。因此筆者準(zhǔn)備回核心機(jī)房查找原因,同時(shí)把原來接8606的上聯(lián)線也接到8605E上。
筆者到核心機(jī)房查看發(fā)現(xiàn)故障較多的A樓交換機(jī)全不在線,而在8605E所在機(jī)房時(shí)卻可以遠(yuǎn)程登錄A樓的交換機(jī)。于是筆者將核心交換機(jī)和8605E交換機(jī)遠(yuǎn)程重啟,之后發(fā)現(xiàn)A棟樓的交換機(jī)在線,而B、C、D棟樓的交換機(jī)不在線,故障范圍擴(kuò)大了。
通過查看路由發(fā)現(xiàn),策略路由到B、C、D棟不通。由于以前發(fā)生過配置接口地址時(shí)子網(wǎng)掩碼兩端并不一樣造成OSPF路由無法啟用的故障,于是筆者檢查8605E,與A棟對(duì)比,并與以前A、B、C、D棟交換機(jī)配置備份對(duì)比,都是正常的,配置正常,下面的交換機(jī)是正常的,8605E配置正常,故障應(yīng)在核心交換機(jī)上。
再檢查核心交換機(jī),筆者發(fā)現(xiàn)后來接的備用線路的端口沒有配置聚合組號(hào),可能是前面為測試光路轉(zhuǎn)換光模塊光跳線時(shí)也換過新端口,且接線時(shí)使用了新端口。筆者馬上將這個(gè)Up接以前備用線的端口改成聚合端口,再檢查OSPF路由B、C、D棟樓IP在線,檢查B、C、D棟樓的交換機(jī)都是通的且可以遠(yuǎn)程登錄了。再次認(rèn)證服務(wù)器上7棟樓的用戶IP都存在,在出口上可以看到7棟樓的IP流量,至此故障全部解決。最后在核心交換機(jī)上將原來接8606的線路也換到萬兆光口,并把端口做聚合,這樣8605E有三條萬兆線路與核心交換機(jī)相連。
此次更換用戶的匯聚交換機(jī),遇到部分用戶斷網(wǎng)現(xiàn)象,實(shí)際是因端口聚合引發(fā)的。首先是核心交換機(jī)因?yàn)楣饴焚|(zhì)量的原因換過端口,而以前備用線路接的端口并不在聚合組內(nèi),從而造成從8605E傳輸來的部分?jǐn)?shù)據(jù)進(jìn)入核心交換機(jī)后無法進(jìn)入聚合組內(nèi)。其次是新?lián)Q上的8605E不明原因使聚合組內(nèi)一個(gè)物理端口關(guān)閉,在經(jīng)發(fā)現(xiàn)后立即打開。再次是因?yàn)樾聯(lián)Q上的8605E上面的aggregateport loadbalance src-dst-ip-l4port負(fù)載勻衡問題,核心交換機(jī)實(shí)際只有一個(gè)端口能傳輸數(shù)據(jù),另一端口因不在聚合組內(nèi)而無法傳輸,在取消這個(gè)負(fù)載勻衡后網(wǎng)絡(luò)通了一部分。最后是檢查路由不通,就花時(shí)間檢查路由相關(guān)配置,沒有注意到聚合組內(nèi)每個(gè)端口的配置。因此以后一定要注意聚合端口組每個(gè)物理端口配置要保持一致,同時(shí)要注意每個(gè)物理端口的狀態(tài)。另外在跳接光路時(shí)最好在兩端同時(shí)用光功率計(jì)測試,接通時(shí)先用紅光通過后再測光功率,兩端的光模塊盡量一致。