單位同事因?yàn)楣ぷ髟?,每個(gè)年度都會(huì)互相搬遷一次辦公室位置。正常情況下,同事辦公室的更換,無(wú)非就是缺一條網(wǎng)線或者網(wǎng)線不夠長(zhǎng)之類的小問(wèn)題。
但是,今年在換辦公室期間的某天中午,突然出現(xiàn)網(wǎng)絡(luò)癱瘓,具體表現(xiàn)為:辦公VLAN內(nèi)的客戶端與二級(jí)交換機(jī)和核心交換機(jī)的網(wǎng)關(guān)無(wú)法通訊,大部分其他的VLAN也同時(shí)斷線,如機(jī)房的VLAN下客戶機(jī)Ping二級(jí)交換機(jī)和核心交換機(jī),都是time out。僅有一個(gè)所有物理端口都在核心交換機(jī)上的VLAN未受影響,該VLAN是給服務(wù)器用的。
在這種情況下,只有連接在核心交換機(jī)上的那些服務(wù)器網(wǎng)絡(luò)是通的,其他的二級(jí)交換機(jī)以及客戶端都無(wú)法通信了,基本上宣告整個(gè)網(wǎng)絡(luò)癱瘓。
初看整個(gè)網(wǎng)絡(luò)癱瘓,似乎無(wú)從著手,冷靜下來(lái)一想,既然網(wǎng)絡(luò)都是匯聚到核心交換機(jī)而且直連到核心交換機(jī)的服務(wù)器是通信正常的,那就可以從核心交換機(jī)s8610入手。于是,通過(guò)服務(wù)器上的telnet程序進(jìn)入核心交換機(jī),利用Ping命令測(cè)試它與二級(jí)交換機(jī)以及各VLAN網(wǎng)關(guān)的通信情況,發(fā)現(xiàn)核心交換機(jī)與二級(jí)交換機(jī)都不通,與VLAN網(wǎng)關(guān)通信很差。
這 時(shí),在telnet終 端上不斷跳出類似NFPP_ARP_GRARD DOS-DETECTED 以及DOS-ATTACKED的提示信息,所有的提示信息都指向核心交換機(jī)上的一個(gè)光纖端口,而這條光纖連接的是某一幢辦公樓的二級(jí)交換機(jī)。通過(guò)核心交換機(jī)由于網(wǎng)絡(luò)問(wèn)題已經(jīng)沒(méi)法與這幢辦公樓的二級(jí)交換機(jī)通信,當(dāng)然也無(wú)法用telnet登錄了。
確定了可能出問(wèn)題的二級(jí)交換機(jī)位置后,趕赴該樓的分機(jī)房實(shí)地查看,那里二級(jí)交換機(jī)有5個(gè),接入方式是4臺(tái)二級(jí)交換機(jī)接入到一臺(tái)s5750交換機(jī),然后由s5750交換機(jī)通過(guò)光纖連接核心交換機(jī)。于是,在現(xiàn)場(chǎng)直接用銳捷的通信線通過(guò)Console口連接該樓的二級(jí)匯聚用的交換機(jī)s5750,這時(shí)要用到Windows的超級(jí)終端,Windows 7系統(tǒng)里沒(méi)有的話,可以到網(wǎng)上下載一個(gè)用。選擇比特率9600,進(jìn)入交換機(jī)后,切換到Config模式還沒(méi)用命令查看,就已經(jīng)跳出提示信息(如圖1)。根據(jù)提示信息,gi0/4端口有問(wèn)題,查看物理連接后,發(fā)現(xiàn)該端口直連著一臺(tái)二級(jí)交換機(jī),這時(shí),范圍已經(jīng)縮小到具體的一臺(tái)二級(jí)交換機(jī)。
通過(guò)Console口進(jìn)入有問(wèn)題的二級(jí)交換機(jī)后,用enable命令提升權(quán)限,然后用命令show interface count summary看到各端口的數(shù)據(jù)統(tǒng)計(jì)信息(如圖2),發(fā)現(xiàn)端口7和10的多播和廣播數(shù)據(jù)特別巨大,而且多播數(shù)據(jù)是廣播數(shù)據(jù)的很多倍,基本可以確定是這兩個(gè)端口的廣播風(fēng)暴導(dǎo)致自己所在的VLAN網(wǎng)絡(luò)癱瘓。而且因?yàn)閿?shù)據(jù)過(guò)大,導(dǎo)致核心交換機(jī)擁堵,影響其他VLAN的通信。
在利用技術(shù)手段檢測(cè)的同時(shí),同步使用物理斷線的方式來(lái)判斷分析的正確性并及時(shí)緩解網(wǎng)絡(luò)擁堵問(wèn)題。首先在檢測(cè)出可能出問(wèn)題的核心交換機(jī)上的光纖端口后,先把該端口的光纖拔掉,一來(lái)可以快速驗(yàn)證核心交換機(jī)和其他二級(jí)交換機(jī)的通信狀況是否好轉(zhuǎn),二來(lái)可以緩解網(wǎng)絡(luò)擁堵的問(wèn)題,斷開(kāi)一路,先讓其他的網(wǎng)絡(luò)暢通。
圖1 二級(jí)匯聚交換機(jī)中的警告信息
圖2 二級(jí)交換機(jī)的端口數(shù)據(jù)信息
在找到二級(jí)交換機(jī)上可能有問(wèn)題的端口的時(shí)候,也是先把這兩個(gè)端口連接的網(wǎng)線拔掉,然后在這臺(tái)二級(jí)交換機(jī)上接一臺(tái)筆記本,設(shè)置成與它同一網(wǎng)段,測(cè)試通信是否正常。這樣就可以及時(shí)驗(yàn)證分析的正確性。
通過(guò)上述分析,已經(jīng)確定問(wèn)題出在某個(gè)二級(jí)交換機(jī)上的兩個(gè)端口,在拔掉這兩個(gè)端口網(wǎng)線的前提下,將核心交換機(jī)上分析時(shí)拔掉的光纖接上。這時(shí),通過(guò)telnet登錄核心交換機(jī),測(cè)試它與各VLAN網(wǎng)關(guān)的通信,都正常了。
至此,大部分二級(jí)交換機(jī)與核心交換機(jī)的通信都恢復(fù)了,但是發(fā)現(xiàn)一個(gè)機(jī)房的二級(jí)交換機(jī)與核心交換機(jī)上的VLAN網(wǎng)關(guān)不通,但核心交換機(jī)已經(jīng)沒(méi)有擁堵,Ping各VLAN網(wǎng)關(guān)都是通的。后來(lái),通過(guò)重啟機(jī)房二級(jí)交換機(jī),一切恢復(fù)正常。
通過(guò)查端口分配表以及實(shí)地查看,最后發(fā)現(xiàn)出問(wèn)題的二級(jí)交換機(jī)上的兩個(gè)端口處于同一個(gè)辦公室的墻上相鄰位置,那個(gè)辦公室的老師在接電腦的過(guò)程中,沒(méi)注意,把一條網(wǎng)線的兩頭分別插入了墻上的兩個(gè)口,導(dǎo)致網(wǎng)絡(luò)廣播風(fēng)暴,引起網(wǎng)絡(luò)癱瘓。
網(wǎng)絡(luò)癱瘓是網(wǎng)管工作中經(jīng)常會(huì)遇到的問(wèn)題,有多種的可能性,經(jīng)過(guò)這次事件,對(duì)于解決這類問(wèn)題,有以下感悟。
在網(wǎng)絡(luò)癱瘓的時(shí)候,作為管理人員應(yīng)該沉著冷靜,找準(zhǔn)切入點(diǎn),一般可以從核心上查起,逐層深入。用好交換機(jī)提供的命令,如查看端口的數(shù)據(jù)包統(tǒng)計(jì)信息等。必要時(shí),用簡(jiǎn)單的插拔線路的方式來(lái)驗(yàn)證自己的判斷,這里沒(méi)有用命令的方式來(lái)開(kāi)關(guān)端口,一來(lái)插拔比較方便,二來(lái)當(dāng)問(wèn)題解決后直接插上網(wǎng)線或光纖即可,不用再次登錄交換機(jī)操作。
當(dāng)問(wèn)題已經(jīng)排除,而網(wǎng)絡(luò)依舊有問(wèn)題的時(shí)候,尤其是二級(jí)交換機(jī)經(jīng)過(guò)網(wǎng)絡(luò)擁堵后(已經(jīng)解決了引起擁堵的問(wèn)題)一直網(wǎng)絡(luò)不通,可以嘗試重新啟動(dòng)。
網(wǎng)絡(luò)問(wèn)題大部分是人為原因造成的,要注重使用人員的安全培訓(xùn),包括不亂接線路、不私接路由器、注意電腦病毒防護(hù)、系統(tǒng)補(bǔ)丁安裝等。
如果資金允許的話,還是應(yīng)該配專業(yè)的網(wǎng)管軟件,這樣在軟件系統(tǒng)里就可以發(fā)現(xiàn)問(wèn)題所在,并及時(shí)處理,省去了一層層去排查的時(shí)間。