引言:在網(wǎng)絡(luò)管理工作中,經(jīng)常遇上一些莫名其妙的“軟故障”,這些故障并非由于硬件所引起, 而是由于病毒、木馬、用戶誤操作所導(dǎo)致,這類故障通常需要結(jié)合多類數(shù)據(jù)分析來定位其源頭進(jìn)行解決。本文介紹了一個由于用戶誤操作所導(dǎo)致的網(wǎng)絡(luò)故障以及解決辦法,希望給各位同行解決此類問題帶來啟發(fā)。
突發(fā)性的網(wǎng)絡(luò)故障往往令網(wǎng)絡(luò)管理人員措手不及,需要在最短的時間內(nèi)解決故障,恢復(fù)業(yè)務(wù)運(yùn)轉(zhuǎn),這也是網(wǎng)絡(luò)管理人員的價值所在。以往的網(wǎng)絡(luò)故障很多都是由于硬件故障引起的,因此找到故障設(shè)備進(jìn)行更換即可,我們稱之為“硬故障”。這種故障解決相對簡單,通過對各類網(wǎng)絡(luò)設(shè)備的狀態(tài)監(jiān)控即可進(jìn)行故障定位。
隨著硬件工藝水平的提高及容災(zāi)技術(shù)的發(fā)展,發(fā)生“硬故障”的概率越來越低。但是由于病毒、木馬、ARP攻擊、用戶誤操作等一系列原因?qū)е碌木W(wǎng)絡(luò)故障比例大幅增加,我們稱之為“軟故障”。解決軟故障比解決硬故障更加困難,如果沒有豐富的網(wǎng)絡(luò)維護(hù)經(jīng)驗,僅憑網(wǎng)絡(luò)設(shè)備狀態(tài)監(jiān)控系統(tǒng),是很難定位軟故障源頭的。如果定位不了故障源頭,一方面難以解決故障,另一方面也無法向上級領(lǐng)導(dǎo)提供準(zhǔn)確的故障報告及相關(guān)建議,難以徹底杜絕此類網(wǎng)絡(luò)故障的發(fā)生。所以,解決軟故障的能力很大程度上反映了網(wǎng)絡(luò)管理人員的水平。
筆者所在單位不久前發(fā)生過一起網(wǎng)絡(luò)故障,這次故障牽涉范圍很廣,對業(yè)務(wù)的影響也比較大。但是,筆者最終在較短時間內(nèi)找到了故障源頭,及時解決了問題。同時,也提交了詳細(xì)的故障報。下面將對該起網(wǎng)絡(luò)故障進(jìn)行詳細(xì)介紹。
筆者所在單位是在CBD大樓辦公,各個業(yè)務(wù)及職能部門分布在不同的樓層,中心機(jī)房設(shè)置在5樓,每個樓層會有一個網(wǎng)絡(luò)設(shè)備間用于放置接入交換機(jī)及相關(guān)配線架,然后通過綜合布線工程將各個樓層辦公室的辦公電腦接入網(wǎng)絡(luò)。每層網(wǎng)絡(luò)設(shè)備間的接入交換機(jī)與匯聚交換機(jī)通過光纖互聯(lián),匯聚交換機(jī)與核心交換機(jī)也通過光纖互聯(lián),這是一個典型的“核心-匯聚-接入”的三層網(wǎng)絡(luò)架構(gòu)。局域網(wǎng)內(nèi)服務(wù)器IP通過靜態(tài)方式分配,用戶電腦的IP則是由一臺Windows Server 2003 DHCP服務(wù)器自動分配。每個樓層都是一個獨(dú)立的網(wǎng)段,通過VLAN技術(shù)進(jìn)行劃分,交換機(jī)品牌全部為思科。
某工作日上午8:10左右,還沒有到上班時間,筆者接到用戶反映:6樓業(yè)務(wù)部門兩臺電腦無法上網(wǎng)。由于其他樓層的用戶上網(wǎng)均無異常,當(dāng)時筆者以為是病毒或者電腦自身問題所導(dǎo)致,就聯(lián)系了維護(hù)電腦終端的同事前去處理。10分鐘后,同事打來電話,說故障現(xiàn)象很奇怪,那兩臺故障電腦都進(jìn)行了重啟,一臺恢復(fù)正常,另一臺還是不能上網(wǎng),而且后續(xù)開機(jī)的電腦,也是一部分正常,另一部分不能上網(wǎng)。由于馬上就要到8:30上班時間,如果拖延時間太長,恐怕會影響業(yè)務(wù),引起用戶不滿。
筆者立即親自趕赴現(xiàn)場,在排除了硬件、病毒及網(wǎng)絡(luò)后臺相關(guān)的問題之后,發(fā)現(xiàn)故障主機(jī)通過DHCP獲得的IP都是192.168.1.0/24網(wǎng)段的地址,但是單位DHCP服務(wù)器統(tǒng)一分配的IP均是172.19.0.0/16網(wǎng)段的地址,而且分配的網(wǎng)關(guān)、DNS等其他參數(shù)也都不正確。如果為故障主機(jī)靜態(tài)指定一個正常IP,則該主機(jī)的網(wǎng)絡(luò)通信恢復(fù)正常。但是故障主機(jī)數(shù)量太多,不可能挨個手動指定IP。而且,故障源頭沒有找到,后續(xù)肯定還會出現(xiàn)問題,所以必須盡快找到故障源頭并加以解決。
故障現(xiàn)象初步分析,用戶無法上網(wǎng)的原因就是DHCP分配地址錯誤,但是之前已經(jīng)排查過單位的DHCP服務(wù)器,證明其運(yùn)行正常。考慮到故障僅僅發(fā)生在6樓業(yè)務(wù)部門這一個網(wǎng)段,這只能有一個解釋,就是該網(wǎng)段內(nèi)出現(xiàn)了另外一臺DHCP服務(wù)器。用戶主機(jī)在發(fā)出DHCP廣播請求時,兩臺DHCP服務(wù)器均會收到請求包并給出響應(yīng),然后將相應(yīng)的DHCP配置下發(fā)給對應(yīng)的主機(jī),這時就會發(fā)生沖突,哪個響應(yīng)包先到達(dá)主機(jī),主機(jī)就會“采納”哪臺DHCP服務(wù)器下發(fā)的配置,就會出現(xiàn)上述同一網(wǎng)段IP地址不一致的現(xiàn)象。
如果主機(jī)獲得的不是單位DHCP服務(wù)器下發(fā)的配置,那么肯定無法上網(wǎng)。由于單位最近并無訪客接入內(nèi)網(wǎng),所以能夠排除惡意攻擊的可能,最有可能就是用戶無意的誤操作所導(dǎo)致的。只有找出這臺沖突的DHCP服務(wù)器,才能徹底解決問題。
看著故障主機(jī)DHCP分配的192.168.1.0/24網(wǎng)段的IP,筆者突然想起前期給各部門部署過一些TPLink無線路由器,這些無線路由器內(nèi)部分配的IP就是192.168.1.0/24這個網(wǎng)段,但是當(dāng)初部署時,從樓層交換機(jī)出來的主線接入的都是無線路由器的WAN口,這兩個網(wǎng)段應(yīng)該邏輯上已完全隔離,即使無線路由器上啟用DHCP服務(wù),也不會影響到172.19.0.0/16網(wǎng)段的主機(jī)。除非有人將WAN口的主線接到LAN口上,并且沒有關(guān)閉無線路由器自帶的DHCP服務(wù),這種情況下,無線路由器也會為局域網(wǎng)內(nèi)其他主機(jī)提供DHCP服務(wù),造成主機(jī)DHCP配置混亂,無法正常上網(wǎng)。
通過分析得出故障的原因后,下一步就必須找到“惹事”的無線路由器。由于6樓業(yè)務(wù)部門部署無線路由器范圍大,且數(shù)量較多,每個設(shè)備的物理位置也不能確定,挨個排查不現(xiàn)實,只能通過后臺數(shù)據(jù)來進(jìn)行分析, 最終定位目標(biāo)無線路由器。筆者所采用的步驟如下。
1.分析單位DHCP服務(wù)器IP分配數(shù)據(jù),定位該無線路由器所接入的交換機(jī)端口。如果主線接入了無線路由器的LAN口,并且接入該無線路由器的終端是從單位DHCP服務(wù)器獲取的IP,那么主線對應(yīng)的交換機(jī)端口很可能對應(yīng)多臺無線終端,只要找到端口和終端數(shù)是“一對多”的關(guān)系,那么該交換機(jī)端口接入的很可能就是目標(biāo)無線路由器。由于單位的DHCP服務(wù)器上都記錄了當(dāng)前的終端接入信息,可以通過主機(jī)名稱來區(qū)別是否為手機(jī)終端(如圖 1)。
從圖1可以看出,主機(jī)名中含有“android”字符的記錄應(yīng)該為android手機(jī)終端,這種命名方式是android系統(tǒng)所特有的。下面再通過交換機(jī)上的ARP表和MAC地址轉(zhuǎn)發(fā)表來確定這幾個手機(jī)終端是否都接入同一個交換機(jī)端口。由于DHCP服務(wù)器上已經(jīng)記錄了手機(jī)終端的MAC地址,所以可以通過“show macaddress address XXXX.XXXX.XXXX” 和“show cdp neighbor”命令最終獲取手機(jī)終端的接入端口,結(jié)果如下圖2和圖3所示。
從上圖2和圖3可知,這兩個手機(jī)終端均接入了同一臺交換機(jī)的Gi0/25口,可以確定從該交換機(jī)Gi0/25口接入的是目標(biāo)無線路由器。
圖1 手機(jī)終端DHCP記錄
圖2 接入端口示意圖1
圖3 接入端口示意圖2
2.定位該無線路由器的物理位置。通過步驟(1)找到目標(biāo)無線路由器所接入的端口后,我們就可以著手進(jìn)行處理。為了盡快恢復(fù)局域網(wǎng)的正常并找到目標(biāo)無線路由器的物理位置,筆者在交換機(jī)對應(yīng)端口上使用了“shutdown”命令,將該端口關(guān)閉,然后通知故障用戶重新啟動電腦,果不其然,所有主機(jī)立即恢復(fù)正常。
過了幾分鐘后,客服人員打來電話,說6樓某業(yè)務(wù)科室反映手機(jī)連接無線路由器無法上網(wǎng),經(jīng)過現(xiàn)場檢查,該科室內(nèi)無線路由器主線果然是接在LAN口上,經(jīng)核實,系昨天一位同事將筆記本帶來公司,但是該筆記本無線網(wǎng)卡是壞的,只能通過有線網(wǎng)絡(luò)上網(wǎng),于是順手將無線路由器上的WAN口主線拔下來臨時接在筆記本上使用,用完后就隨意插到了LAN口上,由于無線路由器的DHCP功能并沒有關(guān)閉,結(jié)果就導(dǎo)致了今天的網(wǎng)絡(luò)故障。
至此,此次網(wǎng)絡(luò)故障的源頭已經(jīng)找到。筆者將主線接回WAN口,并將交換機(jī)端口重新開啟,經(jīng)過測試,網(wǎng)絡(luò)恢復(fù)正常。
這次網(wǎng)絡(luò)故障屬于典型的由于用戶誤操作而引發(fā)的“軟故障”。由于故障源頭在較短時間內(nèi)找到,沒有嚴(yán)重影響業(yè)務(wù),在提交了故障說明后,領(lǐng)導(dǎo)并沒有追責(zé)。但是從這次故障可以看出,一個合格的網(wǎng)絡(luò)管理人員必須能在較短時間內(nèi)以清晰的思路去追溯故障源頭,特別是能夠充分利用網(wǎng)絡(luò)后臺相關(guān)數(shù)據(jù)進(jìn)行深度關(guān)聯(lián)分析,進(jìn)而解決問題。
隨著虛擬化、云計算、無線網(wǎng)絡(luò)等先進(jìn)技術(shù)在企業(yè)內(nèi)的推廣使用,傳統(tǒng)網(wǎng)絡(luò)架構(gòu)已經(jīng)發(fā)生了深度變革,這種變化將會引發(fā)更多“不可思議”的網(wǎng)絡(luò)問題,網(wǎng)絡(luò)管理人員必須要有充足的準(zhǔn)備去迎接挑戰(zhàn)。