引言:單位下屬站點機房搬遷,與總部的網(wǎng)絡(luò)連接關(guān)系保持不變,只是由本單位維護的2M線路改為租用電信公司的2M線路。這項工作并不復雜,只要將設(shè)備搬至目的機房安裝完畢,正確連接線路后,設(shè)備加電,網(wǎng)絡(luò)即可連通。然而,由于搬遷工作人多手雜,一點兒小小的疏忽,導致該站點與總部之間的網(wǎng)絡(luò)遲遲無法連通。本文介紹故障的排查過程。
我單位因為業(yè)務拓展需求,要搬遷其中一個下屬站點機房??偛颗c該站點之間的網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖1所示(為簡潔起見,未畫出兩個機房的光端機)。搬遷后,該站點與總部之間的網(wǎng)絡(luò)連接關(guān)系保持不變,只是原來由本單位維護的2M線路改為租用電信公司的2M線路。這就意味著,線路兩端的路由器不需要修改參數(shù)配置。這項工作并不復雜,設(shè)備搬至目的機房,正確連接后加電,網(wǎng)絡(luò)即可連通。
由于這項工作相對簡單,且工作量不大,起初沒有引起足夠的重視。新機房整治完畢,2M線路調(diào)通,搬遷工作開始。設(shè)備正確連接后加電,然而,網(wǎng)絡(luò)卻未能如愿連通。單位領(lǐng)導先后兩次派人排查未果。
圖1 網(wǎng)絡(luò)拓撲圖
圖2 總部機房2M線路打環(huán)示意圖
筆者帶領(lǐng)搶修小組,再次進行故障排查。首先通過Ping命令檢查總部局域網(wǎng)及外網(wǎng)之間的連通性,局域網(wǎng)內(nèi)部暢通;外網(wǎng)除該站點外均暢通。經(jīng)該站點工作人員檢查,此站點內(nèi)部局域網(wǎng)暢通,說明問題出在總部與該站點之間的網(wǎng)絡(luò)互連設(shè)備或線路上。
接下來,我們把排查重點放在網(wǎng)絡(luò)互連設(shè)備和線路上。登錄到總部路由器,檢查該站點對應端口的參數(shù)(包括網(wǎng)間網(wǎng)地址、封裝協(xié)議、以及路由協(xié)議等),未發(fā)現(xiàn)問題;在總部機房的2M配線架對應線路上打環(huán)(如圖2),在路由器輸入命令show ip interface serialX brief,顯示 :serialX is up,line protocol is up(looped)??偛繖C房2M配線架到路由器對應端口的線路形成環(huán)路,說明路由器對應的端口硬件無故障;2M配線架到路由器之間的線路也沒有問題。由此判斷故障不在總部機房。
總部機房2M配線架拆環(huán)恢復后,與該站點協(xié)同,在其2M配線架打環(huán)(如圖3),總部路由器仍然顯示形成環(huán)路,說明租用的2M線路及兩個機房的光端機工作正常。推斷故障部位應該在該站點2M配線架以內(nèi)。搶修小組決定到現(xiàn)場進行排查。
到達現(xiàn)場后,發(fā)現(xiàn)2M配線架對內(nèi)打環(huán)時,路由器LINK REM SYNC LOSS(E1遠端同步丟失告警)紅燈亮,說明并未形成環(huán)路。自此,斷定故障就在2M配線架與路由器之間的同軸線纜或本地路由器上。
我們先檢查了2M同軸線纜的四個接頭,焊點牢固并未發(fā)現(xiàn)異常。然后,把懷疑重點放在路由器上。反復檢查了路由器參數(shù),確認設(shè)置正確。是不是路由器硬件故障?更換備份路由器,重新配置參數(shù),故障仍未解決。此時,搶修小組有些茫然。
待冷靜下來,回顧了整個排查過程,可以確定總部路由器和光端機正常,租用電信公司的2M線路也沒有問題,該站點也更換了新的路由器。那么,故障可能就在該站點2M配線架到路由器之間的同軸線纜上。于是,在2M配線架對內(nèi)打環(huán)的情況下,用萬用表歐姆檔測量,發(fā)現(xiàn)同軸纜屏蔽網(wǎng)形成回路,但芯線開路。
從電纜槽中取出兩根同軸線纜仔細檢查,終于發(fā)現(xiàn)其中一根有一處被壓扁。剝開線纜,發(fā)現(xiàn)芯線已被壓斷,屏蔽網(wǎng)未被壓斷。我們推測,在機房搬遷過程中人多手雜,這根75-2細同軸線纜受到重物擠壓所致,而人們恰恰又沒有注意到這一點,為后續(xù)工作留下了隱患。重新制作了一根同軸線纜,連接后故障排除。
搶修小組在整個故障排查過程中,采用分段排查法,逐步將故障范圍縮小。通過打環(huán),將故障部位壓縮在該站點2M配線架以內(nèi)的線路或設(shè)備上。故障排查總體思路是對的,采取的排查方法也是恰當?shù)摹5?,在觀察到該站點對內(nèi)打環(huán),路由器LINK REM SYNC LOSS(E1遠端同步丟失告警)紅燈亮后,憑借慣性思維,覺得電纜中間不會出問題,檢查了線纜接頭后,轉(zhuǎn)去懷疑路由器,而與真正的故障點擦肩而過。
如果當時對同軸線纜認真排查,就會及早發(fā)現(xiàn)故障部位,縮短故障排查時間。值得慶幸的是,雖然走了一點彎路,但是經(jīng)過冷靜的思考后,終于定位了故障點,故障得以排除。
網(wǎng)絡(luò)連通性發(fā)生問題時,故障原因都不盡相同。但通常可歸納為三類原因引起,即:設(shè)備硬件故障、軟件參數(shù)設(shè)置故障、線路故障。遇到故障,不要慌亂,只要思路清晰、方法得當,就能快速定位并排除故障。
機房搬遷工作,頭緒多、人手雜。人們往往比較重視各類設(shè)備的安全,而忽視了線纜的安全。本案例告誡我們,在機房搬遷過程中線纜安全也同樣重要。