■ 山東 何鈺 張威
編者按:最近筆者單位的核心路由器子卡出現(xiàn)故障,導(dǎo)致大面積網(wǎng)絡(luò)故障。經(jīng)過排查最終找到了故障點,通過修復(fù)設(shè)備軟件版本故障得以排除。本文介紹故障的處理過程。
近日,網(wǎng)管平臺告警信息明顯增多,而且寬帶用戶報修網(wǎng)速明顯變慢的情況也呈現(xiàn)上升趨勢。
針對上述網(wǎng)絡(luò)現(xiàn)象。運維人員迅速做出反應(yīng)。首先對寬帶出口進(jìn)行ping以及trace。同時對市公司核心路由器的設(shè)備CPU、內(nèi)存、端口光功率以及流量突變值進(jìn)行查看均沒有發(fā)現(xiàn)問題。
然后鑒于該故障的出現(xiàn),我們對故障進(jìn)行了綜合分析,故障現(xiàn)象是瀏覽網(wǎng)頁時打不開,具體表現(xiàn)在鳳凰網(wǎng)、搜狐、新浪等網(wǎng)站,尤其是二級頁面問題突出。但是對網(wǎng)站進(jìn)行ping測試卻沒有發(fā)現(xiàn)丟包現(xiàn)象?;究梢耘懦尤雽右约皡R聚層網(wǎng)絡(luò)問題。
對故障現(xiàn)象進(jìn)行簡單分析和思路整理后,由于頁面有時打不開或者很慢,所以我們把故障點定位在DNS服務(wù)器。經(jīng)對DNS服務(wù)器排查,初步認(rèn)為是DNS服務(wù)器異常劫持出現(xiàn)問題。通過對單個電腦進(jìn)行DNS修改測試,依然沒有奏效。
為盡快找到故障點,分別對寬帶出口拋開我方設(shè)備進(jìn)行直接測試網(wǎng)絡(luò)正常。同時在流控上對上述出口測試也正常,這樣就將故障鎖定在核心路由器上,核心路由器和流控也是使用萬兆口連接,省公司互聯(lián)網(wǎng)總出口是80G,該通道采用8個萬兆口分別使用兩臺核心路由器連接,通過命令查看核心路由器-1上的xgei-0/10/0/2端口利用率為23%,要少于其他3個端口,而且該端口入方向錯誤包個數(shù)過多。發(fā)現(xiàn)端口異常后,初步斷定端口存在問題。決定通過更換端口的方式進(jìn)行故障解決。接下來將故障端口關(guān)閉,然后將該端口從聚合組中刪除,最后再將新的端口啟用并加入聚合端口來代替原有端口,具體的配置命令即:
Config t
//進(jìn)入配置模式
Interfacexgei-0/10/0/2
//進(jìn)入端口
Shutdown
//關(guān)閉端口
完成故障端口的關(guān)閉后,將該端口從聚合組中刪除。具體命令即:
Config
//進(jìn)入配置模式
Lacp
// 進(jìn)入LACP配置模式
interface xgei-0/10/0/2
//進(jìn)入端口
no smartgroup
//刪除聚合組中的故障成員端口
將故障端口從聚合組3中刪除后,下一步需要將新端口開啟強(qiáng)制,在開啟端口前需要查看設(shè)備空余萬兆端口,使用命令“show interface description”查看處于down的萬兆端口即可使用。這次我們準(zhǔn)備將空余的端口xgei-0/10/0/8加入聚合組使用。具體命令即:
interface xgei-0/10/0/8
//進(jìn)入端口
No shutdown
//端口使能
negotiationnegotiation-force
//端口強(qiáng)制協(xié)商
speed speed-10G
//定義端口速率
duplex duplex-full
//定義端口雙工模式
lacp
//進(jìn)入LACP配置模式
interface xgei-0/10/0/2
//進(jìn)入端口
smartgroup 3 mode on
//將端口加入聚合組3中
完成端口的更換后,再次對省公司出口進(jìn)行了測試,網(wǎng)速提升十分明顯。同時對使用省公司出口的互聯(lián)網(wǎng)用戶回訪業(yè)務(wù)恢復(fù)正常。這樣我們就完成整個故障的排除。
上面我們從得知故障現(xiàn)象后,根據(jù)互聯(lián)網(wǎng)影響的面積,對出口進(jìn)行ping和trace測試,并查看了核心設(shè)備的CPU、內(nèi)存以及設(shè)備告警信息后,然后將寬帶出口按照網(wǎng)絡(luò)結(jié)構(gòu)分層次測試,最終將故障定位在了核心路由器上。通過升級核心路由的子卡軟件達(dá)到了故障解決的目的。
該故障的發(fā)生定性為核心路由器的萬兆子卡出現(xiàn)問題引起的,故障的原因是核心路由器萬兆子卡內(nèi)部芯片出現(xiàn)偏差,然后我們在凌晨進(jìn)行了板卡軟件升級重啟,經(jīng)過測試原來故障的端口恢復(fù)正常。通過廠家工程師提供的故障報告該故障出現(xiàn)的幾率極小幾百萬分之一,雖然故障發(fā)生概率小,但是一旦發(fā)生影響面卻十分廣泛。為徹底杜絕此類故障的發(fā)生,我們對核心設(shè)備故障板卡進(jìn)行更換,并加強(qiáng)了設(shè)備的巡檢力度,從根本上降低設(shè)備的故障率。