近日,某小區(qū)用戶反映上網(wǎng)時常會中斷,中斷的時間大概在10分鐘左右。由于網(wǎng)絡(luò)中斷的時間比較短,故障現(xiàn)象不容易捕捉到,這給故障的排查帶來了困難。
按照故障現(xiàn)象,首先排查了該OLT連接BRAS的端口收發(fā)光功率和設(shè)備的配置均沒有問題。趕到現(xiàn)場,根據(jù)用戶ONU的MAC地址查找到了其所屬的OLT,然后使用ONU進行上網(wǎng)測試,一段時間后果然出現(xiàn)了上網(wǎng)故障,于是決定配置端口鏡像進行抓包分析。
抓包可以用來檢查網(wǎng)絡(luò)安全,也經(jīng)常用來進行數(shù)據(jù)截取等,達(dá)到數(shù)據(jù)分析的目的。本例故障需要對數(shù)據(jù)進行截獲。配置端口鏡像,端口鏡像功能通過在交換機或路由器上,將一個或多個源端口的數(shù)據(jù)流量轉(zhuǎn)發(fā)到某一個指定端口來實現(xiàn)對網(wǎng)絡(luò)的監(jiān)聽,在不嚴(yán)重影響源端口正常吞吐流量的情況下,通過鏡像端口對網(wǎng)絡(luò)的流量進行監(jiān)控分析。在網(wǎng)絡(luò)中用鏡像功能,可以很好地對內(nèi)部的網(wǎng)絡(luò)數(shù)據(jù)進行監(jiān)控管理,在網(wǎng)絡(luò)出故障的時候,可以快速定位故障。按照鏡像端口的定義,需要定義源端口和目的端口,針對此次網(wǎng)絡(luò)的具體情況,定義上聯(lián)口8/1為源端口,8/5為目的端口。接下來開始對端口進行鏡像配置,具體的配置命令如下:
通過上面的配置,定義了監(jiān)視端口是8/5,被監(jiān)視端口即源端口是8/1,端口8/1上聯(lián) BRAS,端口8/5連接抓包電腦。通過使用專業(yè)抓包工具發(fā)現(xiàn)許多黑底紅字的報文,該報文大多是TCP錯誤包或者校驗和錯誤的包,這說明數(shù)據(jù)在轉(zhuǎn)發(fā)過程中出現(xiàn)問題。出現(xiàn)這種報文的原因多半是網(wǎng)絡(luò)擁塞,導(dǎo)致順序包抵達(dá)時間不同,延時太長,或者包丟失,需要重新組合數(shù)據(jù)單元。這時候我們發(fā)現(xiàn)寬帶連接上網(wǎng)又?jǐn)嚅_了,而且上不去網(wǎng)的頻率逐漸增大。
上面通過抓包分析到網(wǎng)絡(luò)中出現(xiàn)擁塞,會不會是設(shè)備的處理能力存在不足的情況?根據(jù)這一假設(shè)我們登錄上OLT設(shè)備,分別使用命令show memory和show cpu-utilization查看內(nèi)存和CPU的內(nèi)存利用率,均沒有發(fā)現(xiàn)明顯異常情況。為了盡快解決問題,我們準(zhǔn)備在現(xiàn)場準(zhǔn)備一個測試機,然后采取逐個PON口斷開的辦法鎖定故障點。就在插拔第一個PON口的時候,發(fā)現(xiàn)設(shè)備的PON模塊很熱,使用命令show card-temperature對設(shè)備溫度進行查看,設(shè)備溫度顯示70度,很顯然設(shè)備溫度過高。
立即著手檢查設(shè)備,發(fā)現(xiàn)風(fēng)扇沒有正常工作,原因是連接風(fēng)扇的電源線處于斷開狀態(tài)。首先調(diào)整好風(fēng)扇電源線,然后對設(shè)備的濾網(wǎng)進行清理除塵。經(jīng)過一段時間的觀察,網(wǎng)絡(luò)恢復(fù)正常,同時查看設(shè)備溫度,顯示35攝氏度,這一數(shù)值已經(jīng)在正常的范圍內(nèi)。
上面我們從得知故障現(xiàn)象后,認(rèn)真收集了故障信息,然后采取了使用鏡像端口對數(shù)據(jù)抓包的方式進行問題分析,在得到故障原因是由于網(wǎng)絡(luò)擁塞引起,緊接著通過搭建測試環(huán)境,最終發(fā)現(xiàn)是設(shè)備溫度過熱,導(dǎo)致工作不正常,從而影響了正常上網(wǎng)數(shù)據(jù)的轉(zhuǎn)發(fā)。
這次故障的處理過程存在一定的僥幸心理,如果設(shè)備溫度一直保持或者持續(xù)升高,不但嚴(yán)重影響的寬帶用戶上網(wǎng)感受,而且會導(dǎo)致設(shè)備輕者宕機,重者整機物理損壞,帶來不可預(yù)料的后果。借鑒此次故障的處理我們舉一反三,對所有在網(wǎng)OLT的風(fēng)扇、包括其他硬件進行了一次排查,從而杜絕了此類事件的發(fā)生。