某大型集團召開全集團安全大會,全部子公司參加,在會議期間視頻會議系統(tǒng)出現(xiàn)異常中斷,大屏黑屏,所有分子公司全部掉線,造成會議中斷十余分鐘。影響非常嚴(yán)重,本次視頻故障升級為網(wǎng)絡(luò)事故級別。集團領(lǐng)導(dǎo)非常重視本次問題,要求信息中心在一天內(nèi)找到故障根源。
網(wǎng)絡(luò)管理人員在問題發(fā)生后,第一時間聯(lián)系視頻廠家工程師、網(wǎng)絡(luò)工程師,組織進(jìn)行排查工作。
● 詳細(xì)排查網(wǎng)絡(luò)狀態(tài),沒有發(fā)現(xiàn)任何告警信息及異常情況。
● 進(jìn)行長時間模擬測試,未能總結(jié)問題規(guī)律。
● 更換三臺正常使用的MCU設(shè)備,依舊不定時出現(xiàn)視頻中斷現(xiàn)象。
由于故障不定時出現(xiàn),排查難度大,未能在一天內(nèi)找到問題原因。
故障發(fā)生后第二天上午,聯(lián)系科來廠家進(jìn)行技術(shù)支持,工程師在三臺MCU上聯(lián)的3560交換機上部署科來網(wǎng)絡(luò)回溯分析系統(tǒng),采集3560交換機上聯(lián)6509交換機鏈路和下聯(lián)3條MCU的鏈路。
科來網(wǎng)絡(luò)回溯分析系統(tǒng)能夠長期保存原始通訊數(shù)據(jù),可以對瞬時、不定時發(fā)生的疑難故障進(jìn)行深入到數(shù)據(jù)包級的分析。我們定位到問題發(fā)生時段,進(jìn)行如下分析:
在3560交換機上聯(lián)接口進(jìn)行抓包分析,發(fā)現(xiàn)快速問題發(fā)生時段出現(xiàn)的流量異常,如圖1所示。
圖1 問題時段3560交換機上聯(lián)鏈路趨勢及參數(shù)
在3560交換機上聯(lián)鏈路追蹤問題的數(shù)據(jù),發(fā)現(xiàn)問題時段只有視頻終端向MCU發(fā)送的數(shù)據(jù)包,沒有收到MCU任何的回應(yīng)數(shù)據(jù)包。
同時,我們在3560交換機下聯(lián)接口進(jìn)行對比分析,同樣發(fā)現(xiàn)了流量異常現(xiàn)象,如圖2所示。
圖2 問題時段3560交換機下聯(lián)鏈路趨勢及參數(shù)
通過上述分析不難看出,在故障發(fā)生時,MCU能夠向3560交換機發(fā)送數(shù)據(jù)包,但收不到3560交換機的回應(yīng)數(shù)據(jù)包;6509交換機能向3560交換機正常發(fā)送數(shù)據(jù)包,但收不到3560交換機的回應(yīng)數(shù)據(jù)包(如圖3)。
圖3 問題分析
可判斷出問題發(fā)生時3560交換機出現(xiàn)只接收數(shù)據(jù)包,不發(fā)送數(shù)據(jù)包的情況,造成短時間內(nèi)不能正常轉(zhuǎn)發(fā)數(shù)據(jù)。懷疑3560交換機出現(xiàn)不轉(zhuǎn)發(fā)數(shù)據(jù)造成本次視頻閃斷問題。
通過科來回溯分析系統(tǒng)對故障進(jìn)行分析,半小時內(nèi)定位問題根源為3560交換機出現(xiàn)不轉(zhuǎn)發(fā)問題,網(wǎng)絡(luò)工程師于中午休息時段更換全部相關(guān)交換機接口光模塊,視頻系統(tǒng)再沒有出現(xiàn)故障。
科來網(wǎng)絡(luò)回溯分析系統(tǒng)能夠?qū)σ曨l流量進(jìn)行實時抓取、長期保存、精細(xì)分析,捕獲完整故障數(shù)據(jù),幫助用戶快速處理網(wǎng)絡(luò)及應(yīng)用的疑難故障,解決了網(wǎng)絡(luò)、視頻管理人員的燃眉之急,獲得了領(lǐng)導(dǎo)的認(rèn)可。