張文勛
(中國移動(dòng)通信集團(tuán)山西有限公司,太原 030009)
隨著通信網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大和運(yùn)營商之間的競爭格局加劇,網(wǎng)絡(luò)通信質(zhì)量和網(wǎng)絡(luò)可靠性成為市場競爭中非常關(guān)鍵的環(huán)節(jié)。網(wǎng)絡(luò)維護(hù)工作重點(diǎn)要求從“面向網(wǎng)絡(luò)”轉(zhuǎn)化為“面向用戶”。基礎(chǔ)維護(hù)工作要從用戶業(yè)務(wù)感知出發(fā),針對故障處理應(yīng)提前于客戶發(fā)現(xiàn)問題,快速、準(zhǔn)確定位故障原因,及時(shí)、有效解決問題。但與此同時(shí),由于3G業(yè)務(wù)的快速發(fā)展,使得PS域網(wǎng)絡(luò)規(guī)模擴(kuò)大,網(wǎng)絡(luò)拓?fù)渥兊脧?fù)雜、系統(tǒng)設(shè)備不斷增加,采用傳統(tǒng)的故障定位方法工作量大,效率較低,已無法滿足維護(hù)要求。本文針對目前維護(hù)現(xiàn)狀,研究了一種基于PS域的縱向推進(jìn)式故障診斷系統(tǒng),并應(yīng)用于某移動(dòng)數(shù)據(jù)業(yè)務(wù)網(wǎng),取得了良好效果,提高了系統(tǒng)維護(hù)人員故障處理效率。
傳統(tǒng)的故障定位方法主要采用網(wǎng)管系統(tǒng)監(jiān)測,日志采集,報(bào)表查看,抓包分析,業(yè)務(wù)撥測等手段,存在一定缺陷,具體如下。
(1)數(shù)據(jù)核心網(wǎng)網(wǎng)絡(luò)拓?fù)鋸?fù)雜,設(shè)備間耦合度較高,一個(gè)設(shè)備故障后,周邊關(guān)聯(lián)設(shè)備也會(huì)同時(shí)發(fā)生告警,網(wǎng)管系統(tǒng)將會(huì)出現(xiàn)較大范圍的告警,極大干擾維護(hù)人員的判斷,影響故障定位的準(zhǔn)確性、及時(shí)性;
(2)目前日志采集、報(bào)表查看、抓包分析需要人工操作,維護(hù)人員為確保分析數(shù)據(jù)的完備性,需要大范圍采集數(shù)據(jù),這將增加故障定位時(shí)間和難度;
(3)傳統(tǒng)的業(yè)務(wù)撥測只能進(jìn)行數(shù)據(jù)業(yè)務(wù)的可用性監(jiān)測,無法準(zhǔn)確定位故障源。另外,業(yè)務(wù)撥測需占用過多無線資源,測量準(zhǔn)確性受無線網(wǎng)絡(luò)和終端因素影響較大,撥測速度慢、強(qiáng)度低;
(4)傳統(tǒng)的故障定位人工參與較多,極大增加了維護(hù)人員的工作量,降低了故障處理效率;
(5)傳統(tǒng)的故障處理均為事后處理,不能提前于客戶感知發(fā)現(xiàn)問題,及時(shí)排除隱患。
1.2.1 系統(tǒng)概述
該系統(tǒng)將動(dòng)態(tài)仿真、縱向推進(jìn)式故障定位、智能故障診斷、話單分析等技術(shù)有機(jī)結(jié)合,實(shí)現(xiàn)對數(shù)據(jù)核心網(wǎng)網(wǎng)絡(luò)質(zhì)量的主動(dòng)監(jiān)測,實(shí)現(xiàn)對故障及故障隱患的快速、準(zhǔn)確、智能定位。
系統(tǒng)主要分為數(shù)據(jù)庫、話單分析、故障診斷、任務(wù)管理、故障告警、故障定位、仿真撥測七大模塊組成,如圖1所示。
圖1 系統(tǒng)功能模塊圖
數(shù)據(jù)庫用于存儲(chǔ)話單數(shù)據(jù)、仿真撥測任務(wù)列表、故障診斷經(jīng)驗(yàn)等數(shù)據(jù)。
話單分析模塊主要實(shí)現(xiàn)話單解析,統(tǒng)計(jì)入庫,向故障診斷模塊發(fā)起網(wǎng)元故障診斷請求。
故障診斷模塊主要完成:
(1)故障網(wǎng)元診斷,根據(jù)話單分析提供的故障網(wǎng)元信息,向數(shù)據(jù)庫提取故障診斷經(jīng)驗(yàn),并向任務(wù)管理模塊發(fā)起故障診斷任務(wù);
(2)根據(jù)故障定位模塊返回信息判斷故障原因,并向故障告警模塊發(fā)出告警請求。
任務(wù)管理模塊主要完成向仿真撥測模塊下發(fā)業(yè)務(wù)測試任務(wù)和故障診斷任務(wù)。
故障告警模塊輸出故障網(wǎng)元的告警信息。
故障定位模塊主要完成:
(1)采集各撥測設(shè)備話單;
(2)針對話單錯(cuò)誤碼,采用縱向推進(jìn)式排查方法定位故障網(wǎng)元;
(3)采集故障網(wǎng)元診斷結(jié)果,反饋故障診斷模塊。
仿真撥測模塊包括仿真PCU/RNC、仿真SGSN、仿真GGSN以及仿真WAP網(wǎng)關(guān)設(shè)備,主要完成:
(1)業(yè)務(wù)仿真撥測并生成系統(tǒng)話單;
(2)故障網(wǎng)元診斷測試。
1.2.2 智能故障診斷方法
智能故障診斷方法主要從數(shù)據(jù)庫獲取專家診斷方法,采用故障檢測方法(如附著、激活、radius鑒權(quán)、網(wǎng)絡(luò)連通性等)定位故障網(wǎng)元的具體故障信息。
1.2.3 縱向推進(jìn)式故障診斷方法
定義:仿真PCU/RNC測試結(jié)果為RNC/PCU(i,task[j])=True or False,其中RNC/PCU為仿真測試方法,i為測試網(wǎng)元序號(hào),如:SGSN1 SGSN2, SGSN3,…SGSNm,task[j]為測試項(xiàng),如task[0], task[1], task[2], …task[n],Ture為測試成功,F(xiàn)asle為測試失敗。同理,仿真SGSN測試為SGSN(i,task[j])=True or False;仿真GGSN測試為GGSN(i,task[j])=True or False;仿真WAP網(wǎng)關(guān)測試為WAPGW(i,task[j])=True or False。
當(dāng)仿真網(wǎng)元測試結(jié)果出現(xiàn)False時(shí),啟動(dòng)縱向推進(jìn)式分析法排查故障網(wǎng)元,然后針對定位網(wǎng)元進(jìn)行故障診斷,確定具體設(shè)備故障信息。具體方法如下。
步驟1:獲取仿真WAP網(wǎng)關(guān)測試結(jié)果WAPGW(i,task[j]),結(jié)果為True進(jìn)入步驟2,否則定位故障網(wǎng)元為SPi,通過智能故障診斷方法進(jìn)行SP網(wǎng)元故障診斷,并將診斷結(jié)果通過故障告警模塊輸出,如圖2所示。
步驟2:獲取仿真GGSN測試結(jié)果GGSN(i,task[j]),結(jié)果為True進(jìn)入步驟3,否則定位故障網(wǎng)元為WAPGWi,通過智能故障診斷方法進(jìn)行WAPGWi網(wǎng)元故障診斷,并將診斷結(jié)果通過故障告警模塊輸出。如圖2所示。
步驟3:獲取仿真SGSN測試結(jié)果SGSN (i,task[j]),結(jié)果為True進(jìn)入步驟4,否則定位故障網(wǎng)元為GGSNi,通過智能故障診斷方法進(jìn)行GGSNi網(wǎng)元故障診斷,并將診斷結(jié)果通過故障告警模塊輸出。如圖2所示。
步驟4:獲取仿真PCU/RNC測試結(jié)果PCU/RNC(i,task[j]),結(jié)果為True則結(jié)束,否則定位故障網(wǎng)元為SGSNi,通過智能故障診斷方法進(jìn)行SGSNi網(wǎng)元故障診斷,并將診斷結(jié)果通過故障告警模塊輸出,如圖2所示。
圖2 縱向推進(jìn)式故障診斷方法
目前,該系統(tǒng)已應(yīng)用于某移動(dòng)公司數(shù)據(jù)核心網(wǎng),共計(jì)60多臺(tái)設(shè)備實(shí)現(xiàn)與該系統(tǒng)的對接,已下達(dá)測試任務(wù)1000多項(xiàng),總測試數(shù)達(dá)18000余條。測試中共發(fā)現(xiàn)核心網(wǎng)故障及隱患15起。在“數(shù)據(jù)產(chǎn)品質(zhì)量提升”活動(dòng)中,利用該系統(tǒng)發(fā)現(xiàn)并解決多起SGSN、GGSN、WAP、MMSC網(wǎng)元設(shè)備缺陷及故障,有效提高了各項(xiàng)考核指標(biāo)。根據(jù)實(shí)際應(yīng)用情況,系統(tǒng)具有以下特點(diǎn)。
系統(tǒng)測試流程完全在核心網(wǎng)中流轉(zhuǎn),可以實(shí)現(xiàn)24h不間斷測試,并發(fā)任務(wù)可達(dá)300條,測試頻度大,測試速度快,極好地保證了業(yè)務(wù)實(shí)時(shí)監(jiān)測,確保故障及時(shí)發(fā)現(xiàn)。表1為系統(tǒng)測試與傳統(tǒng)測試方法的效率對比。
系統(tǒng)上線至今及時(shí)發(fā)現(xiàn)WAP網(wǎng)關(guān)RADIUS服務(wù)器異常、SNSN設(shè)備單板異常、WAP網(wǎng)關(guān)防火墻缺陷等隱患15起,使維護(hù)人員提早排除故障隱患,避免引發(fā)用戶投訴,極大提高了維護(hù)人員的故障處理及時(shí)率,提高了網(wǎng)絡(luò)維護(hù)質(zhì)量,提升了客戶滿意度。下面以某公司W(wǎng)AP網(wǎng)關(guān)RADIUS服務(wù)器異常故障舉例說明。
表1 傳統(tǒng)測試與系統(tǒng)測試效率對比
故障現(xiàn)象:登陸夢網(wǎng)首頁時(shí)延較大,出現(xiàn)訪問頁面失敗情況。
故障診斷:采用縱向推進(jìn)式排查方法,定位某公司W(wǎng)AP網(wǎng)關(guān)為故障網(wǎng)元。通過仿真GGSN進(jìn)行RADIUS鑒權(quán)、Pull業(yè)務(wù)測試、網(wǎng)絡(luò)連通性測試,交叉分析定位為某公司W(wǎng)AP網(wǎng)關(guān)RADIUS服務(wù)器異常。如圖3所示。
診斷效果:由于該系統(tǒng)是基于業(yè)務(wù)感知的故障診斷系統(tǒng),在RADIUS服務(wù)器性能異常時(shí)及時(shí)、準(zhǔn)確發(fā)出告警,使維護(hù)人員盡早地排除故障隱患,避免了業(yè)務(wù)受損,此次故障未造成一起投訴,故障處理實(shí)現(xiàn)了提前發(fā)現(xiàn),及時(shí)處理,避免用戶投訴,提升客戶感知的效果。
圖3 某公司W(wǎng)AP網(wǎng)關(guān)故障定位圖
該系統(tǒng)實(shí)現(xiàn)多業(yè)務(wù)、高頻次、并發(fā)式自動(dòng)撥測,并對核心網(wǎng)元進(jìn)行實(shí)時(shí)主動(dòng)監(jiān)測,對于測試中發(fā)現(xiàn)的各種問題能夠自動(dòng)、快速、及時(shí)、有效的定位原因,并發(fā)出告警,無需人工參與,極大地減輕了維護(hù)人員的工作量,提高了維護(hù)效率。
本文針對當(dāng)前維護(hù)質(zhì)量要求提高,傳統(tǒng)故障定位手段效率低下的情況,研究了一種基于PS域的縱向推進(jìn)式故障診斷系統(tǒng),通過對該系統(tǒng)功能結(jié)構(gòu),運(yùn)行機(jī)制的論述,以及系統(tǒng)應(yīng)用情況及運(yùn)行效果的分析,說明了系統(tǒng)在故障診斷方面及時(shí)性,準(zhǔn)確性、智能性的特點(diǎn),能夠有效規(guī)避了傳統(tǒng)方法的各種缺陷,成為維護(hù)人員故障診斷的重要支撐工具。
[1] 中國移動(dòng)通信集團(tuán).移動(dòng)業(yè)務(wù)監(jiān)測系統(tǒng)開發(fā)需求規(guī)范[S].2010.
[2] 李世鶴.TD-SCDMA第三代移動(dòng)通信系統(tǒng)標(biāo)準(zhǔn)(第二版)[M].北京:人民郵電出版社,2003.
[2] 中國移動(dòng)通信集團(tuán).WAP網(wǎng)關(guān)接口規(guī)范[S].2008,4.
[3] 中國移動(dòng)通信集團(tuán).標(biāo)準(zhǔn)WAP網(wǎng)關(guān)設(shè)備規(guī)范[S].2008,5.
[4] 中國移動(dòng)通信集團(tuán).中國移動(dòng)TD-SCDMA系統(tǒng)核心網(wǎng)分組域設(shè)備規(guī)范-SGSN分冊[S].2007,6.
[5] 中國移動(dòng)通信集團(tuán).中國移動(dòng)TD-SCDMA系統(tǒng)核心網(wǎng)分組域設(shè)備規(guī)范-GGSN分冊[S].2007,6.