【摘 要】核心網(wǎng),顧名思義,是通信網(wǎng)絡(luò)中最重要的組成部分之一。核心網(wǎng)出現(xiàn)重大故障時(shí),往往會(huì)比其他專業(yè)出現(xiàn)故障所造成的影響要大得多。以筆者所在某沿海省份二級(jí)城市為例,一個(gè)BSC平均下帶10W用戶,如果出現(xiàn)倒局,后果是不堪設(shè)想的。因此,重大故障出現(xiàn)后,故障處理的及時(shí)性就顯得極為重要。本文就如何縮短故障發(fā)生到獲知所需故障信息的時(shí)間進(jìn)行討論。
【關(guān)鍵詞】核心網(wǎng)故障,監(jiān)測(cè),OPS
一、故障監(jiān)測(cè)現(xiàn)狀
故障的監(jiān)測(cè)由監(jiān)控室完全負(fù)責(zé),監(jiān)測(cè)方式為:通過腳本把故障過濾后顯示在屏幕上,然后由監(jiān)測(cè)人員根據(jù)故障重要性來決定派單或是即時(shí)通過電話方式通知核心網(wǎng)同事處理。這種方式的不足之處是,監(jiān)測(cè)人員對(duì)一些故障重要性的理解可能會(huì)出現(xiàn)偏差,故而即使能立即電話方式通知,也會(huì)存在一定的溝通成本(包括溝通時(shí)間,也包括提供的信息不足以準(zhǔn)確判斷故障情況);再一個(gè),部分故障可能很快自動(dòng)恢復(fù)而并未引起注意,但故障信息本身可能包含重要信息,對(duì)系統(tǒng)存在問題進(jìn)行分析很重要。
二、監(jiān)測(cè)指標(biāo)及思路
監(jiān)控室提供的是系統(tǒng)展現(xiàn)的告警內(nèi)容,但其實(shí)如果能直接獲取指標(biāo)將更有助于我們判斷故障情況(主要是故障影響的大小和造成故障的原因)。故我們將重點(diǎn)監(jiān)測(cè)如下指標(biāo):話務(wù)變化量(每5分鐘變化百分比),鏈路狀態(tài),任務(wù)處理情況(100%處理提交上來的任務(wù)),負(fù)荷監(jiān)測(cè),網(wǎng)元連接情況等。
思路:獲取指標(biāo)--記錄異常--發(fā)送到服務(wù)器--發(fā)送到手機(jī)
三、實(shí)施細(xì)則
(一)獲取數(shù)據(jù)并記錄:
當(dāng)?shù)睾诵木W(wǎng)主要為愛立信設(shè)備,愛立信對(duì)于自身設(shè)備維護(hù)提供了一個(gè)名為OPS(operation procedure support)的腳本平臺(tái)。通過該平臺(tái)可以使用CONNECT指令直接連接到指定設(shè)備,并能和設(shè)備之間直接交互。
此處以獲取話務(wù)變化量為例,第一次運(yùn)行時(shí)將當(dāng)前話務(wù)量記錄到文件,后面每次運(yùn)行都與前一次的數(shù)據(jù)進(jìn)行比較,并更新當(dāng)前數(shù)據(jù)到文件中,以下是部分代碼:
......(省略變量初始化定義等)
@SET A=1 !初始化變量(由于BSC同時(shí)連接多個(gè)MSC,故該變量用于逐個(gè)獲取到不同MSC的變量)
STDSP:DETY=RALT2,BSC=ALL; !與設(shè)備交互,請(qǐng)求獲取該BSC話務(wù)量
@SET LINE=SCAN(\"NOCC \",POS) !定位數(shù)據(jù)原坐標(biāo)
@SET CONNUM=TRIM(COPY(REPLY(LINE+{A}),POS,5)) !獲取話務(wù)連接數(shù)
@SET MSC=TRIM(COPY(REPLY(LINE+{A}),POS+36,6)) !獲取對(duì)應(yīng)的MSC名稱
@WRITE(NEFILE,MSC,\" \",CONNUM,\" \",BLONUM) !記錄本次信息,便于第二次運(yùn)行時(shí)將讀取本次信息進(jìn)行比較
......(省略兩次數(shù)值比較的代碼)
(二)記錄異常
當(dāng)發(fā)現(xiàn)指標(biāo)異常時(shí),可按需求寫入定制預(yù)警信息到文本文件。例如,下面會(huì)寫入包含變化率和當(dāng)前連接數(shù)的信息提示。
@IF RATE<-50 THEN WRITE(REPORTFILE,{當(dāng)前時(shí)間}\" \",{MSC},\"-\",{BSC},\" \",\"話務(wù)變化異常({變化率}) {當(dāng)前連接數(shù)}\") !發(fā)現(xiàn)話務(wù)減少超過50%時(shí)寫入REPORT文件。主意:{}內(nèi)為變量
(三)自動(dòng)發(fā)送數(shù)據(jù)到服務(wù)器(采用SHELL腳本以FTP形式主動(dòng)發(fā)送包含數(shù)據(jù)的文件到指定服務(wù)器):
open 1.2.3.4(對(duì)端服務(wù)器IP)
user abc 123
lcd ./
type ascii
mput BSCREPORT.*
close
(四)通過服務(wù)器側(cè)軟件發(fā)送信息
四、存在問題
(一)網(wǎng)元連接不穩(wěn)定導(dǎo)致數(shù)據(jù)不齊全而無法比較
由于網(wǎng)管網(wǎng)穩(wěn)定性要求低于網(wǎng)元本身,因網(wǎng)管網(wǎng)不穩(wěn)定而出現(xiàn)網(wǎng)元斷連的情況相對(duì)常見,而話務(wù)量變化率需要對(duì)兩次完整數(shù)據(jù)進(jìn)行比較,故此時(shí)可能會(huì)出現(xiàn)誤報(bào)。
(二)夜間通話數(shù)極低,變化率很大,容易造成誤報(bào)。
凌晨時(shí)分,話務(wù)量很低,5分鐘內(nèi)減少2-3個(gè)通話可能就會(huì)引發(fā)預(yù)警信息,但其實(shí)這是正常的數(shù)據(jù)變化。
五、解決方案
(一)連接失敗時(shí)選擇重連
網(wǎng)元連接失敗時(shí),可用@DELYASEC(5)延遲5秒,重新執(zhí)行連接,如果仍然連接失敗,則發(fā)送“{網(wǎng)元名稱}連接失敗”。如果單個(gè)網(wǎng)元連接失敗則判斷為網(wǎng)元故障,多個(gè)網(wǎng)元連接失敗則判斷為網(wǎng)管故障,轉(zhuǎn)而通知網(wǎng)管處理。
(二)提升夜間預(yù)警閥值
夜間話務(wù)極低,但一般不會(huì)為0,故01:00-06:00時(shí)間段不再計(jì)算變化率,而改為監(jiān)測(cè)話務(wù)值是否為0,如果為0則發(fā)送“{網(wǎng)元名稱}話務(wù)異?!?/p>
六、總結(jié)及成果
2012年有三次較重大的故障,三次故障都由本專業(yè)維護(hù)人員第一時(shí)間收到故障信息,并及時(shí)作出了最恰當(dāng)?shù)奶幚?。另外,利用本預(yù)警系統(tǒng)記錄信息,對(duì)一次故障隱患進(jìn)行了準(zhǔn)確的定位,從而解決故障。同年,該預(yù)警項(xiàng)目已推廣到廣東肇慶等地市。
參考文獻(xiàn):
[1] Arnold Robbins Nelson H. F. Beebe,Shell腳本學(xué)習(xí)指南,機(jī)械工業(yè)出版社 2011.