【摘要】本文主要針對當(dāng)前軟交換網(wǎng)絡(luò)下出現(xiàn)單通現(xiàn)象的排查方式進(jìn)行了一個簡單的概述,主要是通過追蹤單通通話,找出設(shè)備占用的共性,我們通過對MSC-S、MGW、BSC進(jìn)行一系列的實時追蹤,發(fā)現(xiàn)單通通話都集中在愛立信MGW的某一塊MSB板上,而后我們對MGW進(jìn)行一系列的深度檢查,包括ET板、MSB板、SCB\SXB板\ISL連線進(jìn)行程序檢查,發(fā)現(xiàn)某一塊MSB板出現(xiàn)問題,而這一塊MSB板出現(xiàn)問題并未通過告警來呈現(xiàn),因此,我們最后給出了愛立信MGW隱性故障導(dǎo)致單通后續(xù)的解決方案。
【關(guān)鍵詞】單通MGW定位MSB
一、概述
近日陸續(xù)接到投訴反映在南海桂城通話有單通的情況出現(xiàn)。單通跟掉話、電話無法呼入呼出等又有所不同,單通的發(fā)生對網(wǎng)絡(luò)指標(biāo)如接通率無任何影響,從信令上看無任何異常,并且當(dāng)前復(fù)雜的網(wǎng)絡(luò)架構(gòu)又給本次故障定位帶來了一定的干擾。當(dāng)出現(xiàn)單通投訴時,我們只能追蹤單通通話,找出共性,首先我們要定位用戶所在的小區(qū),看是否集中在小區(qū),排除無線方面的原因。其次需定位是否集中在核心網(wǎng)的某個交換機(jī)中。
二、處理方法
2.1MSC-S、MGW上監(jiān)聽用戶A口設(shè)備
由于有部份投訴號碼位于FSM21B2(雙連至FSM06及FSM21)下,于是在FSM21B2下掛微蜂窩撥測,經(jīng)過統(tǒng)計發(fā)現(xiàn)38次撥測中有5次出現(xiàn)單通復(fù)現(xiàn),分別對這5次通話進(jìn)行跟蹤,統(tǒng)計其所占用的MSC-S的A口信息、MGW上的MSB板等信息。
MGW上:CALL PATH TRACEING EMAS->Troubleshooting->Call path trace彈出的對話框中輸入MSC上CTRAI得到的Context ID(需留意后面選擇的是DEC),得出本次通話所占用的MSB板。
經(jīng)過對相應(yīng)的單通通話進(jìn)行監(jiān)聽,對其所占用的TRA、ABIS口、小區(qū)、A口、MGW、MSB板進(jìn)行統(tǒng)計,發(fā)現(xiàn)只有一個共性,即所有的單通通話都占用了FSM21中的1-17這塊MSB單板。
2.2可疑故障網(wǎng)元FSM21深度檢查
ET板或MSB板的故障引起。對于這種類型的單通故障,故障診斷方法是在MSC-S和MGW上做call path trace,如果單通總出現(xiàn)在某塊ET板或MSB板上,可把故障點(diǎn)定位到該ET板或MSB板。如果單通故障是由MSB板故障引起,通常會伴隨著NB init fault,可lhsh到定位的MSB板用指令gra_info_stat查看。如果出現(xiàn)數(shù)量較多的NBinitfault,證明該MSB板有故障。如果單通故障出現(xiàn)在某塊ET板,可通過MSP1+1轉(zhuǎn)換把話務(wù)轉(zhuǎn)換到備用板。如果通過call path trace顯示單通分散在多塊ET板或MSB板,則有可能是switch plane出現(xiàn)故障。如果通過call path trace發(fā)現(xiàn)單通集中在某個機(jī)框的多塊ET板或多塊 MSB板,則可能是由該框的SCB板或與該SCB板連接的主機(jī)框SXB板故障引起的,SCB/SXB板故障有可能伴隨大量的gcp error(error code 500或510),這些gcp error在各塊負(fù)責(zé)mesc功能的GPB板均有出現(xiàn),可通過指令mesc_counters_gcp查看。
三、故障原因分析
根據(jù)“先搶通后搶修”的故障處理原則,我們對FSM21進(jìn)行了冷啟操作,但從撥測結(jié)果及信令數(shù)據(jù)上來看,并不是整個網(wǎng)元出現(xiàn)問題。
根據(jù)FSM21當(dāng)時的日志,發(fā)現(xiàn)在單通故障期間FSM21 MSB板3307出現(xiàn)大量的“SAI Egress Discard. Cells”事件。對比之前的撥測結(jié)果發(fā)現(xiàn)每次單通通話都占用到了FSM21的2-7這塊MSB板。Pool內(nèi)其他MGW無類似故障,而此次單通故障的很大程度是MSB4 3307出現(xiàn)問題是造成。
四、改善計劃
對于MSB板故障,部分監(jiān)控方法與MRW R5相比有所變化,而為了更好地解決MGW的單通問題,全網(wǎng)對MGW進(jìn)行了升級,在R6.2.2版本中,新增了UPS功能,可以對相應(yīng)的單板所占用的通話時長進(jìn)行監(jiān)控,將疑似單通的板通過告警的形式呈現(xiàn)出來。
UPS的將兩種類型的板-ETIPG/MFG、MSB按物理上的框定義成相應(yīng)的資源組,每個資源組里各個板邏輯上賦予了三種顏色:黑灰白,通過對各個板占用時常的監(jiān)測,各個板的顏色會有一定的變化,黑色情況時發(fā)生單通的概率較高,各個板狀態(tài)正常時為白色,狀態(tài)異常時會由白變成灰,灰變成黑,三種顏色的變化只能是以下四種情況:
可以通過以下三條CLI指令查看相應(yīng)的資源組及各個板的狀態(tài):
(1)ups_get_peergroups
查看各種類型單板分組情況
(2)ups_get_safs查看各板當(dāng)前的顏色(黑、白灰)
(3)ups_get_saf_details查看各板狀態(tài)的統(tǒng)計值
由于UPS功能正在調(diào)測階段,有時受到騷擾電話的影響,單板的狀態(tài)也可能會發(fā)生變化,導(dǎo)致有些告警信息不正確,后續(xù)將進(jìn)行不斷的完善。