王巖 胡承忠
【摘要】 通過對中興軟交換所帶的失敗觀察的分析和應(yīng)用,結(jié)合核心網(wǎng)指標進行了兩者相關(guān)性的有益分析。通過分析發(fā)現(xiàn)了失敗觀察收集到的失敗信息和核心網(wǎng)指標之間的密切關(guān)系,并且通過具體分析失敗觀察的數(shù)據(jù)信息和對失敗信息具體解碼得到的分類數(shù)據(jù),提供了一種影響核心網(wǎng)指標變化的具體思路。并且指明了下一步工作的方向和重點。
【關(guān)鍵詞】 失敗觀察 解碼信息 位置更新成功率 數(shù)據(jù)分類
一、引言
中興WCDMA核心網(wǎng)軟交換SERVER上所帶的失敗觀察,主要是用來監(jiān)控在本交換機下的用戶正?;蚴欠钦5耐ㄔ掅尫?。這里說所得正常情況,包括用戶自發(fā)的在撥叫后的掛斷的用戶自身行為,也包括異地用戶因為欠費停機而造成漫游限制等正常情況。不正常情況就是本文要著重分析的部分,包括位置更新失敗,MM位置更新本端失敗,及MSCA局內(nèi)切換失敗等等情況。
因為影響交換的指標就是由這些失敗造成的,所以對這些失敗的觀察和分析有助于發(fā)現(xiàn)問題,為下一步解決問題,提升網(wǎng)絡(luò)指標打下堅實的基礎(chǔ)。通過收集失敗觀察的信息,對各種引起不正常的情況進行分析,發(fā)現(xiàn)問題的規(guī)律,可以為交換機正常高效率的運行提供幫助。
這里著重以位置更新成功率為例,通過失敗觀察收集的信息來探討影響位置更新成功率這個指標的各種情況。中興失敗觀察里,提供了很多失敗觀察的選項,囊括了語音呼叫,短信收發(fā)及上網(wǎng)等常用的業(yè)務(wù)。
位置更新作為其中一項,可以單獨進行觀察和信息的收集,這樣可以提高分析的效率。對位置更新成功率這個指標進行分析,可以在失敗觀察里只選擇位置更新這一個選項。如果有需要,可以根據(jù)要分析指標的需要,來選擇相應(yīng)的失敗觀察選項。
二、失敗觀察在位置更新成功率分析中的應(yīng)用實例
2.1 分析數(shù)據(jù)說明
這里對本文的失敗觀察的數(shù)據(jù)做一下說明,為了更好的分析失敗觀察的數(shù)據(jù)對位置更新成功率指標的影響,盡量排除因為短期收集數(shù)據(jù),以及收集數(shù)據(jù)量不足等問題所帶來的負面影響,本文選取了幾天各時段不同的失敗觀察的信息作為分析參考,其目的是為了分析數(shù)據(jù)的全面性和可靠性。
2.2 具體分析
對這些數(shù)據(jù)分析的思路從三方面著手:
一是失敗觀察收集的具體數(shù)據(jù)里,各種原因的次數(shù)統(tǒng)計和位置更新成功率的變化是否有同樣的起伏變化;
二是這些失敗觀察數(shù)據(jù)里統(tǒng)計到的IMSI號碼是否有固定的號段,或是這些IMSI對應(yīng)的HLR或VLR用戶數(shù)據(jù)是否有共同的屬性;
三是失敗觀察的具體的解碼信息的統(tǒng)計,失敗觀察的解碼信息包括了眾多重要的信息,包括發(fā)生失敗的LAC區(qū)域和目的小區(qū),發(fā)生失敗的相關(guān)交互信令,及相關(guān)模塊號和局向號等等信息。下面一一進行分析闡述。
2.2.1各種原因的次數(shù)統(tǒng)計和位置更新成功率起伏變化對應(yīng)的探討
因為時間和實際的條件限制(中興軟交換上,存放失敗觀察文件的系統(tǒng)文件夾的容量只有200M,當超過這個容量時,就會覆蓋掉前期觀察所存放的文件),這里所收集的數(shù)據(jù)有所限制。
為了更好的分析數(shù)據(jù),這里對上面的數(shù)據(jù)進行了有效的分類統(tǒng)計,即若干天不同時段,和同一天不同時段的位置更新成功率進行比較。
位置更新失敗中,出現(xiàn)次數(shù)較多的幾類如下:
(1)(VLR)收到MM的Release消息(242),
(2)(MAP)漫游不允許Roaming Not Allowed)(8),
(3)(MAP)未知的用戶(Unknown subscriber)(1)
(4)(ProviderErr)收到無效的響應(yīng)(Invalid Response Received)(134)。
2.2.2 失敗觀察數(shù)據(jù)IMSI號碼的規(guī)律性及用戶數(shù)據(jù)共性的探討
這里只對位置更新失敗的主要原因進行了分析,具體分析如下。
(MAP)漫游不允許Roaming Not Allowed)(8)(1124次)這個原因就是用戶漫游權(quán)限限制產(chǎn)生的,是一個用戶行為,比如外地有本地通限制的用戶到泰安就會產(chǎn)生此失敗。通過在HLR里查詢用戶信息,這些用戶均沒有信息,證實漫游不允許造成的位置更新失敗的IMSI對應(yīng)用戶均不是泰安本地用戶。
(VLR)收到MM的Release消息(242)(4735次)這個原因是出現(xiàn)次數(shù)比較多的,對發(fā)生此問題的號碼詳細解碼信息進行統(tǒng)計,對IMSI,IMEI,LAC,小區(qū)號進行對比后,發(fā)現(xiàn)當IMEI 7 8位是00時,容易發(fā)生此問題。經(jīng)過查詢判斷有此號碼的大多是水貨手機,詢問廠家工程師,有無對水貨手機的限制,目前中興還沒有這方面的支持。然后對問題號碼的VLR,HLR數(shù)據(jù)進行查詢,發(fā)現(xiàn)有問題的號碼大部分都有來話寶設(shè)置。
(ProviderErr)收到無效的響應(yīng)(Invalid Response Received)(134)這個原因的IMSI很有規(guī)律,全是4600141052開頭的。經(jīng)過對泰安萊蕪的IMSI號段查詢,可以確定這個不是泰安萊蕪的IMSI號段。
經(jīng)過詳細的解碼分析,IMSI號碼主要是460014105291019,460014105233987等幾個IMSI號碼。經(jīng)過跟蹤460014105291019的信令發(fā)現(xiàn),這種類型的IMSI號碼均返回了MAP Error的信令,說明這個IMSI是無法位置更新的。
該號碼的手機串號IMEI為空(null),而且經(jīng)常在燃料賓館和格林商廈出現(xiàn)??梢酝ㄟ^這些信息判斷,這個用戶所用手機終端一定不是正規(guī)行貨手機設(shè)備,而且SIM卡有問題,可能是自己刷的SIM卡。下一步希望聯(lián)系到這個用戶,即可查明這個問題,進而減少這種位置更新失敗。
2.2.3 關(guān)于失敗觀察里的解碼信息的統(tǒng)計
這里需要注意的是當一種失敗產(chǎn)生時,這個失敗不一定對應(yīng)的只產(chǎn)生一條失敗的觀察,而是會產(chǎn)生相關(guān)的幾個失敗觀察,這就要在后面的解碼信息里詳細的討論。
這里以(VLR)收到MM的Release消息(242)失敗原因的解碼信息為例如表5所示,來說明解碼信息的各項的作用。
需要關(guān)注的解碼信息如下:
(1)根源類型,根源原因說明了(VLR)收到MM的Release消息(242)發(fā)生的根本原因。這兩個選項說明了,目前發(fā)生的失敗是由根源原因造成的,可以通過根源原因再查找相關(guān)問題。
(2)當前接收事件,當前發(fā)送事件,上次接收事件和上次發(fā)送事件說明這個失敗發(fā)生時,信令的過程是怎樣。通過這里能很方便的判斷出發(fā)生的失敗在信令的哪個階段,以及在什么情況下發(fā)生的。這都為解決問題提供了很好的信令理論基礎(chǔ)。
(3)業(yè)務(wù)參考模塊號,業(yè)務(wù)參考起始局向號可以得到發(fā)生失敗較多的相關(guān)模塊和局向。可以用來定位經(jīng)常發(fā)生失敗的物理模塊,以及失敗發(fā)生的軟件數(shù)據(jù)。在硬件軟件兩方面來定位失敗發(fā)生的范圍,在根本上查找失敗的原因。
(4)原始位置信息和目的位置信息中的LAC和CI信息很重要,通過統(tǒng)計這兩個數(shù)據(jù)可以知道發(fā)生問題的具體位置。通過大量的數(shù)據(jù)統(tǒng)計,可以知道是否在某個位置這種失敗會經(jīng)常發(fā)生,從而為發(fā)現(xiàn)問題區(qū)域提供了有力支持。特別是目的位置信息的LAC和CI,均是用戶產(chǎn)生失敗行為時,發(fā)生問題的小區(qū),所以格外的進行了關(guān)注。
根據(jù)這個實際的情況,編寫了一個程序,不但可以分門別類的統(tǒng)計上述的各種數(shù)據(jù),而且對目的位置信息的CI進行了換算解碼,可以直接得到小區(qū)名和對應(yīng)的地區(qū),為判斷失敗的范圍提供了幫助。
這里統(tǒng)計了5種失敗原因的詳細解碼,這5種失敗原因分別如下:
(1)”(MAP)漫游不允許Roaming Not Allowed)(8)”
(2)”(MAP)未知的用戶(Unknown subscriber)(1)”
(3)”(ProviderErr)收到無效的響應(yīng)(Invalid Response Received)(134)”
(4)”(VLR)收到MM的Release消息(242)”
(5)”(MM)IdAuth宏中定時器1超時(IdAuthMacro Timer1 Out)(1084)”
得到了解碼的結(jié)果之后,可以對詳細的解碼從三方面進行分析。
一是解碼信息分類后的小區(qū)地區(qū),以及模塊和局向。分析發(fā)生的失敗行為在哪個區(qū)域,或是哪幾個模塊和局向上比較多。如果一直在一個區(qū)域或小區(qū)發(fā)生問題,則說明這個區(qū)域或小區(qū)有問題,可以檢查這個區(qū)域或小區(qū)的數(shù)據(jù)配置,以及和交換側(cè)的數(shù)據(jù)配置。
如果在一個模塊或局向上老是有很多相同類型的失敗,則可能對應(yīng)的單板有問題,或是對應(yīng)的軟交換的設(shè)備有問題,這為在沒有告警時,而發(fā)現(xiàn)潛在的設(shè)備問題提供充足的事實依據(jù)。可以對問題模塊進行處理,避免發(fā)生大的設(shè)備故障,有力保障了核心網(wǎng)的運行穩(wěn)定。
二是信令交互時,在哪個信令行為上,發(fā)生失敗的情況比較多。因為這里收集到的失敗大多是從A口,或是核心網(wǎng)網(wǎng)元內(nèi)部進行交互的信令。以后可以通過觀測這些發(fā)生問題比較多的信令行為,可以確定是在無線側(cè)哪個BSC上發(fā)生失敗的情況比較多,或是和哪個核心網(wǎng)網(wǎng)元進行交互時,發(fā)生失敗的情況比較多。
三是分析統(tǒng)計到的根源類型和根源原因。如果上面兩方面沒有集中的問題,那么可以通過根源類型和根源原因來進一步查找失敗發(fā)生的問題。
因為時間倉促,本文對前兩方面做了較詳細的分析,第三部分因為數(shù)據(jù)量比較大而且相關(guān)的信息很多,這里只提供了下一步工作的具體思路(如上述的關(guān)于解碼信息的分析)。