郭艷萍
【摘要】隨著聯(lián)通移動業(yè)務快速發(fā)展,保證客戶信息從前臺BSS系統(tǒng)安全、暢通送至后臺設備處理,對我們的網(wǎng)絡安全提出了更高的要求。本文對現(xiàn)網(wǎng)BSS與后臺組網(wǎng)進行分析,結(jié)合日常故障處理,分析了網(wǎng)絡實際應用效果以及存在的不足并對網(wǎng)絡進行整改,降低了網(wǎng)絡風險。
【關鍵詞】HLRDCNBSS互聯(lián)網(wǎng)絡
一、引言
當客戶通過營業(yè)廳提出業(yè)務需求時,前臺BSS營帳系統(tǒng)會將用戶業(yè)務需求變更為各種相應的聯(lián)機指令通過DCN網(wǎng)絡自動送至后臺HLR設備進行處理,從而實現(xiàn)客戶業(yè)務需求在后臺網(wǎng)元設備內(nèi)的開通及業(yè)務變更。但在日常維護過程中發(fā)現(xiàn),會由于某些原因造成BSS系統(tǒng)與后臺HLR設備網(wǎng)絡斷聯(lián),使聯(lián)機指令在前臺堆積,無法正常傳送至后臺,從而影響用戶業(yè)務辦理。
二、典型故障案例分析
2.1故障現(xiàn)象
接到BSS側(cè)投訴,受理業(yè)務無法竣工,并有工單指令堆積現(xiàn)象。從HLR側(cè)查看無告警。
2.2故障分析
現(xiàn)網(wǎng)組網(wǎng)如圖1所示:
組網(wǎng)中,HLR至DCN網(wǎng)絡為雙路由保護,如圖1所示。造成聯(lián)機指令堆積可能有以下幾種原因:(1)SMU server故障,SMU雙擊倒換失敗,造成SMU server與營帳系統(tǒng)斷連。(2)營帳系統(tǒng)故障,造成營帳系統(tǒng)與SMU server系統(tǒng)斷連。(3)承載網(wǎng)故障,造成營帳系統(tǒng)與HLR SMU之間鏈路中斷。
2.3故障處理
根據(jù)以上分析進行逐步排查:(1)檢查HLR告警臺,查看告警臺是否有SMU server雙機故障及倒換的告警,經(jīng)檢查,SMU server雙機正常,無告警,且各個業(yè)務進程正常。(2)聯(lián)系營帳系統(tǒng)工程師排查營帳系統(tǒng)側(cè)是否正常,經(jīng)檢查營帳系統(tǒng)進程及系統(tǒng)正常。(3)在smu側(cè)及營帳側(cè)都不能互相ping通對方,判斷為中間鏈路故障。經(jīng)確認HLR至DCN網(wǎng)絡主用傳輸鏈路故障,同時發(fā)現(xiàn)HLR內(nèi)部交換機至光貓2網(wǎng)線斷聯(lián),見圖1(紅色鏈路部分)。
恢復主備通信鏈路,觀察發(fā)現(xiàn)業(yè)務時通時斷,該現(xiàn)象可能與傳輸鏈路質(zhì)量有問題或者網(wǎng)線不好有關,傳輸機房查看告警無相關告警輸出,更換網(wǎng)線故障依舊。數(shù)據(jù)機房登陸NE40查看HLR服務器所在VLAN 214,該VLAN配置了VRRP,且主備協(xié)商正常,再登陸S9303查看VLAN 214所加入的接口,其中S9303-1下行口G2/0/22流量異常,單方向input方向流量非常大,查看S9303-2下行口G2/0/27,該接口output方向流量異常,由此推斷在VLAN 214存在環(huán)路。經(jīng)確認HLR內(nèi)部交換機之前并沒有與光貓2直連,現(xiàn)場人員問題處理時無意將網(wǎng)線插到光貓2導致形成環(huán)路。Shutdown S9303-2 G2/0/27,業(yè)務恢復。
三、制定措施進行網(wǎng)絡整改
二層環(huán)路所引起的廣播風暴,其結(jié)果是災難性的,在網(wǎng)絡設計及施工時要盡量避免成環(huán),原來的網(wǎng)絡顯然存在不合理性,雖然在NE40側(cè)做了VRRP,但實際上并未達到保護的效果,經(jīng)過協(xié)商,我們對現(xiàn)網(wǎng)網(wǎng)絡進行了改造,改造后組網(wǎng)如下:
通過本次改造,消除了環(huán)路,并減少了光貓部分的風險點,使網(wǎng)絡安全性大大提高。
四、HLR SMU雙機倒換機制4.1SMU雙機原理
4.2SMU雙機由四個功能模塊組成
(1)主備決策模塊。通過心跳消息協(xié)商節(jié)點狀態(tài),最終維持一主一備的穩(wěn)定狀態(tài)。(2)文件同步模塊。將主機需要同步的文件自動實時同步到備機,主備倒換后文件數(shù)據(jù)不丟失。(3)數(shù)據(jù)庫同步模塊。將主機需要同步的數(shù)據(jù)庫表自動實時同步到備機,主備倒換后數(shù)據(jù)庫數(shù)據(jù)不丟失。(4)浮動IP管理模塊。通過浮動IP管理,主備倒換后對外和對內(nèi)提供服務的IP地址不變,客戶端不需要切換連接IP。
4.3SMU主備切換
(1)主用SMU某業(yè)務臺5分鐘內(nèi)異常3次時,主用SMU自動請求切換,同時自身置為故障標志。(2)系統(tǒng)提供主備倒換命令(SWP SMU),允許手動進行主備切換。(3)如果雙機通信中斷超過2分鐘,則兩個SMU都會自動嘗試切換為主用,但只有一個SMU能占用公共資源(目前只有浮動IP是公共資源),因此一般不會出現(xiàn)雙主用的情況。在外網(wǎng)和心跳都中斷的情況下,可能存在雙主機的情況,如果心跳恢復,則最先成為主用的SMU繼續(xù)維持主用,另一臺自動降為備用,同時同步開關被強制關閉,并上報雙主用SMU發(fā)生沖突告警(4415)。(4)如果備用SMU發(fā)現(xiàn)自身存在故障標志,則會拒絕主用BAM的切換請求。(5)觸發(fā)系統(tǒng)故障標志的條件有:某業(yè)務臺5分鐘內(nèi)異常3次。(6)任何一個SMU切換成為主用SMU失敗,都會釋放公共資源,降為備用,因此不會出現(xiàn)各占部分公共資源導致雙備的情況。
注意:在SMU未連接外網(wǎng)的情況下,外網(wǎng)網(wǎng)卡上配置的物理IP是不生效的,此時雙機程序也不能切換到未連接接外網(wǎng)的SMU上。
由于SMU server采用雙機原理,在正常情況下,營帳系統(tǒng)只與SMU浮動IP相連,當主用SMU server自身出現(xiàn)故障或S2000至HLR鏈路故障的情況下,主用SMU自動請求切換,同時自身置為故障標志,從而保障營帳系統(tǒng)與SMU連接不中斷,不影響業(yè)務。
五、存在問題
當S2000以上鏈路出現(xiàn)故障,S2000至HLR內(nèi)部交換機端口檢測仍為UP狀態(tài),因此HLR SMU不會發(fā)生自動切換,需手工切換SMU,這樣延長了業(yè)務影響時間。因此我們平時應當加強基礎維護管理,提升維護人員維護水平,熟悉維護操作,嚴格將網(wǎng)絡安全風險降到最低。
六、結(jié)束語
通過對后臺HLR設備與DCN網(wǎng)絡之間組網(wǎng)改造,減少了發(fā)生故障的風險點,提高了網(wǎng)絡的安全性,從業(yè)務層面提高了客戶服務的支撐力度,使客戶感知進一步提升。