【摘要】華為ATCA平臺(tái)和原CPCI平臺(tái)在業(yè)務(wù)能力的提供上保持一致,但ATCA平臺(tái)采用集成度高的UPB(通用業(yè)務(wù)處理)單板,軟件性能發(fā)揮硬件多核多CPU的優(yōu)勢(shì),引入“GCU業(yè)務(wù)進(jìn)程組”的概念。因此在硬件故障處理上與CPCI平臺(tái)略有不同。本案例主要講述ATCA平臺(tái)下業(yè)務(wù)單板故障的處理過(guò)程,供大家參考。
【關(guān)鍵詞】ATCU硬件平臺(tái)GCUBSGCCU
一、故障背景
6月20日邯鄲測(cè)試新局HDGS11上報(bào)0框1槽GCU單板故障,同時(shí)有M3UA鏈路故障告警。經(jīng)過(guò)多次撥打測(cè)試發(fā)現(xiàn)被叫有時(shí)不能正常接通。由于上面配置有CCU/CDB/VDB/BSG進(jìn)程模塊,除了BSG模塊是負(fù)荷分擔(dān)外,其它都是主備用的,當(dāng)時(shí)在1槽是主用的模塊已經(jīng)倒換到了0槽。但由于BSG上配置有M3UA鏈路,導(dǎo)致該BSG上的M3UA鏈路故障。
二、問(wèn)題、事件描述
0框1槽GCU單板配置有CCU/CDB/VDB/BSG進(jìn)程模塊,除了BSG模塊是負(fù)荷分擔(dān)外,其它進(jìn)程模塊都是主備用的。在1槽GCU單板故障時(shí),在1槽是主用的模塊均倒換到了0槽。但由于BSG模塊是負(fù)荷分擔(dān),1槽模塊上配置有M3UA鏈路,所以導(dǎo)致該BSG上的M3UA鏈路故障。
三、分析與對(duì)策
1.單板故障原因分析從單板故障日志可以看到“VRD Power: Power supply failure.”的打印,即0框1槽單板VRD電源硬件故障失效且不穩(wěn)定,引起單板內(nèi)的VRD電源模塊供電不足,單板異常下電;單板VRD供電不穩(wěn)定導(dǎo)致單板反復(fù)重啟,一直無(wú)法進(jìn)入操作系統(tǒng),頻繁引起單板異常下電告警。
2.0槽的WCCU模塊記錄的到1401、1403BSG模塊鏈路狀態(tài)正常(這兩個(gè)BSG在1槽單板,實(shí)際已經(jīng)故障),造成三種撥測(cè)失敗現(xiàn)象:現(xiàn)象一:取漫游號(hào)碼時(shí)沒(méi)有位置區(qū),被叫失敗。沒(méi)有位置區(qū)時(shí),POOL局點(diǎn)默認(rèn)不會(huì)下發(fā)全網(wǎng)尋呼,因此也不分配漫游號(hào)碼。沒(méi)有位置區(qū)的原因,也是由于1300,1301VDB的用戶(hù)位置更新失敗(同樣是位置更新的時(shí)候,這些WCCU將消息發(fā)到了故障BSG),刪除了用戶(hù)數(shù)據(jù),做被叫時(shí)觸發(fā)了被叫恢復(fù),但POOL局點(diǎn)不會(huì)成功,因?yàn)镻OOL局點(diǎn)關(guān)閉了全網(wǎng)尋呼;現(xiàn)象二:取漫游號(hào)碼失敗。若HLR將PRN消息送到這些WCCU模塊,返回PRN時(shí),同樣可能送給這兩塊BSG,導(dǎo)致失敗。現(xiàn)象三:取路由失敗。若BSC上來(lái)的業(yè)務(wù)在這些WCCU上處理,WCCU可能將取路由消息發(fā)給這兩塊故障BSG,而這兩塊BSG的鏈路是故障的,所有消息無(wú)法發(fā)出。發(fā)給其他BSG則正常處理。綜述,只要用戶(hù)位置更新成功,或者做一次主叫,就能解決現(xiàn)象一。若業(yè)務(wù)進(jìn)入了異常WCCU和故障BSG這條路徑處理,則出現(xiàn)呼叫受損。
3.出現(xiàn)異常WCCU和故障BSG路徑的原因1槽單板上有1401,1403兩個(gè)BSG模塊,0槽和1槽的WCCU模塊互為主備。單板故障后,平臺(tái)檢測(cè)到BSG故障,會(huì)通知0槽的1000至1007的WCCU模塊刷新鏈路狀態(tài),WCCU正好是從備升主的倒換過(guò)程,此時(shí)刷新鏈路狀態(tài)失敗,這些WCCU仍然認(rèn)為這兩個(gè)BSG上的鏈路仍然是好的,所有消息有可能發(fā)給故障BSG,造成業(yè)務(wù)受損。
四、處理結(jié)果
經(jīng)過(guò)分析此故障解決方式有三種:
(1)與故障單板形成主備關(guān)系的單板(如1槽和0槽),將該單板上WCCU模塊復(fù)位(實(shí)際上只要復(fù)位由備升主的模塊即可);
(2)更換故障單板,鏈路恢復(fù)后,能夠正常處理消息;
(3)督促?gòu)S家進(jìn)行軟件補(bǔ)丁加載徹底解決該問(wèn)題。
HDGS11的解決方案是對(duì)0槽單板的WCCU模塊進(jìn)行復(fù)位后告警消除,故障消失。
建議與討論
對(duì)于ATCA硬件平臺(tái)同時(shí)滿(mǎn)足以下條件,則需要采取規(guī)避措施:1.硬件單板故障后無(wú)法正常啟動(dòng);2.該單板存在WCCU,WCDB,BSG模塊;3.該單板的BSG上面鏈路以前是正常工作的;故障現(xiàn)象:1.做用戶(hù)跟蹤撥測(cè)隨機(jī)失敗,局內(nèi)或者局間,被叫在本局,發(fā)現(xiàn)這些WCCU模塊的SRI消息20秒超時(shí)無(wú)響應(yīng)或者PRN消息分配后沒(méi)有IAM入局;2. UMTS或者GSM用戶(hù)發(fā)話(huà)話(huà)務(wù)測(cè)量的接通率下降明顯;3.話(huà)統(tǒng)任務(wù)中的全局失敗原因值中的115和230原因值有明顯增加【恢復(fù)措施和方案】恢復(fù)措施:和故障單板形成主備關(guān)系的單板(如1槽和0槽),將該單板上WCCU模塊進(jìn)行復(fù)位。