趙建國
在中國鐵路高速發(fā)展的進(jìn)程中,通信系統(tǒng)作為主要基礎(chǔ)設(shè)施日漸突顯出不可替代的重要作用,在鐵路運(yùn)行調(diào)度指揮、列車運(yùn)行控制、運(yùn)行安全監(jiān)測、視頻監(jiān)控、災(zāi)害防范預(yù)警、突發(fā)事件處置等諸多專業(yè)及領(lǐng)域發(fā)揮著重要的信息傳送作用[1]。通信系統(tǒng)設(shè)備設(shè)施的低故障率,網(wǎng)絡(luò)的高可用性,是鐵路運(yùn)輸安全生產(chǎn)的重要保障和前提。為適應(yīng)鐵路運(yùn)輸日益復(fù)雜和嚴(yán)苛的要求,鐵路通信系統(tǒng)從本質(zhì)安全角度出發(fā),堅持人防、物防、技防相結(jié)合,采取有效應(yīng)對措施,努力克服“黑天鵝”及“灰犀?!卑踩录l(fā)生[2]。多年來,通信系統(tǒng)持續(xù)推進(jìn)網(wǎng)絡(luò)、設(shè)備、功能單元等不同層面的冗余保護(hù)機(jī)制作用的有效發(fā)揮,從而大幅提升通信系統(tǒng)的穩(wěn)定性[3]。然而,冗余保護(hù)機(jī)制的引入也使得網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,設(shè)備數(shù)量進(jìn)一步增加,軟件控制邏輯更為關(guān)鍵,對通信設(shè)備管理和維護(hù)工作提出了新的要求[4]。本文結(jié)合典型故障案例,對冗余保護(hù)機(jī)制功能的實(shí)現(xiàn)、作用的發(fā)揮,以及存在問題進(jìn)行研究分析,并提出工作建議和措施,開拓鐵路通信設(shè)備維護(hù)工作思路,筑牢通信網(wǎng)絡(luò)安全屏障。
“冗余保護(hù)”就是在硬件和軟件基本功能具備的情況下,通過增加備份硬件及軟件控制功能實(shí)現(xiàn)冗余保護(hù)能力,也稱為冗余技術(shù)或容災(zāi)備份技術(shù)。鑒于鐵路通信系統(tǒng)的重要屬性,往往在設(shè)計之初就會充分考慮冗余保護(hù),從網(wǎng)絡(luò)搭建、設(shè)備、單板等各層面實(shí)現(xiàn)冗余保護(hù)功能。冗余保護(hù)等級一般分為:系統(tǒng)網(wǎng)絡(luò)級保護(hù)、設(shè)備網(wǎng)元級保護(hù)和板件級保護(hù)。冗余保護(hù)方式包括:主備(冷、熱)倒接、負(fù)荷分擔(dān)等[5]。冗余保護(hù)機(jī)制等級及運(yùn)用示例見表1。
表1 冗余保護(hù)機(jī)制等級及運(yùn)用示例
由表1 可見,各等級功能實(shí)現(xiàn)所采用的冗余方式并不相同。從GSM-R 網(wǎng)絡(luò)結(jié)構(gòu)體系來看,全路GSM-R 共用設(shè)備核心網(wǎng)元級故障是災(zāi)難性的,網(wǎng)元采用北京、武漢異地設(shè)置,兼顧熱備份和負(fù)荷分擔(dān),能夠很好地滿足設(shè)備高可用性要求[6]?;驹O(shè)備作為無線網(wǎng)系統(tǒng)的接入設(shè)備,為確保運(yùn)營速度350 km/h 線路CTCS-3 級列控系統(tǒng)要求,站間距按3 km 設(shè)置,采用奇、偶數(shù)環(huán)型組網(wǎng),形成交織冗余覆蓋,單站故障并不會持續(xù)影響列控系統(tǒng)工作。綜上所述,冗余保護(hù)機(jī)制呈現(xiàn)系統(tǒng)性結(jié)構(gòu)特點(diǎn),猶如金字塔型。網(wǎng)絡(luò)層級越高的系統(tǒng)采用的冗余方式越多樣、網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜、硬件依賴關(guān)系越繁雜,同時也滿足了更嚴(yán)苛的穩(wěn)定性要求。
冗余保護(hù)機(jī)制的實(shí)現(xiàn),使得鐵路通信系統(tǒng)自愈能力得到大幅提升,在故障發(fā)生過程中能夠做到用戶無感知,同時也有效地保障了故障修復(fù)和應(yīng)急處置工作的開展。
1)設(shè)備故障應(yīng)急方面。目前通信系統(tǒng)冗余保護(hù)機(jī)制已經(jīng)非常成熟,電源系統(tǒng)的一、二路外電引入負(fù)載分擔(dān),同步數(shù)字體系傳輸網(wǎng)絡(luò)路徑保護(hù)、子網(wǎng)保護(hù),GSM-R 無線網(wǎng)絡(luò)交織覆蓋或A/B 網(wǎng)冗余覆蓋[7]。據(jù)統(tǒng)計,2023年以來某路局發(fā)生的7件光纜中斷故障中,由于傳輸光纜徑路保護(hù)未造成用戶面業(yè)務(wù)影響;某高鐵線路5 件基站硬件設(shè)備故障中,由于無線網(wǎng)絡(luò)交織冗余覆蓋,沒有發(fā)生1 件C3 級列控系統(tǒng)無線通信中斷故障。冗余保護(hù)機(jī)制為鐵路通信系統(tǒng)重要業(yè)務(wù)保護(hù)提供了有效的技術(shù)支撐手段。
2)設(shè)備維護(hù)方面。鐵路通信系統(tǒng)網(wǎng)絡(luò)的冗余保護(hù)機(jī)制在維修過程中同樣發(fā)揮著重要作用。根據(jù)《鐵路通信設(shè)備維護(hù)規(guī)程》規(guī)定,通信部門需在規(guī)定周期內(nèi)對系統(tǒng)設(shè)備開展檢修、試驗及集中修等維護(hù)工作[8]。為滿足維修工作過程中重要業(yè)務(wù)不發(fā)生中斷要求,通過采用網(wǎng)絡(luò)冗余倒換、單側(cè)冗余設(shè)備承載業(yè)務(wù)等方法,有效地減少通信維修對鐵路運(yùn)輸生產(chǎn)的影響。
冗余保護(hù)機(jī)制的設(shè)置及功能發(fā)揮,為縮短故障延時、單板故障應(yīng)急處置提供了有效的技術(shù)手段,提升了應(yīng)急處置能力。在板件故障、光纜中斷、基站設(shè)備退服等方面也表現(xiàn)出較好的響應(yīng)能力,為鐵路安全運(yùn)輸生產(chǎn)提供了有效的保障[9]。同時隨著網(wǎng)絡(luò)、系統(tǒng)設(shè)備的復(fù)雜程度的大幅提升,受到軟、硬件設(shè)計缺陷、隱性故障、維護(hù)手段不當(dāng)?shù)纫蛩赜绊懀o機(jī)制發(fā)揮帶來諸多問題。
1)復(fù)雜的網(wǎng)絡(luò)級設(shè)備冗余,考驗原廠設(shè)備倒換機(jī)制的合理性。①在維護(hù)過程中發(fā)生的故障節(jié)點(diǎn)存在硬件故障非顯性特點(diǎn),也就是俗稱的“假死”現(xiàn)象,系統(tǒng)并不能感知故障點(diǎn),從而引發(fā)的冗余失效問題時有發(fā)生;②現(xiàn)代的通信設(shè)備在倒換機(jī)制設(shè)計方面已經(jīng)摒棄了開關(guān)量概念,在量化倒換觸發(fā)條件下,如何合理設(shè)置倒換參量顯得尤為重要;③通信系統(tǒng)在實(shí)現(xiàn)冗余倒換過程中,為避免主備節(jié)點(diǎn)、板卡的頻繁切換,往往設(shè)置保護(hù)時間,這也使得冗余保護(hù)切換存在不及時問題。
2)繁多的硬件數(shù)量和軟件控制使故障率升高。①為實(shí)現(xiàn)冗余保護(hù)機(jī)制增加的硬件設(shè)備往往處于備用狀態(tài),對其檢監(jiān)測手段并不完善,導(dǎo)致備用設(shè)備狀態(tài)存在一定概率的不確定性;②從統(tǒng)計概率方面分析,增加的硬件數(shù)量與故障率的上升成正比關(guān)系,也就是說硬件數(shù)量越多,發(fā)生故障的概率越大;③軟件控制是實(shí)現(xiàn)冗余保護(hù)機(jī)制的核心手段,倒換時間控制、主備節(jié)點(diǎn)數(shù)據(jù)一致性和倒換過程中的數(shù)據(jù)完整性,都是考量保護(hù)能力的重要因素。
3)“假冗余”問題頻繁發(fā)生。通信系統(tǒng)設(shè)備通常由數(shù)據(jù)總線、核心控制板、接口板及功能性板卡組成,系統(tǒng)單元間存在極大的互相依賴關(guān)系。而原廠冗余保護(hù)設(shè)計不可避免地存在單一節(jié)點(diǎn)無冗余情況。例如,在使用2 Mbit/s專線承載業(yè)務(wù)時,傳輸SDH 接口板用于承載物理鏈路,通過使用多鏈路保護(hù)方式,并與用戶終端側(cè)配合完成,而終端設(shè)備倒換機(jī)制不完善、倒換不及時,則引發(fā)業(yè)務(wù)中斷,從而發(fā)生“假冗余”問題。“假冗余”問題并非一個系統(tǒng)或單一節(jié)點(diǎn)缺陷,而是通信系統(tǒng)在承載業(yè)務(wù)的過程中,終端用戶錯誤理解冗余保護(hù)機(jī)制,而使機(jī)制失效。
此外,在采用板件負(fù)荷分擔(dān)工作方式時,控制信令和業(yè)務(wù)數(shù)據(jù)均配置到單板上,這也使得硬件故障后相應(yīng)的承載功能失效或出現(xiàn)數(shù)據(jù)遷移丟失問題。
北京局某高鐵線路基站控制器(BSC) 自2018 年隨線路工程建設(shè)入網(wǎng)運(yùn)用,接入北京局既有GSM-R核心網(wǎng),控制沿線基站設(shè)置的78套主備基站(BTS)。無線網(wǎng)絡(luò)使用單層交織冗余保護(hù)方式,同時利用數(shù)字化區(qū)間中繼設(shè)備加漏纜或天線方式解決隧道等弱場強(qiáng)覆蓋問題,線路采用GSM-R無線網(wǎng)承載CTCS-3級列控系統(tǒng)業(yè)務(wù)[10?11]。
2023年某日5:02,BSC主控單元1機(jī)框內(nèi)矩陣切換控制器(SWPRO)故障,導(dǎo)致6 個基站出現(xiàn)脫管及退服故障,造成車載ATP 無線終端在上述基站覆蓋區(qū)域無法通過GSM-R 網(wǎng)絡(luò)與地面無線閉塞中心進(jìn)行信息交互,發(fā)生無線通信超時和系統(tǒng)降級運(yùn)行[12]。經(jīng)網(wǎng)管側(cè)對基站小區(qū)數(shù)據(jù)進(jìn)行重置后,故障基站狀態(tài)恢復(fù)。
BSC 設(shè)備邏輯結(jié)構(gòu)見圖1,采用雙平面硬件邏輯結(jié)構(gòu),核心主控單元采用1+1 冗余保護(hù),信令處理單元采用2∶1 熱備負(fù)荷分擔(dān)方式工作;接口單元、時鐘單元、消息總線單元全部采用1+1 主備冗余保護(hù);核心交換管理、基站側(cè)信令管理、話務(wù)處理、移動性管理等業(yè)務(wù)由各功能單元分別承載,軟件控制實(shí)現(xiàn)全分散,是典型的分布式系統(tǒng)結(jié)構(gòu)。
圖1 BSC設(shè)備邏輯結(jié)構(gòu)
BSC設(shè)備主要功能如下。
1) 主控單元(MCMU)由交換矩陣、矩陣控制器、消息總線單元(圖1 紅色部分)組成,用于監(jiān)控和監(jiān)督BSC 上的數(shù)據(jù)和信令交換,主要實(shí)現(xiàn)BSC 中各個單元和板件間電路的切換和連接,負(fù)責(zé)蜂窩小區(qū)和無線信道的管理和數(shù)據(jù)配置。MC?MU 是BSC 中的計算機(jī)單元之一,也是BSC 最為重要的功能單元。
2) 交換矩陣(GSW2KB),負(fù)責(zé)BSC 內(nèi)部脈沖編碼調(diào)制(PCM)鏈路和外部PCM 鏈路轉(zhuǎn)換,主要包括A、ATER、Abis、Gb 等接口,是MC?MU 的重要組成部分。對于一個MCMU 來說,滿配為8 塊SW256B 板卡,每塊SW256B 處理256 個PCM 鏈路,通過矩陣控制器進(jìn)行管理,提供0~2 047 個外部PCM 鏈路。各個PCM 鏈路通過GSW2KB相互通信。
3) 消息總線單元(MB),負(fù)責(zé)中央處理器(CPU)單元與運(yùn)營維護(hù)單元、MCMU、信令處理單元間內(nèi)部通信,是CPU 單元通信的橋梁。以太網(wǎng)消息總線單元(EMB)寄生在MCMU 單元中,同框供電,但EMB是一個獨(dú)立的單元。
4) 信令處理單元(BCSU):負(fù)責(zé)MSC 和BSC 間承載業(yè)務(wù)的7 號信令以及BSC 和BTS 間的D信道鏈路接入規(guī)程信令的處理;同時包交換處理單元(PCU)用來處理分組數(shù)據(jù)業(yè)務(wù),是重要信令控制單元。
5) 操作維護(hù)單元(OMU),負(fù)責(zé)收集BSC側(cè)各個單元和基站傳送的告警,提供人機(jī)接口,并控制時鐘單元。OMU 單元不承載業(yè)務(wù),但也是BSC中最重要的單元之一。
6) 接口單元,負(fù)責(zé)連接BTS 和MSC(或TC),實(shí)現(xiàn)BTS 與BSC 以及MSC 與BSC 間的通信和數(shù)據(jù)傳輸。
對告警信息進(jìn)行分析,5:01開始,MCMU-1出現(xiàn)多條環(huán)路測試告警,告警記錄截圖見圖2,提示“交換矩陣單元的內(nèi)部通道測試失敗”。通道分布在6 塊交換矩陣板,均由SWPRO 控制,據(jù)此判斷告警是由MCMU-1 單元的SWPRO 板卡故障導(dǎo)致。5:09主控單元發(fā)生倒換告警(圖2紅色記錄)及主控單元-1失效(圖2紅色記錄)。
圖2 告警記錄截圖
對日志信息進(jìn)行分析,如圖3 所示,在主控板發(fā)生故障后,BCSU-2于5:09、5:12發(fā)生2次短時間切換(圖3 藍(lán)色記錄)。在單元切換期間需要一定的時間(原廠手冊建議不小于5 min)加載內(nèi)存中的工作文件。由于BCSU 在不到3 min 的時間內(nèi)切換2 次,內(nèi)存中的工作文件內(nèi)容加載不完整,部分基站未能完全同步,從而導(dǎo)致全線6 個基站脫管,16個基站載頻受限,無法正常工作。
圖3 日志記錄截圖
綜上所述,無線基站控制器主控單元內(nèi)矩陣切換控制器單板故障,引發(fā)信令處理單元短時間內(nèi)發(fā)生2 次異常切換,并在倒換過程中出現(xiàn)部分基站脫管、載頻受限,基站與BSC 信令處理單元未完全同步,控制信令異常,使業(yè)務(wù)運(yùn)用受到影響。
對本次故障進(jìn)行復(fù)盤分析可以看出,在設(shè)計層面非常完備的雙平面化硬件結(jié)構(gòu)及全分散的軟件控制體系下,仍舊發(fā)生了冗余機(jī)制失效問題。因主控單元故障硬件設(shè)備未及時觸發(fā)顯性告警,在進(jìn)行冗余切換環(huán)節(jié)出現(xiàn)延時問題。此外,設(shè)備主要單元間的依賴關(guān)系又使得信令處理單元短時頻繁切換,控制數(shù)據(jù)發(fā)生異常缺失或不可用。具體問題如下:
1) MCMU-1 中矩陣切換控制器在發(fā)生故障后,系統(tǒng)9 min 后才完成備用單元的切換,切換不及時。
2) MCMU-1 故障期間引發(fā)BSC 設(shè)備交換矩陣單元工作異常,大量信令鏈路環(huán)路測試失敗,觸發(fā)BCSU-2 向BCSU-1 發(fā)生切換,3 min 鐘后回切至原工作單元。
3) BSC 設(shè)備信令控制單元在短時間內(nèi)發(fā)生2 次主備單元切換,不滿足5 min 保護(hù)時間要求,出現(xiàn)與部分基站數(shù)據(jù)未完成同步的問題,引發(fā)部分基站脫管、載頻受限,從而導(dǎo)致基站無法運(yùn)行。
4) BSC 設(shè)備各單元狀態(tài)基本穩(wěn)定后,故障基站需下發(fā)配置數(shù)據(jù)或重啟后恢復(fù)正常。
本次故障暴露出該BSC 設(shè)備在矩陣切換控制器隱性故障情況下,主備切換機(jī)制、觸發(fā)條件、主備單元切換后數(shù)據(jù)完整性等方面存在問題,采取以下應(yīng)對措施。
1) 更換MCMU-1 中的SWPRO,后續(xù)設(shè)備運(yùn)行穩(wěn)定。
2) 在實(shí)驗室對故障板件進(jìn)行故障復(fù)現(xiàn),診斷結(jié)果為失敗,確定故障定位準(zhǔn)確。
3) 該BSC告警采用依賴關(guān)系邏輯,當(dāng)擾動級別1044-環(huán)路測試失敗、1045-內(nèi)存比對失敗,累積到閾值后,可觸發(fā)1598-主控單元失效告警。通過試驗復(fù)現(xiàn)故障,擾動告警觸發(fā)閾值參數(shù)為4Y,表示1044、1045 類型告警,上報累計16 次后觸發(fā)1598 單元失效告警,系統(tǒng)觸發(fā)切換。由于參數(shù)設(shè)置不準(zhǔn)確導(dǎo)致主控切換產(chǎn)生延時。通過修改閾值參數(shù)為64 N,表示發(fā)生一次立即觸發(fā),能夠解決主控單元由于擾動告警規(guī)則引發(fā)的切換延時問題。
4) 主控單元切換和信令處理單元切換均存在基站設(shè)備脫管等異常問題。原廠研發(fā)團(tuán)隊暫無解決方案,為應(yīng)對此問題,需提前準(zhǔn)備全線各基站配置數(shù)據(jù)腳本,縮短應(yīng)急處置時間。
冗余保護(hù)機(jī)制的設(shè)置使得鐵路通信系統(tǒng)的可用性得到進(jìn)一步提升,看到成效的同時,也要積極應(yīng)對由于各種因素的影響而出現(xiàn)的失效問題,通過采取有針對性的維護(hù)管理手段,補(bǔ)齊冗余機(jī)制短板,提出以下4點(diǎn)建議措施。
1)豐富冗余試驗場景。要針對設(shè)備的倒換保護(hù)機(jī)制細(xì)化試驗方案,通過增加試驗場景,摒棄單一命令切換試驗方法,掌握每類設(shè)備的保護(hù)機(jī)制原理和特性,達(dá)到應(yīng)之有備。
2)增加重點(diǎn)設(shè)備冗余切換頻次。對設(shè)備在線時間長,工作環(huán)境惡劣的設(shè)備,增加冗余切換試驗頻次,由《維規(guī)》要求的年度試驗調(diào)整為半年,同時結(jié)合重點(diǎn)任務(wù)、暑運(yùn)及春運(yùn)保障工作適時開展,及時發(fā)現(xiàn)并解決軟硬件隱患問題。
3)進(jìn)一步完善冗余切換的作業(yè)流程。分周期進(jìn)行主備節(jié)點(diǎn)業(yè)務(wù)承載,冗余備用狀態(tài)板件的正常與否,在短時間的試驗和系統(tǒng)監(jiān)測條件下并不能客觀反映,要在維護(hù)作業(yè)中明確非業(yè)務(wù)承載板件、節(jié)點(diǎn)的狀態(tài)倒換,并使其具備一定時間的運(yùn)行條件,從而提升備用設(shè)備的運(yùn)用質(zhì)量。
4)提升應(yīng)急處置能力。通過故障模擬找到設(shè)備保護(hù)機(jī)制的切換用時及觸發(fā)條件,完善應(yīng)急預(yù)案中對切換機(jī)制觸發(fā)條件、切換時間、板件切換保護(hù)時間等內(nèi)容,提升應(yīng)急響應(yīng)能力。在發(fā)生復(fù)雜網(wǎng)絡(luò)故障導(dǎo)致系統(tǒng)機(jī)制失效時,堅決采取人工切換方法,采取“斷、停、甩”的處置思路,舍棄低級別保護(hù)機(jī)制設(shè)備,發(fā)揮上級網(wǎng)絡(luò)保護(hù)機(jī)制作用。
目前鐵路通信系統(tǒng)冗余保護(hù)功能因受到原廠設(shè)計、系統(tǒng)組網(wǎng)、軟件缺陷、參數(shù)設(shè)置等諸多因素影響,沒能充分發(fā)揮出其應(yīng)有的能力,特別是核心設(shè)備功能實(shí)現(xiàn)方面還存在欠缺。切換觸發(fā)條件的合理性、網(wǎng)絡(luò)和設(shè)備的關(guān)聯(lián)性、維護(hù)試驗周期、測試內(nèi)容,以及冗余設(shè)備的業(yè)務(wù)承載等方面仍需完善。通過設(shè)備的優(yōu)化及維護(hù)管理制度的加強(qiáng),能夠更有效地解決冗余保護(hù)機(jī)制存在的問題,充分發(fā)揮機(jī)制作用[13]。
隨著5G-R 技術(shù)的發(fā)展,鐵路通信系統(tǒng)的演進(jìn)將變得更加深入,冗余保護(hù)機(jī)制的功能也將更為全面。原有通過硬件疊加實(shí)現(xiàn)的冗余保護(hù)機(jī)制將被高度集成化的元器件所替代。分散的軟件控制技術(shù)、云化虛擬主機(jī)將以“看不到”的形式完成邏輯功能[14]。維護(hù)人員將很難判斷某個功能單元具體運(yùn)行的服務(wù)器位置,以及處理數(shù)據(jù)記錄或者業(yè)務(wù)請求的實(shí)體設(shè)備情況,數(shù)據(jù)通信、全光網(wǎng)絡(luò)將會在更大范圍內(nèi)取代傳統(tǒng)的接入設(shè)備,全互聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu)在每一個數(shù)據(jù)包面前都是通路,如何更好地發(fā)揮冗余保護(hù)機(jī)制的作用,仍需要通信部門的維護(hù)人員和設(shè)計者繼續(xù)深入研究。