王棟坤
引言
民航通信網(wǎng)是民航重要核心基礎設施,為民航各級管理單位、空管系統(tǒng)、民航運輸企業(yè)和機場等提供全面的通信傳輸服務。從2020年開始持續(xù)到2021年,民航通信網(wǎng)業(yè)務遷移工作開展如火如荼,其中轉報業(yè)務作為民航重要基礎業(yè)務,在民航通信網(wǎng)業(yè)務遷移中至關重要。浙江分局轉報業(yè)務遷移,需對杭州至上海以及至四個地方機場的轉報業(yè)務進行遷改。
一、背景
浙江空管分局在用自動轉報系統(tǒng)兩套,都為北京航管科技公司96路大型轉報系統(tǒng)。分局轉報業(yè)務遷改前5個ATM信道端口共用一個切換單元,并最終連接至兩套系統(tǒng)異步單元上。其中上海速率9600,四個地方機場速率1200,在民航通信網(wǎng)轉報業(yè)務遷改前后,使用原端口。根據(jù)統(tǒng)一規(guī)劃,業(yè)務遷改后上海速率保持9600,杭州至四個地方機場速率由1200改為4800。業(yè)務遷改前,杭州與華東對進行過一次報文壓力傳輸測試,確認TDM鏈路傳輸報文正常。與四個地方機場通過民航通信網(wǎng)鏈路互發(fā)測試報文,都正常。正式將四個地方機場轉報遷改至民航通信網(wǎng)TDM鏈路傳輸后,義烏機場使用民航通信網(wǎng)作為主用鏈路,其他三個地方機場則作為備用鏈路,只收發(fā)定檢報。
二、異常現(xiàn)象
轉報業(yè)務遷改后幾天,出現(xiàn)杭州接收義烏機場TDM路報文時偶爾有錯報產(chǎn)生,錯報報文中出現(xiàn)漏字現(xiàn)象,對方接收杭州報文則都正常。錯報產(chǎn)生頻率不固定,有時一天幾份,有時幾天一份。報文漏字現(xiàn)象主要出現(xiàn)在收電地址行、發(fā)電地址行以及電報正文內容。
三、故障分析及排故
由于義烏機場業(yè)務遷改前,收發(fā)報文一直是正常狀態(tài),遷改后轉報系統(tǒng)端口沒有變化,且杭州主備轉報系統(tǒng)均接收到錯報,我們判斷不太可能兩套轉報系統(tǒng)同時出現(xiàn)問題,我們初步判斷為中間傳輸問題,優(yōu)先對變更的傳輸鏈路進行排查。切割前后拓撲如下:
1、第一階段排故
我們首先聯(lián)系TDM廠家工程師對杭州和義烏兩端接入設備AR3260配置進行檢查,確認中間運營商的傳輸正常,但發(fā)現(xiàn)杭州與義烏兩臺TDM設備的軟件版本不一致。但將兩地設備版本升級一致后,經(jīng)過報文測試,仍然存在同樣問題。
在義烏端TDM設備上軟件打環(huán)和直接在義烏端TDM設備端口處收發(fā)短接,杭州端使用儀表HCT-6000A對轉報接入節(jié)點的華為路由器端口進行遠端環(huán)誤碼測試,經(jīng)過多次長時間測試顯示正常無誤碼。但拆除儀表后直接接入轉報系統(tǒng),仍然存在同樣問題。
2、第二階段排故
經(jīng)過第一階段的排查,排除了中間傳輸?shù)膯栴},由于義烏機場在遷改前后更換了端口,讓對方恢復回原端口,但經(jīng)過測試還是存在同樣問題。而恢復回原ATM路傳輸,經(jīng)過長時間驗證,報文傳輸都正常,排故陷入了一個死胡同。
3、第三階段排故
經(jīng)過前兩個階段排故,排除傳輸鏈路和義烏機場原因。由于正常的報文測試需要時間較久,我們在杭州備份轉報系統(tǒng)設置每10s定時發(fā)報,進行大報文量模擬發(fā)報測試。在設備端短接,系統(tǒng)接收返回的測試報文這種方式進行驗證。
杭州主備兩套轉報系統(tǒng)同時收到錯報,可能是共用切換器端口有問題,但更換端口后,仍存在同樣問題。脫開切換器,直接在接入TDM設備線纜處做短接,仍然存在錯報。排除傳輸設備和線纜可能后,異步單元端口處直接進行短接測試和更換不同的異步單元,仍然存在錯報。
排故到這個階段,基本確定轉報軟件存在問題。重頭梳理整個遷改過程,發(fā)現(xiàn)遺漏了一個不起眼的地方,雖然遷改前后端口配置都沒有改變,但速率由1200改到4800,前期排故由于設備在同一機房,距離不到10米,且更高速率的上海信道9600,報文傳輸都正常,我們默認4800速率不會有問題。修改速率至1200,重新測試正常。進一步測試確認4800速率就會產(chǎn)生漏字現(xiàn)象,速率1200和9600都正常。
4、第四階段排故
根據(jù)《民用航空自動轉報系統(tǒng)技術規(guī)范》中RS232接口速率規(guī)定,4800速率符合自動轉報系統(tǒng)技術規(guī)范,且華東空管局其他分局站使用該系統(tǒng)也有4800速率,沒有出現(xiàn)類似現(xiàn)象,那肯定是杭州轉報系統(tǒng)存在與其他分局站不同的地方。
經(jīng)與北京航管科技公司工程師討論研究,對方搭建測試環(huán)境模擬杭州實際運行狀態(tài),也存在類似情況,4800速率會收到漏字的錯報。對杭州轉報系統(tǒng)再進行深度分析,最終發(fā)現(xiàn)杭州自動轉報系統(tǒng)上掛接一個雙套監(jiān)控軟件,而廠家測試轉報軟件中則集成了雙套監(jiān)控的模塊,雙套監(jiān)控軟件會每秒采集各設備狀態(tài)信息。
將雙套監(jiān)控軟件與轉報系統(tǒng)斷開,用速率4800測試,經(jīng)過長時間的報文測試,未出現(xiàn)漏字現(xiàn)象,確認是轉報雙套監(jiān)控軟件導致此問題。后續(xù)經(jīng)過與廠家工程師溝通,確認轉報雙套監(jiān)控軟件對2400,4800 和115200速率都會有影響,由于此前沒有用到這幾個速率,雖然雙套監(jiān)控軟件一直使用,但沒有實際影響。最終確定轉報雙套監(jiān)控軟件會影響北京航管科技轉報系統(tǒng)部分速率接收報文,導致偶發(fā)漏字情況。
總結
回顧此次排故過程,對未來維護維修工作很有借鑒意義。首先通過此次排故發(fā)現(xiàn)以前一直忽略的輔助軟件,可能會導致相應系統(tǒng)一些想不到的問題,而且因為是偶發(fā)現(xiàn)象,很難發(fā)現(xiàn),需要在使用這些輔助軟件時分外小心。其次,排故過程要充分考慮變量,不能因為該變量不起眼或者不重要而忽略,這次由于傳輸設備和線纜都改變這個大變量在,排故思路一直圍繞大變量,而速率1200和9600都是正常的,想當然默認4800肯定沒問題,導致排故走了很多彎路。最后通過此次排故,發(fā)現(xiàn)轉報系統(tǒng)存在的bug,通過廠家軟件優(yōu)化,可以為分局即將新建的轉報系統(tǒng)運維提供了更好保障。
參考文獻:
[1]《民用航空自動轉報系統(tǒng)技術規(guī)范》
[2]《民航空管自動轉報系統(tǒng)設備配置規(guī)范》