姜鵬
摘 要:自動化系統(tǒng)作為空管雷達(dá)設(shè)備中的核心系統(tǒng),是管制員實(shí)施雷達(dá)管制所依賴的“千里眼”。目前國內(nèi)多家空管單位所使用的Aerotrac空管自動化系統(tǒng)由美國Telephonics生產(chǎn),配備多臺冗余服務(wù)器以及多條冗余網(wǎng)絡(luò),具有處理能力強(qiáng)、安全系數(shù)高、運(yùn)行穩(wěn)定等優(yōu)點(diǎn)。其雷達(dá)處理服務(wù)器(以下簡稱RDP)負(fù)責(zé)處理各路引接的雷達(dá)信號,通過濾波、加權(quán)融合,輸出平滑穩(wěn)定的高精度雷達(dá)航跡,因此RDP運(yùn)行穩(wěn)定與否,從某種程度上決定了雷達(dá)管制能否順利有效的實(shí)施。文章,作者通過對RDP運(yùn)行模式以及網(wǎng)絡(luò)數(shù)據(jù)包的分析,作者所在單位(以下稱某單位)RDP進(jìn)程假死故障的診斷和分析,透析Aerotrac自動化系統(tǒng)RDP運(yùn)作模式。
關(guān)鍵詞:空管自動化系統(tǒng);RDP進(jìn)程;假死
1 RDP網(wǎng)絡(luò)架構(gòu)及工作原理
目前筆者所在單位Aerotrac自動化共配有3臺RDP以及3條互為冗余的網(wǎng)絡(luò),每臺RDP連接其中的兩條網(wǎng)絡(luò),同時(shí)只有一臺RDP處于主用狀態(tài)(Online),其他RDP處于備用狀態(tài)(Backup),主用RDP負(fù)責(zé)在其連接的兩個(gè)網(wǎng)上對外廣播處理后的融合航跡,備用RDP負(fù)責(zé)將主用RDP廣播的融合航跡轉(zhuǎn)發(fā)到第三個(gè)網(wǎng)上。
其中RDP01-03擁有依次遞減的上線優(yōu)先級,即RDP01的優(yōu)先級最高,RDP02優(yōu)先級次之,RDP03優(yōu)先級最低;3臺RDP之間通過傳遞心跳信息實(shí)現(xiàn)通信,RDP對外廣播的心跳信息是其他RDP判明其工作狀態(tài)的唯一依據(jù)。通過對RDP廣播的網(wǎng)絡(luò)包進(jìn)行分析,RDP心跳數(shù)據(jù)的16進(jìn)制標(biāo)準(zhǔn)格式如下:
00 03 13 00 42 00 00 00 00 53 00 00
字節(jié)1-2:本條指令的長度/4
字節(jié)3:本條指令的功能號(13代表該條指令為RDP心跳信息)
字節(jié)5:代表RDP工作的狀態(tài),4F/42/58分別代表online/backup/loading
字節(jié)10:代表RDP的編號以及該臺RDP所接網(wǎng)絡(luò)的情況;其中bit0-3為RDP編號,bit4-6為各臺RDP所接網(wǎng)絡(luò)情況,接為1,不接為0,因此RDP01為31,RDP02為62,RDP03為53
2 RDP進(jìn)程假死的故障診斷
2.1 故障現(xiàn)象
2016年11月27日19:09-19:10某單位Telephonics主用自動化系統(tǒng)故障,DP上目標(biāo)中斷約9秒鐘;事發(fā)前各臺RDP工作狀態(tài)為:BOB,即RDP02為主用服務(wù)器,RDP01和03為備用服務(wù)器。故障前后經(jīng)過如下:
19:09:01 RDP狀態(tài)顯示消失,并提示:PlayBack Halted,DP上大部分目標(biāo)丟失
19:09:10 RDP狀態(tài):O*B,提示RDP02掉線,RDP01變?yōu)橹饔茫繕?biāo)逐步恢復(fù)
19:10:03 RDP狀態(tài):OOB,RDP02重新上線變?yōu)橹饔?,目?biāo)正常
19:10:10 RDP狀態(tài):O*B,RDP02又提示掉線,目標(biāo)正常
19:10:43 值班人員手動啟動RDP02進(jìn)程,RDP狀態(tài)恢復(fù)為OBB*B
2.2 故障診斷及分析
事后筆者分析了故障前后19:08:50-19:10:04期間Aerotrac系統(tǒng)A、B網(wǎng)上的網(wǎng)絡(luò)數(shù)據(jù)包。
階段一:即故障發(fā)生前,RDP02為主用,RDP01、RDP03為備用,RDP02廣播主用心跳及航跡數(shù)據(jù),RDP01、03廣播備用心跳,RDP狀態(tài):OBB,正常情況下網(wǎng)絡(luò)數(shù)據(jù)包在100-200之間。
階段二: RDP02故障下線,RDP02停止廣播心跳以及航跡數(shù)據(jù),RDP01、03繼續(xù)廣播備用心跳,此時(shí)系統(tǒng)內(nèi)沒有處于主用狀態(tài)的RDP,RDP狀態(tài):B*B,網(wǎng)絡(luò)數(shù)據(jù)包驟減。
階段三: 由于RDP01上線優(yōu)先級最高,當(dāng)RDP01檢測不到RDP02主用心跳后,RDP01上線,廣播主用心跳及航跡數(shù)據(jù),RDP03廣播備用心跳,RDP狀態(tài):O*B,網(wǎng)絡(luò)數(shù)據(jù)包數(shù)量恢復(fù)正常。
階段四: RDP02再次上線,重新廣播主用心跳及航跡數(shù)據(jù),此時(shí)RDP01繼續(xù)廣播主用心跳及航跡數(shù)據(jù),RDP03廣播備用心跳,RDP狀態(tài)OOB,兩臺RDP同時(shí)在線,網(wǎng)絡(luò)數(shù)據(jù)包數(shù)量翻倍。
階段五:由于RDP01的上線優(yōu)先級高于RDP02,因此RDP01將RDP02 kill掉,RDP02離線,RDP01繼續(xù)廣播主用心跳及航跡數(shù)據(jù),RDP03廣播備用心跳,RDP狀態(tài):O*B。
基于上述分析,我們可以得出,故障之前RDP02為主用狀態(tài),因RDP02異常導(dǎo)致未能向外廣播航跡以及心跳信息,根據(jù)優(yōu)先級情況,RDP01嘗試上線作為主用,此時(shí)RDP02進(jìn)程并未真正退出,但由于RDP01優(yōu)先級較高,RDP01發(fā)現(xiàn)RDP02狀態(tài)仍為Online時(shí)將RDP02殺掉,此后RDP02進(jìn)程處于離線狀態(tài)。從RDP02非正常切換至RDP01期間,目標(biāo)出現(xiàn)丟失。
可能原因一:RDP02或因接收到錯誤的雷達(dá)數(shù)據(jù)等未知原因?qū)е逻M(jìn)程卡死,停止對外廣播心跳信息及雷達(dá)航跡信息。在11.27日19:09:00與19:09:01這兩秒中網(wǎng)絡(luò)中出現(xiàn)了大量異常網(wǎng)絡(luò)數(shù)據(jù),且均由RDP02發(fā)出,很有可能是RDP02工作異常產(chǎn)生。
可能原因二:RDP02或因網(wǎng)絡(luò)連接出現(xiàn)異常,導(dǎo)致心跳信息及航跡數(shù)據(jù)無法正常廣播到網(wǎng)絡(luò)中。
3 監(jiān)測程序的設(shè)計(jì)
由于Aerotrac自動化系統(tǒng)故障日志管理方面的薄弱,系統(tǒng)在出現(xiàn)RDP假死時(shí)未能保留足夠的日志供技術(shù)人員參考,基于這種情況,為了排查上述兩種可能導(dǎo)致RDP假死的原因,筆者利用Shell腳本編寫了監(jiān)測腳本,為了減少監(jiān)測腳本對RDP運(yùn)行的影響,筆者將該腳本運(yùn)行在飛行計(jì)劃處理服務(wù)器(FDP)上,通過UNIX系統(tǒng)rsh遠(yuǎn)程訪問指令,實(shí)現(xiàn)對RDP狀態(tài)的監(jiān)測,腳本主要功能如下:
(1)定時(shí)監(jiān)測RDP01、RDP02的網(wǎng)絡(luò)連接情況。
(2)定時(shí)監(jiān)測RDP01、RDP02 mrt、u_rcvr等進(jìn)程CPU以及內(nèi)存占用情況。
4 結(jié)束語
筆者針對目前珠海進(jìn)近Aerotrac自動化系統(tǒng)RDP假死的情況進(jìn)行了診斷和分析,得出了可能造成RDP假死的兩種原因,有針對性的編寫了Shell腳本實(shí)現(xiàn)對RDP進(jìn)程以及網(wǎng)絡(luò)連接情況的監(jiān)測,以彌補(bǔ)Aerotrac系統(tǒng)自身日志管理方面的不足。限于筆者知識經(jīng)驗(yàn)所限,本文介紹的內(nèi)容未免有錯漏之處,懇請同行批評指正。
參考文獻(xiàn)
[1]張明偉,靳學(xué)梅,白紅利.下一代管制自動化系統(tǒng)研究與設(shè)想[J].航空計(jì)算技術(shù),2015(04).
[2]謝玉蘭.大區(qū)域空管自動化系統(tǒng)發(fā)展探索[J].空中交通管理,2011(01).
[3]呂躍玲.航管主備自動化系統(tǒng)電子移交功能切換的實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2016(19).