李 巖
(民航青??展芊志?,西寧 810000)
民航通信網(wǎng)以高可靠性、豐富的業(yè)務(wù)接口以及更靈活的介入方式等諸多優(yōu)良特性在民航空管領(lǐng)域已經(jīng)得到廣泛應(yīng)用,并已成為現(xiàn)今各機(jī)場(chǎng)、空管以及局方之間各類業(yè)務(wù)數(shù)據(jù)傳輸?shù)闹鞲删W(wǎng)絡(luò)。西北地區(qū)民航通信網(wǎng)自2018年初步建成,2019年開始逐步完成空管業(yè)務(wù)從ATM民航數(shù)據(jù)通信網(wǎng)至民航通信網(wǎng)的遷移,青海分局目前大部分業(yè)務(wù)已經(jīng)依托于民航通信網(wǎng)作主要傳輸手段,隨著分局業(yè)務(wù)割接工作的逐步完成,以及業(yè)務(wù)割接后的運(yùn)行保障,使得相關(guān)維護(hù)人員對(duì)民航通信網(wǎng)的運(yùn)行維護(hù)能力也不斷得到提升。
民航通信網(wǎng)的整個(gè)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)是由核心層、匯聚層和接入層3部分構(gòu)成,其中,核心層具有完成覆蓋全網(wǎng)核心節(jié)點(diǎn)(全網(wǎng)中北京網(wǎng)控、上海網(wǎng)控以及里河災(zāi)備中心、7個(gè)地區(qū)空管局節(jié)點(diǎn)及7個(gè)區(qū)管中心節(jié)點(diǎn),是整個(gè)民航通信網(wǎng)TDM網(wǎng)的核心層)的功能;匯聚層完成覆蓋全網(wǎng)匯聚節(jié)點(diǎn)(空管分局或空管站)的功能;接入層完成覆蓋所有接入節(jié)點(diǎn)(各地區(qū)機(jī)場(chǎng)、各地區(qū)臺(tái)站、各地區(qū)管理局等)的功能。
分局進(jìn)近項(xiàng)目傳輸系統(tǒng)于2018年建成,采用與民航通信網(wǎng)TDM網(wǎng)完全相同的組網(wǎng)結(jié)構(gòu),覆蓋泮子山雷達(dá)站甚高頻(VHF)臺(tái)、黑虎旗山VHF臺(tái)、貴德河西中學(xué)VHF臺(tái)、貴德珍珠寺VHF臺(tái)、化隆西上村VHF臺(tái)、化隆線務(wù)段VHF臺(tái)、河橋樂山村VHF臺(tái)、河橋馬軍坪VHF臺(tái)共8個(gè)甚高頻臺(tái)站,主要完成8個(gè)站點(diǎn)VHF業(yè)務(wù)及其監(jiān)控信號(hào)的接入,供西寧進(jìn)近管制區(qū)使用,其網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)淙鐖D1所示。
圖1 青海分局進(jìn)近項(xiàng)目傳輸系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)?/p>
在民航空管運(yùn)行中,通信網(wǎng)絡(luò)的可靠性極大程度上影響著空中交通秩序的管制和飛行安全,實(shí)現(xiàn)各類空管業(yè)務(wù)、數(shù)據(jù)信息的可靠穩(wěn)定傳輸,是空管系統(tǒng)安全生產(chǎn)的重要基礎(chǔ)。
在民航通信網(wǎng)規(guī)劃設(shè)計(jì)及實(shí)際部署中,通信網(wǎng)絡(luò)的可靠性是通過在軟件上支持IP FRR(快速重路由Fast ReRouting)+BFD(雙向轉(zhuǎn)發(fā)檢測(cè)Bidirectional Forwarding Detection),LDP FRR+BFD等來實(shí)現(xiàn)的。
(1)BFD技術(shù)
民航通信網(wǎng)TDM網(wǎng)主要以轉(zhuǎn)報(bào)、雷達(dá)和VHF等數(shù)據(jù)業(yè)務(wù)承載為主,故障檢測(cè)時(shí)間沒有特定要求,主要靠路由協(xié)議收斂,一般收斂速度為秒級(jí)或者以上。BFD(雙向轉(zhuǎn)發(fā)檢測(cè))是一套用來實(shí)現(xiàn)快速檢測(cè)的國(guó)際標(biāo)準(zhǔn)協(xié)議,提供一種輕負(fù)荷、持續(xù)時(shí)間短的檢測(cè)。硬件實(shí)現(xiàn)BFD不影響系統(tǒng)運(yùn)行,民航通信網(wǎng)TDM項(xiàng)目實(shí)現(xiàn)鏈路硬件BFD檢測(cè)功能,因此民航通信網(wǎng)TDM承載網(wǎng)啟用的是IS-IS動(dòng)態(tài)路由,并采用單層Level 2,打開ISIS的BFD功能,LDP LSP/Tunnel的BFD技術(shù)加快對(duì)故障鏈路和故障節(jié)點(diǎn)的快速感知。
(2)FRR技術(shù)
FRR(快速重路由)是當(dāng)網(wǎng)絡(luò)中鏈路或者節(jié)點(diǎn)失效后,為這些重要的節(jié)點(diǎn)或鏈路提供備份保護(hù),實(shí)現(xiàn)快速重路由,減少鏈路或節(jié)點(diǎn)失效時(shí)對(duì)流量的影響,使流量實(shí)現(xiàn)快速恢復(fù),能夠快速地發(fā)現(xiàn)鏈路失效,并且當(dāng)鏈路失效后能夠迅速地提供一條恢復(fù)路徑,而且能夠保證在后繼網(wǎng)絡(luò)恢復(fù)過程中,避免出現(xiàn)轉(zhuǎn)發(fā)環(huán)路。
龐雜的網(wǎng)絡(luò)系統(tǒng)為民航空管提供便捷通信的同時(shí),其運(yùn)行中也會(huì)出現(xiàn)各種網(wǎng)絡(luò)故障,作為民航空管運(yùn)行維護(hù)人員,高效、及時(shí)、準(zhǔn)確地對(duì)通信網(wǎng)絡(luò)傳輸故障進(jìn)行診斷排查并較好地適應(yīng)各種動(dòng)態(tài)變化是需要具備的基本技能,本文以民航青??展芊志諸DM網(wǎng)節(jié)點(diǎn)中,黑虎旗山甚高頻(VHF)臺(tái)站至西寧機(jī)場(chǎng)航管樓的民航通信網(wǎng)TDM傳輸故障為典型案例進(jìn)行深入分析。
3.1.1 第一次故障現(xiàn)象
2021年5月27日09:37左右維護(hù)人員發(fā)現(xiàn)進(jìn)近項(xiàng)目傳輸系統(tǒng)傳輸網(wǎng)管監(jiān)控上出現(xiàn)黑虎旗山甚高頻臺(tái)站電信、聯(lián)通傳輸鏈路同時(shí)中斷的告警信息,傳輸網(wǎng)管拓?fù)渖巷@示臺(tái)站2臺(tái)傳輸設(shè)備(FA16-T)均離線(綠色正常狀態(tài)變?yōu)榛疑x線狀態(tài)),網(wǎng)管無法登錄連接至臺(tái)站傳輸設(shè)備,與此同時(shí),甚高頻業(yè)務(wù)監(jiān)控終端上顯示黑虎旗山甚高頻臺(tái)站甚高頻業(yè)務(wù)傳輸中斷;民航通信網(wǎng)TDM網(wǎng)傳輸網(wǎng)管上只顯示電信傳輸鏈路中斷的告警,網(wǎng)管拓?fù)浣Y(jié)構(gòu)中臺(tái)站2臺(tái)傳輸設(shè)備均在線,而且能夠正常遠(yuǎn)程登錄到臺(tái)站2臺(tái)TDM傳輸設(shè)備(FA16-T),維護(hù)人員初步判斷電信、聯(lián)通傳輸鏈路中斷。
3.1.2 第二次故障現(xiàn)象
2021年8月8日21:59左右進(jìn)近項(xiàng)目傳輸系統(tǒng)網(wǎng)管監(jiān)控上出現(xiàn)黑虎旗山甚高頻臺(tái)站電信傳輸中斷告警,而聯(lián)通傳輸鏈路并未有中斷告警,僅通過聯(lián)通鏈路PING臺(tái)站傳輸設(shè)備時(shí)發(fā)現(xiàn)延遲較大(業(yè)務(wù)正常傳輸時(shí)傳輸時(shí)延小于10 ms,傳輸故障時(shí)傳輸時(shí)延達(dá)200~300 ms),傳輸網(wǎng)管拓?fù)渖吓_(tái)站傳輸設(shè)備顯示在線狀態(tài),但是通過遠(yuǎn)程登錄臺(tái)站設(shè)備時(shí)登錄非??D,遠(yuǎn)程連接成功后自動(dòng)斷開連接,與此同時(shí),甚高頻業(yè)務(wù)監(jiān)控終端上顯示黑虎旗山甚高頻臺(tái)站甚高頻業(yè)務(wù)未中斷,但是管制用戶使用的甚高頻業(yè)務(wù)已經(jīng)出現(xiàn)斷續(xù)、延遲大的情況,無法滿足正常使用要求;同時(shí)民航通信網(wǎng)TDM網(wǎng)傳輸網(wǎng)管上出現(xiàn)電信傳輸鏈路中斷告警,傳輸網(wǎng)管拓?fù)渖吓_(tái)站傳輸設(shè)備顯示在線狀態(tài),遠(yuǎn)程登錄到臺(tái)站2臺(tái)TDM傳輸設(shè)備檢查各運(yùn)行狀態(tài)均正常,維護(hù)人員初步判斷電信傳輸鏈路中斷、聯(lián)通傳輸鏈路可能存在異常。
針對(duì)2次故障情況的排查情況分別詳述如下。
3.2.1 第一次故障排查過程
(1)因無法正常遠(yuǎn)程登錄查看設(shè)備狀態(tài),維護(hù)人員及時(shí)前往臺(tái)站確認(rèn)進(jìn)近項(xiàng)目傳輸設(shè)備狀態(tài),并發(fā)現(xiàn)傳輸設(shè)備供電及運(yùn)行狀態(tài)均正常,使用維護(hù)筆記本登錄到臺(tái)站2臺(tái)傳輸設(shè)備,發(fā)現(xiàn)傳輸設(shè)備配置均正常,各端口及其業(yè)務(wù)通信鏈路也未有卡死情況。
(2)告知電信、聯(lián)通運(yùn)營(yíng)商分局相關(guān)傳輸設(shè)備運(yùn)行正常后,維護(hù)人員進(jìn)一步排查分析,發(fā)現(xiàn)黑虎旗山甚高頻臺(tái)站民航通信網(wǎng)TDM網(wǎng)傳輸設(shè)備的電信鏈路故障,而聯(lián)通鏈路卻可以正常提供服務(wù),且網(wǎng)管監(jiān)控顯示鏈路連接均正常。
(3)維護(hù)人員將民航通信網(wǎng)TDM網(wǎng)的正常聯(lián)通鏈路更換接至進(jìn)近項(xiàng)目傳輸設(shè)備提供傳輸支撐時(shí),發(fā)現(xiàn)進(jìn)近項(xiàng)目傳輸網(wǎng)管已離線設(shè)備能夠正常上線,且只顯示電信鏈路故障,由此確定進(jìn)近項(xiàng)目傳輸系統(tǒng)中黑虎旗山甚高頻臺(tái)站至機(jī)場(chǎng)航管樓的聯(lián)通鏈路故障,聯(lián)系聯(lián)通繼續(xù)排查鏈路故障。
(4)此時(shí)電信確認(rèn)其傳輸光纜在離機(jī)房1 km處有斷點(diǎn),排查期間由于電信運(yùn)營(yíng)商資料不完整,電信派多人至現(xiàn)場(chǎng)查找故障光纜,而聯(lián)通在核實(shí)后發(fā)現(xiàn)其光纜并未中斷,聯(lián)通維護(hù)人員在機(jī)場(chǎng)航管樓側(cè)實(shí)測(cè)發(fā)現(xiàn)傳輸丟包嚴(yán)重,且路由不穩(wěn)定。
(5)當(dāng)日17:57電信找到由于外方施工挖斷的斷點(diǎn),并快速恢復(fù)光纖后電信鏈路恢復(fù)正常,傳輸網(wǎng)管上臺(tái)站傳輸設(shè)備正常上線,測(cè)試甚高頻業(yè)務(wù)使用正常。
(6)聯(lián)通運(yùn)營(yíng)商于次日10:00發(fā)現(xiàn)為其核心樞紐數(shù)據(jù)錯(cuò)誤導(dǎo)致傳輸異常,在重新配置數(shù)據(jù)后業(yè)務(wù)恢復(fù)正常。
3.2.2 第二次故障排查過程
(1)故障發(fā)生后,及時(shí)聯(lián)系電信、聯(lián)通運(yùn)營(yíng)商排查傳輸鏈路,同時(shí)維護(hù)人員去現(xiàn)場(chǎng)核實(shí)情況,經(jīng)電信運(yùn)營(yíng)商通過其后臺(tái)網(wǎng)管核實(shí),發(fā)現(xiàn)電信傳輸鏈路有中斷告警,之后前往臺(tái)站進(jìn)一步排查。
(2)電信運(yùn)營(yíng)商到達(dá)臺(tái)站后,發(fā)現(xiàn)臺(tái)站周圍有施工,施工導(dǎo)致地埋光纜被挖斷,電信快速進(jìn)行光纖熔接,于10:50左右電信光纖恢復(fù)正常,發(fā)現(xiàn)進(jìn)近項(xiàng)目傳輸系統(tǒng)黑虎旗山甚高頻臺(tái)站至機(jī)場(chǎng)航管樓電信傳輸鏈路及民航通信網(wǎng)TDM網(wǎng)電信鏈路均恢復(fù)正常。
(3)聯(lián)通在到達(dá)現(xiàn)場(chǎng)后進(jìn)行測(cè)試,臺(tái)站及航管樓兩側(cè)斷開青海分局傳輸設(shè)備進(jìn)行互PING操作時(shí),傳輸質(zhì)量良好,時(shí)延約3~5 ms,后接入青海分局傳輸設(shè)備同時(shí)斷開電信傳輸鏈路,將聯(lián)通鏈路單獨(dú)接入,發(fā)現(xiàn)兩側(cè)互PING時(shí)傳輸時(shí)延依然超過業(yè)務(wù)正常傳輸?shù)淖畹蜁r(shí)延要求,且有丟包,測(cè)試業(yè)務(wù)依然異常,語音通話出現(xiàn)嚴(yán)重的超時(shí)現(xiàn)象。
(4)聯(lián)系工程師排查傳輸設(shè)備配置問題,工程師排查后發(fā)現(xiàn)系統(tǒng)軟件版本老舊,無法有效產(chǎn)生告警只是客觀原因,主觀原因是單鏈路傳輸時(shí)端口帶寬超過2 M,約為3 M,如圖2所示,鏈路帶寬無法有效支撐起傳輸作用,而單獨(dú)接入電信2 M鏈路時(shí)各業(yè)務(wù)均顯示正常,時(shí)延在正常范圍內(nèi),丟包為0。
圖2 單鏈路傳輸時(shí)峰值帶寬
(5)為了有效進(jìn)行判斷,聯(lián)系聯(lián)通臨時(shí)開通4 M鏈路帶寬用于測(cè)試,同時(shí)將設(shè)備級(jí)聯(lián)線斷開,單獨(dú)進(jìn)行傳輸,發(fā)現(xiàn)電信端口數(shù)據(jù)帶寬占用1.78 M左右,如圖3所示,而聯(lián)通端口占用1.27 M左右,如圖4所示,此時(shí)業(yè)務(wù)運(yùn)行均正常,在兩側(cè)互PING時(shí)數(shù)據(jù)傳輸均正常。
圖3 級(jí)聯(lián)時(shí)電信傳輸峰值帶寬
圖4 級(jí)聯(lián)時(shí)聯(lián)通傳輸峰值帶寬
(6)與工程師確認(rèn)后發(fā)現(xiàn),甚高頻業(yè)務(wù)每個(gè)信道占用固定帶寬100 K左右,甚高頻監(jiān)控占用300~500 K左右,因此電信路由器12信道加監(jiān)控共占用大概1.7 M左右?guī)?,?lián)通路由器12信道共占用1.2 M左右?guī)挕?/p>
本次通信網(wǎng)絡(luò)傳輸故障案例分析采用人、機(jī)、環(huán)、管綜合分析法進(jìn)行深入剖析,具體分析如下。
3.3.1 人為原因
機(jī)務(wù)員判斷故障點(diǎn)能力較弱,對(duì)部分關(guān)鍵操作不太熟悉,且機(jī)務(wù)員在發(fā)現(xiàn)同一光端機(jī)鏈路狀態(tài)不一致時(shí)未能準(zhǔn)確判斷出問題所在,依然判斷為物理故障原因,體現(xiàn)出對(duì)業(yè)務(wù)和設(shè)備原理不熟練,沒有第一時(shí)間判斷出故障大概原因。
3.3.2 設(shè)備原因
(1)由于進(jìn)近項(xiàng)目傳輸設(shè)備其軟件版本未曾更新過,導(dǎo)致其部分功能仍處于不完整狀態(tài),在中間級(jí)聯(lián)線正常時(shí),路由器不會(huì)產(chǎn)生相關(guān)路由中斷告警。
(2)路由器檢測(cè)機(jī)制問題,只有在路由器完全檢測(cè)不到數(shù)據(jù)包時(shí)才認(rèn)為端口DOWN,當(dāng)端口有數(shù)據(jù)時(shí),哪怕是錯(cuò)誤的數(shù)據(jù)包,端口仍無法識(shí)別其狀態(tài)正常與否。
3.3.3 環(huán)境原因
(1)部分運(yùn)營(yíng)商對(duì)業(yè)務(wù)重視度不夠,導(dǎo)致在其做業(yè)務(wù)割接、轉(zhuǎn)移等工作時(shí)未有效通知用戶,因此用戶并未及時(shí)掌握其配置改動(dòng)信息,也無法對(duì)自己業(yè)務(wù)及時(shí)做出測(cè)評(píng),導(dǎo)致故障發(fā)生,對(duì)重要鏈路的保障度不夠,沒有將線纜做保護(hù)處理。
(2)隨著業(yè)務(wù)量的不斷增加,原有鏈路帶寬可能將不滿足業(yè)務(wù)正常運(yùn)行需求,需持續(xù)關(guān)注此類風(fēng)險(xiǎn),再將業(yè)務(wù)接入時(shí),需要做嚴(yán)厲測(cè)試,已確保運(yùn)營(yíng)商帶寬鏈路滿足業(yè)務(wù)需求。
3.3.4 管理原因
對(duì)業(yè)務(wù)敏感度不夠,未能及時(shí)有效溝通廠家進(jìn)行升級(jí)。
通過綜合分析2次傳輸故障情況,針對(duì)人為原因、設(shè)備原因、環(huán)境原因、管理原因分別依據(jù)青海分局實(shí)際運(yùn)行情況給出了相應(yīng)的隱患整改措施,本部分著重從設(shè)備及環(huán)境2方面就此類傳輸故障情況給出相應(yīng)的解決方案。
(1)對(duì)此次事件中已經(jīng)發(fā)生且可能在之后還會(huì)影響到業(yè)務(wù)正常傳輸?shù)呐_(tái)站傳輸設(shè)備進(jìn)行了隱患排查,重點(diǎn)排查分析臺(tái)站傳輸設(shè)備帶寬利用率及雙鏈路傳輸、單聯(lián)通鏈路傳輸和單電信鏈路傳輸時(shí)業(yè)務(wù)傳輸實(shí)際占用帶寬情況,結(jié)合后續(xù)增加或者減少業(yè)務(wù)量的需求,進(jìn)而分析確定是否需要溝通運(yùn)營(yíng)商增加傳輸帶寬。
(2)因民航通信網(wǎng)在規(guī)劃設(shè)計(jì)并實(shí)施建設(shè)時(shí)已充分考慮通信網(wǎng)絡(luò)傳輸可靠性設(shè)計(jì),依據(jù)民航空管局總局設(shè)計(jì)要求在全網(wǎng)中全部采用IS-IS動(dòng)態(tài)路由,并采用單層Level 2,打開IS-IS的BFD功能,而由青海分局自建的進(jìn)近項(xiàng)目傳輸系統(tǒng)中的傳輸設(shè)備缺乏BFD相關(guān)檢測(cè)機(jī)制,并未對(duì)鏈路的有效性準(zhǔn)確地進(jìn)行檢測(cè),在與廠家溝通后,廠家配合完成傳輸設(shè)備版本更新,對(duì)傳輸設(shè)備做相關(guān)檢測(cè)機(jī)制配置,進(jìn)而可以更好地對(duì)鏈路性能進(jìn)行實(shí)時(shí)監(jiān)測(cè),同時(shí)對(duì)涉及的其余臺(tái)站的傳輸設(shè)備做同樣的升級(jí)更新工作。
青海分局民航通信網(wǎng)TDM網(wǎng)及進(jìn)近項(xiàng)目傳輸系統(tǒng)各站點(diǎn)均采用電信、聯(lián)通雙鏈路傳輸至西寧機(jī)場(chǎng)航管樓,雙鏈路均正常時(shí),采用負(fù)載分擔(dān)的方式承載業(yè)務(wù)傳輸,當(dāng)其中一路故障時(shí),臺(tái)站所有業(yè)務(wù)均通過此正常鏈路進(jìn)行傳輸,這種情況下,需要同電信、聯(lián)通運(yùn)營(yíng)商進(jìn)一步協(xié)調(diào),不僅要其提供傳輸線纜資料及走向圖,核實(shí)雙方在臺(tái)站鏈路是否在同節(jié)點(diǎn)上,若存在同節(jié)點(diǎn)路由需要進(jìn)行改造,同時(shí)要求運(yùn)營(yíng)商在今后鏈路割接或者數(shù)據(jù)更新配置工作時(shí),對(duì)可能影響到分局業(yè)務(wù)傳輸時(shí)需要提前及時(shí)通報(bào),并在做完所有操作后需與分局相關(guān)維護(hù)人員確認(rèn)業(yè)務(wù)正常。
本文結(jié)合西北地區(qū)青海分局民航通信網(wǎng)TDM網(wǎng)及進(jìn)近項(xiàng)目傳輸系統(tǒng)實(shí)際運(yùn)行環(huán)境,詳細(xì)地闡述了在實(shí)際運(yùn)行過程中發(fā)生的黑虎旗山VHF臺(tái)站至西寧機(jī)場(chǎng)航管樓因通信網(wǎng)絡(luò)傳輸故障導(dǎo)致的VHF業(yè)務(wù)無法正常使用的故障案例,以及整個(gè)故障排查過程的思路和步驟,之后從人、機(jī)、環(huán)、管4個(gè)方面全面地對(duì)此故障進(jìn)行深度剖析,同時(shí)有針對(duì)性地提出了解決方案,對(duì)今后處理類似故障有很大的指導(dǎo)意義。