黃 河
(中國民用航空珠海進(jìn)近管制中心,廣東珠海 519015)
民航TDM 網(wǎng)是一張用于承載空中交通管制甚高頻語音、雷達(dá)和ADS-B 信號(hào)、管制專線電話、民航電報(bào)的全國性通信網(wǎng)絡(luò),該網(wǎng)絡(luò)于2018 年建成,經(jīng)過測(cè)試、優(yōu)化和業(yè)務(wù)遷移,于2020~2021 年投產(chǎn)運(yùn)行。在運(yùn)行過程中發(fā)現(xiàn)eSight 網(wǎng)管檢測(cè)機(jī)制存在缺陷,中間有光傳輸設(shè)備的中繼干線中斷時(shí)網(wǎng)管不告警。
民航TDM 網(wǎng)因帶寬需求較大,各運(yùn)行現(xiàn)場(chǎng)核心機(jī)房至外臺(tái)大部分不再使用傳統(tǒng)2M 干線,而是使用運(yùn)營商(或自有光傳輸設(shè)備)的MSTP 以太網(wǎng)干線,當(dāng)承載MSTP 干線的光傳輸設(shè)備中間鏈路中斷時(shí)(例如:光纜被挖斷、光傳輸設(shè)備交叉板故障等),民航TDM 網(wǎng)eSight 網(wǎng)管監(jiān)控上故障的干線仍保持“綠色正常”,既干線中斷網(wǎng)管未能有效告警,且不僅不告警,還將故障的干線顯示為“正常狀態(tài)”。因此,該現(xiàn)象不僅無益于故障的及時(shí)發(fā)現(xiàn),甚至?xí)`導(dǎo)技術(shù)人員的排障工作,是較為嚴(yán)重的安全隱患。
案例1:某單位民航TDM 網(wǎng)在正式投產(chǎn)之前進(jìn)行臺(tái)站干線切換測(cè)試,當(dāng)手動(dòng)將主用的聯(lián)通4M MSTP 干線中斷后,備用干線未能切換成功,造成臺(tái)站遠(yuǎn)端節(jié)點(diǎn)掉線,相關(guān)承載業(yè)務(wù)如甚高頻等全部中斷。后經(jīng)排查,發(fā)現(xiàn)備用的電信4M 干線已至少中斷7 d 以上。
案例2:某單位民航TDM 網(wǎng)至外臺(tái)有電信和聯(lián)通2 條干線,主用為電信,備用為聯(lián)通。電信來電通知將進(jìn)行割接,相關(guān)鏈路將中斷,因有2 路干線保障傳輸,因此同意電信實(shí)施割接。但割接實(shí)施過程中發(fā)現(xiàn)臺(tái)站遠(yuǎn)端節(jié)點(diǎn)整體掉線,相關(guān)承載業(yè)務(wù)全部中斷。后經(jīng)排查,發(fā)現(xiàn)備用的聯(lián)通鏈路中斷,且未知已中斷多長時(shí)間。
案例3:某兩個(gè)單位之間進(jìn)行民航TDM 網(wǎng)干線切換測(cè)試,測(cè)試時(shí)通過斷開民航光傳輸設(shè)備中間鏈路的方式(而不是拔網(wǎng)線的方式)中斷主用鏈路,發(fā)現(xiàn)雙方民航TDM 網(wǎng)eSight 網(wǎng)管均未產(chǎn)生干線中斷告警,且斷開的鏈路顯示“綠色正常”。后經(jīng)人工ping 測(cè)試,判斷鏈路確已中斷。
前文“案例3”為筆者首次發(fā)現(xiàn)該隱患的實(shí)際案例,發(fā)現(xiàn)該隱患后立即著手進(jìn)行全面分析,并制定了科學(xué)的分析計(jì)劃,抽絲剝繭,最終找到問題根源,并使用技術(shù)手段加以解決,最后進(jìn)行技術(shù)驗(yàn)證和測(cè)試。故障排查的整體思路:①研究網(wǎng)管檢測(cè)機(jī)制;②得出網(wǎng)管判定干線故障的變量;③分析變量與實(shí)際狀態(tài)的差距;④使用技術(shù)手段解決變量與實(shí)際的差距問題;⑤技術(shù)驗(yàn)證、實(shí)測(cè)、上線試運(yùn)行;⑥推廣至其他運(yùn)行現(xiàn)場(chǎng)進(jìn)一步測(cè)試。
1.4.1 搭建純虛擬化模擬實(shí)驗(yàn)平臺(tái)
技術(shù)人員使用華為eNSP 模擬配置實(shí)操軟件(該軟件一般用于華為網(wǎng)絡(luò)工程師培訓(xùn))搭建模擬測(cè)試平臺(tái),并將實(shí)驗(yàn)平臺(tái)的虛擬路由器連接eSight 網(wǎng)管軟件。在這一過程中,同時(shí)解決了如何在一臺(tái)電腦上搭建“eSight 網(wǎng)管+虛擬路由器”的純虛擬化民航通信網(wǎng)實(shí)驗(yàn)平臺(tái)(圖1、圖2)。圖中使用了兩臺(tái)HUB 代替光傳輸設(shè)備(光傳輸設(shè)備可以理解為物理層透?jìng)髟O(shè)備),兩臺(tái)HUB 中間的鏈路即為“中間鏈路”,接下來將模擬該中間鏈路中斷情況,以此模擬光傳輸設(shè)備中間光纖中斷的情況。
圖1 eNSP 模擬配置實(shí)操軟件上制作的實(shí)驗(yàn)拓?fù)?/p>
圖2 虛擬化平臺(tái)的eSight 網(wǎng)管
在正常狀態(tài)下,eSight 網(wǎng)管通過“LLDP”協(xié)議來發(fā)現(xiàn)干線,“LLDP”協(xié)議是一種鏈路發(fā)現(xiàn)協(xié)議,當(dāng)兩端網(wǎng)絡(luò)設(shè)備均開啟了該協(xié)議后,可以自動(dòng)發(fā)現(xiàn)LLDP 鄰居,路由器即可知曉對(duì)端網(wǎng)絡(luò)設(shè)備的詳細(xì)信息,包括對(duì)端端口號(hào)、IP 地址、管理地址、設(shè)備型號(hào)、固件版本、MAC 地址等(圖3)。
圖3 正常情況下eSight 網(wǎng)管干線發(fā)現(xiàn)機(jī)制——LLDP 協(xié)議
1.4.2 將“中間鏈路”中斷,觀察網(wǎng)管告警情況
將“中間鏈路”中斷,網(wǎng)管未產(chǎn)生任何告警,且網(wǎng)管拓?fù)鋱D頁面干線狀態(tài)仍顯示“綠色正?!保▓D4)。雙擊“干線”,查看網(wǎng)管識(shí)別到的干線狀態(tài)正常,但人工測(cè)試干線狀態(tài),確定干線確已中斷(圖5、圖6)。
圖4 中間鏈路中斷,網(wǎng)管無告警且顯示錯(cuò)誤信息
圖5 網(wǎng)管“認(rèn)為”干線正常但人工測(cè)試判斷干線確已中斷
圖6 將AR2 刪除后重新添加進(jìn)網(wǎng)管,仍自動(dòng)“識(shí)別”了一條干線
1.4.3 將設(shè)備從網(wǎng)管側(cè)刪除重新添加,觀察是否會(huì)產(chǎn)生告警
可以看出,網(wǎng)管仍可識(shí)別干線,且干線狀態(tài)正常。說明網(wǎng)管系統(tǒng)不僅可以通過LLDP自動(dòng)發(fā)現(xiàn)鏈路,還可以通過其他手段“發(fā)現(xiàn)”鏈路。
進(jìn)一步查找網(wǎng)管智能識(shí)別干線并顯示的機(jī)制,在eSight網(wǎng)管網(wǎng)頁→系統(tǒng)→網(wǎng)絡(luò)管理參數(shù)設(shè)置→啟用基于30 位掩碼IP(SBS)的鏈路發(fā)現(xiàn),將其取消勾選,再次查看網(wǎng)管拓?fù)錉顟B(tài),發(fā)現(xiàn)無法發(fā)現(xiàn)干線(圖7、圖8)。
圖7 30 位掩碼IP(SBS)鏈路發(fā)現(xiàn)功能
圖8 取消圖7 功能勾選后干線消失
1.4.4 進(jìn)一步測(cè)試eSight 網(wǎng)管干線中斷告警機(jī)制
將AR1 設(shè)備的干線端口shutdown,即關(guān)閉端口,模擬拔出網(wǎng)線,造成鏈路物理層中斷,此時(shí)網(wǎng)管產(chǎn)生告警。但是僅AR1 產(chǎn)生告警,并帶動(dòng)干線鏈路的狀態(tài)也變?yōu)榧t色告警,但AR2仍然為“綠色”(圖9)。
圖9 關(guān)閉AR1 干線端口,網(wǎng)管產(chǎn)生告警(僅AR1 有告警)
(1)默認(rèn)設(shè)置下,eSight 網(wǎng)管可以通過多種手段智能發(fā)現(xiàn)干線,根據(jù)前文測(cè)試結(jié)果,手段包括:LLDP 協(xié)議自動(dòng)發(fā)現(xiàn)和根據(jù)端口掩碼地址發(fā)現(xiàn)。
(2)eSight 網(wǎng)管產(chǎn)生干線中斷告警的機(jī)制是:必須端口物理狀態(tài)Down 才可告警。在實(shí)際中,端口物理狀態(tài)Down 只能通過拔網(wǎng)線或shutdown 端口才能實(shí)現(xiàn)。
綜上所述,民航TDM 網(wǎng)使用的eSight 網(wǎng)管軟件,其干線狀態(tài)的判斷機(jī)制存在缺陷,多數(shù)情況下無法準(zhǔn)確判斷干線狀態(tài),存在較大隱患。
從前文中分析出民航TDM 網(wǎng)使用的eSight 網(wǎng)管軟件,其干線狀態(tài)的判斷機(jī)制是判斷端口狀態(tài)的Up 或Down,通過深入研究各類檢測(cè)機(jī)制和各種以太網(wǎng)協(xié)議,最終發(fā)現(xiàn)靜態(tài)BFD 技術(shù)可以判斷鏈路中斷,并將對(duì)應(yīng)的干線端口狀態(tài)自動(dòng)置為“Down”,在模擬配置實(shí)操軟件上進(jìn)行測(cè)試,如圖10 所示。
圖10 靜態(tài)BFD 實(shí)驗(yàn)
將“透?jìng)髟O(shè)備”的G0/0/2 端口shutdown,模擬中間鏈路中斷的情況,登錄AR1 查看g0/0/0 端口狀態(tài)(圖11)??梢钥吹絞0/0/0 端口的協(xié)議狀態(tài)變?yōu)椤癠P(BFD status down)”。繼續(xù)測(cè)試這一狀態(tài)是否會(huì)被eSight 網(wǎng)管軟件識(shí)別(圖12),即eSight 可以識(shí)別該狀態(tài),并產(chǎn)生告警,標(biāo)記鏈路為紅色告警狀態(tài)。
圖11 靜態(tài)BFD 檢測(cè)鏈路中斷后將對(duì)應(yīng)端口狀態(tài)變?yōu)椤癇FD status Down”
圖12 eSight 可以識(shí)別“BFD status Down”狀態(tài)
經(jīng)模擬實(shí)驗(yàn)環(huán)境測(cè)試方案可行后,使用多臺(tái)AR3260 真機(jī)搭建測(cè)試平臺(tái),包括網(wǎng)管及軟件、硬件配置均依據(jù)行業(yè)配置規(guī)范進(jìn)行配置,在實(shí)驗(yàn)平臺(tái)實(shí)際環(huán)境測(cè)試(圖13)。
圖13 真機(jī)實(shí)驗(yàn)平臺(tái)網(wǎng)管監(jiān)控
經(jīng)測(cè)試發(fā)現(xiàn),該方案能實(shí)現(xiàn)eSight 網(wǎng)管檢測(cè)到中間鏈路中斷從而產(chǎn)生告警,實(shí)測(cè)證明方案可行。
珠海進(jìn)近管制中心協(xié)調(diào)廣州網(wǎng)絡(luò)中心聯(lián)合進(jìn)行“靜態(tài)BFD綁定端口狀態(tài)”方案測(cè)試,將我方民航TDM 網(wǎng)NE20-1 至廣州區(qū)管NE40 核心節(jié)點(diǎn)干線兩端配置靜態(tài)BFD 綁定端口狀態(tài),配置示例見圖14。測(cè)試該干線中間鏈路(光傳輸設(shè)備)出現(xiàn)鏈路中斷,eSight 監(jiān)控可識(shí)別到鏈路中斷并實(shí)時(shí)產(chǎn)生相應(yīng)告警,證實(shí)方案可行。
圖14 測(cè)試配置示例
通過測(cè)試發(fā)現(xiàn)靜態(tài)BFD 綁定端口狀態(tài)可有效解決民航TDM 網(wǎng)eSight 網(wǎng)管鏈路監(jiān)控的隱患,目前珠海進(jìn)近民航TDM網(wǎng)與廣州區(qū)管、珠海進(jìn)近內(nèi)部所有至外臺(tái)干線均已使用靜態(tài)BFD 技術(shù),已穩(wěn)定運(yùn)行近一年時(shí)間,可以及時(shí)發(fā)現(xiàn)各種情況的干線中斷并實(shí)時(shí)告警。該方案已在民航中南空管局進(jìn)行全系統(tǒng)推廣應(yīng)用。
民航TDM 網(wǎng)是一套全新建成使用的覆蓋全國民航系統(tǒng)各單位的大型網(wǎng)絡(luò),是未來較長一段時(shí)間內(nèi),承載民航雷達(dá)、甚高頻、ADS-B、轉(zhuǎn)報(bào)和管制專線電話等核心業(yè)務(wù)信號(hào)的關(guān)鍵基礎(chǔ)設(shè)施,積極探索如何更好地對(duì)民航TDM 網(wǎng)開展運(yùn)行維護(hù),強(qiáng)化隱患排查治理,杜絕系統(tǒng)性風(fēng)險(xiǎn)是民航TDM 網(wǎng)一線運(yùn)維部門和相關(guān)管理機(jī)構(gòu)的努力方向。針對(duì)發(fā)現(xiàn)的問題,通過模擬驗(yàn)證、實(shí)驗(yàn)室環(huán)境驗(yàn)證以及在實(shí)際生產(chǎn)網(wǎng)絡(luò)中上線試運(yùn)行等方式,循序漸進(jìn),逐步推進(jìn),并經(jīng)過長期的功能性和穩(wěn)定性檢驗(yàn)后投入全系統(tǒng)推廣。