王喆
民航局空管局工程建設(shè)指揮部 北京 100022
隨著民航事業(yè)的高速發(fā)展,作為民航網(wǎng)絡(luò)傳輸?shù)幕A(chǔ)ATM平臺(tái)逐漸不能適應(yīng)民航業(yè)務(wù)高速發(fā)展的業(yè)務(wù)需求,建設(shè)基于IP的新一代民航數(shù)據(jù)傳輸網(wǎng)日益迫切。為了全面掌握民航通信網(wǎng)絡(luò)的可用性和業(yè)務(wù)的持續(xù)性,確保網(wǎng)絡(luò)的整體運(yùn)行安全,需要建立可視化的綜合網(wǎng)絡(luò)管理系統(tǒng),通過(guò)直觀、集中的形式,對(duì)民航通信網(wǎng)的網(wǎng)絡(luò)進(jìn)行集中監(jiān)控和統(tǒng)一管理,及時(shí)發(fā)現(xiàn)故障并準(zhǔn)確定位和解決故障,實(shí)現(xiàn)空管網(wǎng)絡(luò)系統(tǒng)中各類(lèi)事件、故障、問(wèn)題處理的標(biāo)準(zhǔn)化和規(guī)范化,變被動(dòng)維護(hù)為主動(dòng)服務(wù)模式,充分實(shí)現(xiàn)對(duì)整個(gè)民航通信網(wǎng)絡(luò)系統(tǒng)的性能、故障、配置信息的了解和掌控,全面提升空管系統(tǒng)運(yùn)行保障效率和管理水平。
綜合網(wǎng)管系統(tǒng)的設(shè)計(jì)指導(dǎo)思想要與專(zhuān)業(yè)網(wǎng)管系統(tǒng)的建設(shè)與應(yīng)用統(tǒng)籌考慮,應(yīng)該設(shè)備共享、數(shù)據(jù)共享,優(yōu)化網(wǎng)管系統(tǒng)建設(shè)投資。綜合網(wǎng)管系統(tǒng)的設(shè)計(jì)以專(zhuān)業(yè)網(wǎng)管系統(tǒng)為基礎(chǔ),建設(shè)綜合接入平臺(tái)與綜合應(yīng)用平臺(tái),以模塊化的方式進(jìn)行數(shù)據(jù)采集、處理、應(yīng)用與展示,為運(yùn)維管理工作提供全面的有關(guān)業(yè)務(wù)管理、網(wǎng)絡(luò)管理與服務(wù)管理支持,其體系結(jié)構(gòu)應(yīng)該符合企業(yè)IT支撐系統(tǒng)的整體框架和規(guī)范要求。系統(tǒng)設(shè)計(jì)目標(biāo)包括:設(shè)置兩個(gè)異地互備的綜合網(wǎng)管,管理至少包括傳輸線路、網(wǎng)絡(luò)傳輸層、網(wǎng)絡(luò)承載層、業(yè)務(wù)應(yīng)用、機(jī)房、服務(wù)器等內(nèi)容,完成全網(wǎng)的技術(shù)支持、全網(wǎng)協(xié)調(diào)、資源優(yōu)化、業(yè)務(wù)監(jiān)視等。
綜合網(wǎng)管系統(tǒng)的建設(shè)原則是統(tǒng)一領(lǐng)導(dǎo)、統(tǒng)一規(guī)劃、統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一組織實(shí)施,邊建設(shè)、邊發(fā)揮效益。系統(tǒng)設(shè)計(jì)時(shí)要綜合考慮以下幾個(gè)方面因素:
(1)標(biāo)準(zhǔn)性和可擴(kuò)展性原則:網(wǎng)管平臺(tái)應(yīng)結(jié)構(gòu)清晰、技術(shù)先進(jìn)、功能強(qiáng)大,適合民航通信網(wǎng)目前及未來(lái)三到五年信息資源管理需求。該平臺(tái)要基于先進(jìn)的IT管理理念和管理流程,具有良好開(kāi)放性、標(biāo)準(zhǔn)性、先進(jìn)性和可擴(kuò)充性,并且是模塊化的組織結(jié)構(gòu),可以方便地添加模塊來(lái)滿足新的網(wǎng)絡(luò)應(yīng)用需求,充分考慮到未來(lái)技術(shù)的發(fā)展和需求的變化,具有靈活的可擴(kuò)性,便于對(duì)今后新系統(tǒng)的管理,保護(hù)投資,避免重復(fù)建設(shè)。
(2)實(shí)用性和易用性原則:作為系統(tǒng)管理工具,網(wǎng)管平臺(tái)必須提供直觀,易用的客戶界面,提供豐富的圖形界面,并通過(guò)Web方式為管理人員提供訪問(wèn)界面??梢愿鶕?jù)用戶需要進(jìn)行成功的客戶化定制,滿足實(shí)際管理需要,真正解放管理人員的日常維護(hù)工作。
(3)安全性原則:系統(tǒng)本身要提供較高的安全性,不因管理系統(tǒng)的安全問(wèn)題給原有系統(tǒng)帶來(lái)隱患。
(4)規(guī)范化原則:任何一個(gè)完善的管理體系都是七分管理、三分技術(shù);網(wǎng)管平臺(tái)的建設(shè)最終目標(biāo)也是在技術(shù)的基礎(chǔ)上構(gòu)建一套科學(xué)、規(guī)范、高效的工作規(guī)范、管理體制。
(5)可靠性原則:管理系統(tǒng)應(yīng)該在系統(tǒng)結(jié)構(gòu)、設(shè)計(jì)方案、設(shè)備選擇、技術(shù)服務(wù)等方面綜合考慮,保證系統(tǒng)能夠安全無(wú)故障運(yùn)行。綜合網(wǎng)管系統(tǒng)的重要核心系統(tǒng)實(shí)現(xiàn)雙機(jī)互備運(yùn)行。
綜合網(wǎng)管系統(tǒng)在一個(gè)中心部署一套主用系統(tǒng),在另一個(gè)中心部署一套備用系統(tǒng),另外在災(zāi)備中心部署一套數(shù)據(jù)備份系統(tǒng)。主、備網(wǎng)管系統(tǒng)的應(yīng)用和數(shù)據(jù)庫(kù)服務(wù)器均由兩臺(tái)服務(wù)器(或虛擬機(jī))和一臺(tái)共享存儲(chǔ)設(shè)備組成主要硬件環(huán)境,通過(guò)持續(xù)、穩(wěn)定、高效的HA軟件系統(tǒng),實(shí)現(xiàn)兩個(gè)節(jié)點(diǎn)的高可用功能。結(jié)合采用共享存儲(chǔ)的高可用解決方案,實(shí)現(xiàn)網(wǎng)管系統(tǒng)的7×24小時(shí)不間斷運(yùn)營(yíng)。當(dāng)綜合網(wǎng)管系統(tǒng)主用系統(tǒng)雙機(jī)完全失效時(shí),切換到備用系統(tǒng)。
HA雙機(jī)系統(tǒng)的兩臺(tái)服務(wù)器或虛擬機(jī)(主機(jī))都與磁盤(pán)陣列(共享存儲(chǔ))系統(tǒng)連接,網(wǎng)管系統(tǒng)的操作系統(tǒng)、應(yīng)用軟件和HA高可用軟件分別安裝在兩臺(tái)主機(jī)上,數(shù)據(jù)庫(kù)等共享數(shù)據(jù)存放在存儲(chǔ)系統(tǒng)上,兩臺(tái)主機(jī)之間通過(guò)私用心跳網(wǎng)絡(luò)連接實(shí)現(xiàn)雙機(jī)熱備,如圖1所示。
圖1 雙機(jī)熱備
綜合網(wǎng)管系統(tǒng)的數(shù)據(jù)分成兩種:一種是海量的實(shí)時(shí)監(jiān)控?cái)?shù)據(jù),采用特殊格式的文件保存,便于實(shí)時(shí)數(shù)據(jù)的查詢匯總;另一種是網(wǎng)絡(luò)和設(shè)備配置信息、業(yè)務(wù)信息、資源信息、用戶信息等,數(shù)據(jù)量較小,采用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)[1]。
綜合網(wǎng)管系統(tǒng)的數(shù)據(jù)采集層采用多臺(tái)服務(wù)器或虛擬機(jī)實(shí)現(xiàn)分布式采集架構(gòu)。綜合網(wǎng)管系統(tǒng)主用系統(tǒng)的數(shù)據(jù)庫(kù)數(shù)據(jù)通過(guò)同步軟件備份到備用系統(tǒng)和災(zāi)備中心,在高可靠磁盤(pán)陣列的基礎(chǔ)上,完成數(shù)據(jù)庫(kù)數(shù)據(jù)的三地同步存儲(chǔ)。由于數(shù)據(jù)庫(kù)數(shù)據(jù)量較小,更新不像采集數(shù)據(jù)那樣頻繁,采用這種方法可以較好的完成三中心數(shù)據(jù)庫(kù)數(shù)據(jù)的同步。
綜合網(wǎng)管系統(tǒng)功能包括網(wǎng)絡(luò)設(shè)備管理、網(wǎng)絡(luò)拓?fù)涔芾?、網(wǎng)絡(luò)性能管理、網(wǎng)絡(luò)配置管理、主機(jī)管理、告警集中管理、IP地址管理、信息點(diǎn)管理、報(bào)表管理、用戶權(quán)限管理10個(gè)模塊,如圖2所示。
圖2 綜合網(wǎng)管功能結(jié)構(gòu)圖
自動(dòng)發(fā)現(xiàn)各種類(lèi)型、各種的二三層網(wǎng)絡(luò)設(shè)備基本信息、物理連接關(guān)系及當(dāng)前工作狀態(tài)。支持設(shè)備性能、接口流量、接口狀態(tài)、鏈路流量、鏈路狀態(tài)等多種數(shù)據(jù)采集,并可針對(duì)上述指標(biāo)設(shè)定告警條件,產(chǎn)生告警信息。網(wǎng)絡(luò)故障的監(jiān)控分為snmp主動(dòng)輪詢、Trap方式、syslog方式。支持SNMPV1、V2、V3混合應(yīng)用下的數(shù)據(jù)采集,數(shù)據(jù)采集能夠臨時(shí)啟動(dòng)或停止。不同的網(wǎng)絡(luò)節(jié)點(diǎn)根據(jù)影響程度不同可設(shè)置不同的輪詢時(shí)間。
提供可視化的編輯界面,支持以拖拽的方式進(jìn)行布局配置,以簡(jiǎn)單的參數(shù)選項(xiàng)卡的方式羅列可配置參數(shù)。支持全屏顯示拓?fù)鋱D,拓?fù)鋱D能夠顯示設(shè)備、鏈路的類(lèi)型、狀態(tài)。鏈路可選擇帶箭頭的線條或折線??筛鶕?jù)管理需要,支持對(duì)節(jié)點(diǎn)、容器的圖標(biāo)、圖標(biāo)大小及拓?fù)浔尘皥D進(jìn)行個(gè)性化定制。支持容器可包含子節(jié)點(diǎn)也可關(guān)聯(lián)到子拓?fù)鋱D。可在同一層面呈現(xiàn)所有設(shè)備,也可進(jìn)行邏輯分類(lèi),同一設(shè)備可在同一拓?fù)涞牟煌壿嫹诸?lèi)中。鏈路支持粗細(xì)和數(shù)字標(biāo)注方式顯示實(shí)時(shí)流量情況,數(shù)據(jù)標(biāo)注在拓?fù)鋱D上可隨時(shí)打開(kāi)、關(guān)閉。提供ping、telnet、ssh等管理工具,可查看設(shè)備端口及端口狀態(tài)信息、可關(guān)聯(lián)到資產(chǎn)管理模塊,提供設(shè)備使用人、聯(lián)系電話、維保情況、購(gòu)買(mǎi)時(shí)間、過(guò)保日期等關(guān)鍵信息。聚焦設(shè)備時(shí),設(shè)備自動(dòng)呈現(xiàn)設(shè)備IP地址、CPU利用率、內(nèi)存利用率、現(xiàn)設(shè)備運(yùn)行時(shí)間等KPI指標(biāo),其中性能指標(biāo)要結(jié)合百分比條方式呈現(xiàn)。拓?fù)鋱D上不同級(jí)別的告警呈現(xiàn)用不同的顏色標(biāo)識(shí),告警標(biāo)識(shí)能夠提供閃爍、不閃爍或其他告警標(biāo)識(shí)符的展現(xiàn)方式。
支持網(wǎng)絡(luò)設(shè)備的通斷、時(shí)延、設(shè)備性能、端口出入流量、告警信息的綜合呈現(xiàn)。以百分比條的方式和具體的KPI數(shù)據(jù)結(jié)合起來(lái)顯示,根據(jù)定制閾值的不同,百分比條呈現(xiàn)不同的顏色標(biāo)識(shí),達(dá)到全面、直觀、準(zhǔn)確的展現(xiàn)效果。呈現(xiàn)對(duì)象可靈活指定。核心設(shè)備出入端口帶寬利用率可通過(guò)流量分析進(jìn)一步分析流量是有哪些應(yīng)用、業(yè)務(wù)或哪些病毒源產(chǎn)生的。提供網(wǎng)絡(luò)設(shè)備通斷、性能、故障、端口流量及鏈路流量等KPI指標(biāo)統(tǒng)計(jì)報(bào)表和柱狀圖、線性圖圖表。按日周月等時(shí)間粒度分別對(duì)設(shè)備通斷、性能、流量等監(jiān)控指標(biāo)進(jìn)行TopN統(tǒng)計(jì),并可查看全部排名和趨勢(shì)圖。
通過(guò)對(duì)路由器、交換機(jī)設(shè)備配置文件的下載、瀏覽、對(duì)比等功能,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)設(shè)備配置信息的集中管理,保證配置信息的安全,可實(shí)現(xiàn)配置變更的審計(jì)、對(duì)比、追溯和恢復(fù)。
(1)通過(guò)TFTP協(xié)議實(shí)現(xiàn)交換機(jī)、路由器等設(shè)備的配置文件的下載
(2)對(duì)于已經(jīng)確認(rèn)的變更記錄,在基于權(quán)限管理的基礎(chǔ)上,用戶可以將選中的配置文件上載到網(wǎng)絡(luò)設(shè)備,更新網(wǎng)絡(luò)設(shè)備的運(yùn)行或啟動(dòng)配置信息。
(3)用戶可以瀏覽每一個(gè)歷史表中保存的變更配置情況,也可以選擇比較關(guān)心的兩次配置文件進(jìn)行對(duì)比性瀏覽。
(4)新下載保存到歷史表中的數(shù)據(jù)與基準(zhǔn)數(shù)據(jù)進(jìn)行比較,如果存在差異,則進(jìn)行相關(guān)的變更流程管理。
(1)支持Agent和無(wú)Agent兩種方式來(lái)實(shí)現(xiàn)對(duì)主機(jī)的監(jiān)控管理,且Agent和無(wú)Agent方式可同時(shí)混合使用。
(2)支持主機(jī)的性能、故障、進(jìn)程、磁盤(pán)、文件系統(tǒng)、日志的監(jiān)控,并可根據(jù)設(shè)定的性能閾值告警條件,產(chǎn)生告警信息。
(3)支持對(duì)Windows、Unix、Linux等各種主流操作系統(tǒng)的監(jiān)控。
(4)支持不同的主機(jī)節(jié)點(diǎn)可設(shè)置不同的輪詢時(shí)間。
(5)主動(dòng)發(fā)現(xiàn)主機(jī)名稱(chēng)、操作系統(tǒng)名稱(chēng)、操作系統(tǒng)版本、操作系統(tǒng)位數(shù)、機(jī)器開(kāi)機(jī)運(yùn)行時(shí)間等基本信息。
(6)可對(duì)指定進(jìn)程資源占用情況進(jìn)行采集??砂磻?yīng)用監(jiān)控多個(gè)進(jìn)程的匯總的CPU、內(nèi)存利用率。
(7)可監(jiān)控進(jìn)程、服務(wù)是否正常運(yùn)行;異常將產(chǎn)生告警信息。
(8)實(shí)現(xiàn)日志關(guān)鍵字、日志文件大小、日志文件是否丟失等情況的監(jiān)控,異常將產(chǎn)生告警信息。
(1)通過(guò)設(shè)置性能閾值、Syslog、trap等多種方式獲取告警信息,提供的告警條件定制界面,對(duì)關(guān)注告警進(jìn)行分類(lèi)和定制。
(2)經(jīng)過(guò)告警風(fēng)暴抑制,歸一化處理,告警過(guò)濾等步驟轉(zhuǎn)換成無(wú)冗余的,統(tǒng)一格式的告警消息;對(duì)于重復(fù)告警信息可進(jìn)行計(jì)數(shù)、指定時(shí)間間隔再次發(fā)送或指定間隔數(shù)量后再次發(fā)送。提供鏈路、端口瞬斷過(guò)濾機(jī)制。
(3)支持對(duì)告警進(jìn)行確認(rèn)或入歷史庫(kù)等操作,并記錄確認(rèn)人、確認(rèn)時(shí)間和入歷史庫(kù)時(shí)間。
(4)告警統(tǒng)計(jì)分為日周月等時(shí)間粒度,統(tǒng)計(jì)數(shù)據(jù)可關(guān)聯(lián)到具體告警信息。
(5)為適合綜合監(jiān)控展現(xiàn),告警展現(xiàn)界面要有聲音告警、自動(dòng)刷新、分級(jí)過(guò)濾功能等。
(6)告警信息在單節(jié)點(diǎn)展現(xiàn)界面,網(wǎng)絡(luò)拓?fù)鋱D、業(yè)務(wù)視圖、綜合展現(xiàn)報(bào)表要有同步展現(xiàn)功能。
(1)自動(dòng)發(fā)現(xiàn)全網(wǎng)IP地址、MAC地址、對(duì)應(yīng)的交換機(jī)及交換機(jī)端口之間的關(guān)系。
(2)能夠發(fā)現(xiàn)主機(jī)地址沖突、主機(jī)機(jī)器名改變、主機(jī)機(jī)器名盜用、主機(jī)IP地址改變、主機(jī)IP地址盜用、終端主機(jī)所連的交換機(jī)物理端口的改變等非法更變;
(3)自動(dòng)發(fā)現(xiàn)非法主機(jī)接入等非法行為,能產(chǎn)生告警信息并可手動(dòng)或自動(dòng)阻斷非法IP。
(4)可以快速得到未分配、已分配、在線IP地址列表。支持部門(mén)所用主機(jī)查詢,交換機(jī)所連主機(jī)查詢,終端最后上線時(shí)間的查詢。
(5)以餅圖等形式形象地表示各種IP地址在總的IP地址范圍中所占的比例。
(6)支持設(shè)置MAC漫游的機(jī)器,系統(tǒng)允許它的配置信息可以任意改變而不產(chǎn)生告警。
(7)對(duì)會(huì)議室等公共場(chǎng)所設(shè)備,系統(tǒng)充許交換機(jī)接口漫游,支持不同MAC機(jī)器的接入。
(1)提供用戶(主機(jī))、配線間、機(jī)架(配線架)、配線口、網(wǎng)絡(luò)設(shè)備端口之間的一一對(duì)應(yīng)關(guān)系。
(2)對(duì)不同用戶的修改變更操作進(jìn)行監(jiān)控、記錄。并對(duì)變更操作情況按照一定的時(shí)間范圍和部門(mén)名稱(chēng)進(jìn)行查詢統(tǒng)計(jì),生成相應(yīng)的變更操作管理報(bào)表,如變更操作管理日?qǐng)?bào)。
(3)記錄新信息點(diǎn)入庫(kù)或老信息點(diǎn)更改的操作。新信息點(diǎn)入庫(kù)日志記錄與當(dāng)前基礎(chǔ)數(shù)據(jù)庫(kù)中的記錄信息是否一致;老信息點(diǎn)更改的操作,記錄更改前和更改后的信息[2]。
報(bào)表展現(xiàn)類(lèi)別要求
(1)查看所有被管資源的運(yùn)行情況,完成運(yùn)行日?qǐng)?bào)表、周報(bào)表、月報(bào)表和年報(bào)表;
(2)以直觀的方式查看到某個(gè)被管系統(tǒng)某個(gè)時(shí)間段運(yùn)行情況狀態(tài)報(bào)表;
(3)能查看某個(gè)被管系統(tǒng)一段時(shí)間內(nèi)某些性能參數(shù)的變化趨勢(shì)分析報(bào)表;
(4)對(duì)一些被管系統(tǒng)的運(yùn)行情況進(jìn)行統(tǒng)計(jì)和比較,形成類(lèi)似TopN的排名分析報(bào)表,提供比較柱狀圖和表格的展現(xiàn)方式;
(5)提供綜合網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)運(yùn)行狀態(tài)統(tǒng)計(jì)報(bào)表,以分鐘為單位顯示故障時(shí)長(zhǎng)。
系統(tǒng)支持靈活的權(quán)限分配,支持給不同的人員分配不同的功能權(quán)限和資源權(quán)限,可通過(guò)角色以及域組實(shí)現(xiàn)便捷的權(quán)限分配,也可以支持對(duì)單個(gè)用戶權(quán)限的調(diào)整和修改。
隨著全國(guó)ADS-B數(shù)據(jù)中心和地面站的建設(shè),新一代監(jiān)視數(shù)據(jù)基于IP網(wǎng)的傳輸勢(shì)在必行,民航數(shù)據(jù)通信網(wǎng)絡(luò)將逐步遷移到基于IP的傳輸網(wǎng)絡(luò),更多的空管業(yè)務(wù)也將運(yùn)行在這張新的傳輸網(wǎng)絡(luò)上。因此,設(shè)計(jì)一套新型網(wǎng)絡(luò)的綜合網(wǎng)管系統(tǒng),將成為民航網(wǎng)絡(luò)安全高效運(yùn)行的重要基石和保障。