劉凌峰,竇宇宏,關(guān)一,李厚坤,張曉明
(國家海洋技術(shù)中心 天津 300112)
海洋觀測網(wǎng)是我國海洋觀測預(yù)報(bào)業(yè)務(wù)的基礎(chǔ)。從技術(shù)上看,海洋觀測網(wǎng)是包含傳感器、觀測平臺、通信網(wǎng)絡(luò)和數(shù)據(jù)傳輸與管理等諸多要素的復(fù)雜系統(tǒng),其高效穩(wěn)定地運(yùn)行是海洋環(huán)境預(yù)報(bào)系統(tǒng)連續(xù)獲得高質(zhì)量基礎(chǔ)數(shù)據(jù)的關(guān)鍵。為了實(shí)時(shí)掌握重要系統(tǒng)的工作情況,研發(fā)它的運(yùn)行狀態(tài)監(jiān)控系統(tǒng)是保障其穩(wěn)定運(yùn)行的常規(guī)方法,例如:電力、電信等行業(yè)均已研發(fā)了針對本領(lǐng)域業(yè)務(wù)特點(diǎn)的運(yùn)行狀態(tài)監(jiān)控系統(tǒng)[1-2],然而目前我國尚無專門針對海洋觀測網(wǎng)的統(tǒng)一監(jiān)控系統(tǒng),現(xiàn)有的部分監(jiān)控系統(tǒng)也只是針對觀測網(wǎng)的某個(gè)局部或部分要素進(jìn)行分散管控,其精度和管理的范圍均不能滿足需求。為此,在海洋公益性行業(yè)科研專項(xiàng)的支持下,國家海洋技術(shù)中心開始研發(fā)海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)。本研究簡要介紹該系統(tǒng)研究與開發(fā)的內(nèi)容及成果:第1部分分析系統(tǒng)的業(yè)務(wù)需求;第2部分介紹系統(tǒng)的總體架構(gòu);第3部分重點(diǎn)闡述系統(tǒng)的雙向標(biāo)準(zhǔn)接口;第4部分描述原型系統(tǒng)的開發(fā)進(jìn)展及性能測試情況;第5部分對全文進(jìn)行了總結(jié)并展望后續(xù)的工作方向。
運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的設(shè)計(jì)與開發(fā)是海洋觀測網(wǎng)業(yè)務(wù)化運(yùn)行需求驅(qū)動(dòng)的結(jié)果,本部分簡要概括這些業(yè)務(wù)需求。
要保障海洋觀測網(wǎng)的長期穩(wěn)定業(yè)務(wù)化運(yùn)行,首先需要全面掌握海洋觀測網(wǎng)各組成要素的運(yùn)行狀態(tài)。為此,必須要建立一套可以完整收集海洋觀測網(wǎng)全部相關(guān)軟、硬件設(shè)備運(yùn)行狀態(tài)的信息采集系統(tǒng),并將這些狀態(tài)信息定期匯總至各級監(jiān)控中心,這樣方可在基礎(chǔ)信息層面上實(shí)現(xiàn)觀測網(wǎng)全網(wǎng)運(yùn)行狀態(tài)的精細(xì)管控,進(jìn)而為后續(xù)基于這些信息進(jìn)行故障檢測和關(guān)聯(lián)分析奠定基礎(chǔ)。
故障的檢測具有“遲滯特性”。例如:在一個(gè)配置完備的網(wǎng)絡(luò)中,當(dāng)一個(gè)路由器發(fā)生故障時(shí),數(shù)據(jù)包可繞行其他路徑到達(dá)目的節(jié)點(diǎn),因而在故障發(fā)生初期,用戶很可能察覺不到故障的存在,但是,由于在繞行鏈路有限的帶寬中匯聚了大量異常流量,將很有可能造成網(wǎng)絡(luò)的擁塞,并最終導(dǎo)致整個(gè)網(wǎng)絡(luò)不可用。因此,及早發(fā)現(xiàn)故障是維持海洋觀測網(wǎng)穩(wěn)定運(yùn)行的必須,這就要求監(jiān)控系統(tǒng)能夠依據(jù)預(yù)設(shè)的判定規(guī)則實(shí)時(shí)處理獲取到的狀態(tài)信息,及時(shí)檢測到故障發(fā)生,變故障的“事后發(fā)現(xiàn)”為故障的“事中發(fā)現(xiàn)”,從而縮短故障歷時(shí),盡量減少由于故障所帶來的損失,提高系統(tǒng)可用性。
傳統(tǒng)的監(jiān)控系統(tǒng)在故障發(fā)生時(shí)會(huì)產(chǎn)生告警的“連鎖效應(yīng)”,即一處故障發(fā)生往往會(huì)導(dǎo)致多處告警。例如:當(dāng)一臺網(wǎng)絡(luò)設(shè)備發(fā)生故障時(shí),設(shè)備本身、相應(yīng)鏈路以及數(shù)據(jù)傳輸應(yīng)用軟件均會(huì)產(chǎn)生告警,這樣不利于迅速定位和及時(shí)處理故障。因此,監(jiān)控系統(tǒng)必須要具備故障智能診斷和關(guān)聯(lián)分析功能,能夠從告警的“泛洪”[3]中有效地甄別故障源,判斷故障原因,從而可以為運(yùn)維人員提供決策依據(jù),盡快排除故障。
實(shí)現(xiàn)運(yùn)行狀態(tài)信息的獲取、故障診斷、告警是監(jiān)控系統(tǒng)的初級功能,在基礎(chǔ)信息積累到一定規(guī)模的前提下,對各類監(jiān)控對象的工作狀態(tài)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)監(jiān)控對象的運(yùn)行規(guī)律,結(jié)合其實(shí)際運(yùn)行環(huán)境,對設(shè)備的穩(wěn)定性、適用性進(jìn)行有效評估,將故障的“事中發(fā)現(xiàn)”進(jìn)一步提升到“事前預(yù)測”的水平,這將為提高海洋觀測網(wǎng)日常維護(hù)工作的針對性以及后續(xù)設(shè)備的選型提供科學(xué)的輔助決策支持。
基于上述業(yè)務(wù)需求,海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)在層次架構(gòu)設(shè)計(jì)上劃分為信息獲取層、監(jiān)控應(yīng)用層以及信息共享層3個(gè)邏輯層級(圖1)。
圖1 海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)總體架構(gòu)
海洋觀測網(wǎng)全部組成要素都是監(jiān)控系統(tǒng)的監(jiān)控對象(網(wǎng)元),通用狀態(tài)信息提取軟件基于簡單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP)提取這些網(wǎng)元的運(yùn)行狀態(tài)信息[4]。對于網(wǎng)絡(luò)設(shè)備、主機(jī)等標(biāo)準(zhǔn)的可網(wǎng)管設(shè)備,其本身支持SNMP協(xié)議,按照管理信息庫(Management Information Base,MIB)中各管理對象標(biāo)志符(Object Identifier,OID)內(nèi)容的說明,通用狀態(tài)信息提取軟件通過SNMP協(xié)議命令直接獲取這些設(shè)備的狀態(tài)信息。對于原先不支持SNMP協(xié)議的海洋觀測設(shè)備(海洋站、浮標(biāo)等),通過自定義這些設(shè)備的MIB,并在與設(shè)備相連的上位機(jī)部署自主研發(fā)的SNMP代理(Agent)軟件實(shí)現(xiàn)狀態(tài)信息的提取,該代理軟件主要完成兩項(xiàng)功能:其一是與觀測設(shè)備通信,獲得其運(yùn)行狀態(tài)信息;其二是響應(yīng)狀態(tài)信息提取軟件發(fā)出的標(biāo)準(zhǔn)SNMP請求或自動(dòng)發(fā)出故障信息,將狀態(tài)信息輸出。
完成監(jiān)控系統(tǒng)各項(xiàng)主體功能,包括:狀態(tài)監(jiān)控、拓?fù)淇梢暬?、故障告警、關(guān)聯(lián)分析、統(tǒng)計(jì)評估以及數(shù)據(jù)查詢等。狀態(tài)監(jiān)控模塊作為該層的總控模塊定期調(diào)用通用狀態(tài)信息提取軟件相應(yīng)模塊獲取各種設(shè)備的狀態(tài)信息;基于拓?fù)浣Y(jié)構(gòu)以可視化形式(運(yùn)轉(zhuǎn)圖或數(shù)據(jù)列表)展現(xiàn)這些狀態(tài)信息;對于發(fā)生故障的設(shè)備給出告警提示,并采用智能化診斷技術(shù);對告警的關(guān)聯(lián)性進(jìn)行分析,鎖定故障源;信息查詢模塊可查詢各設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)歷史記錄,統(tǒng)計(jì)評估模塊對獲取到的狀態(tài)信息進(jìn)行統(tǒng)計(jì)生成報(bào)表,并可基于故障預(yù)測模型對設(shè)備的穩(wěn)定性和適用性進(jìn)行評估。
以標(biāo)準(zhǔn)化接口將監(jiān)控系統(tǒng)所獲取的運(yùn)行狀態(tài)信息向上層系統(tǒng)輸出?;谧钚碌臉I(yè)務(wù)支撐系統(tǒng)設(shè)計(jì)理念,監(jiān)控系統(tǒng)只是綜合運(yùn)維系統(tǒng)的底層系統(tǒng),綜合運(yùn)維系統(tǒng)將海洋觀測網(wǎng)運(yùn)行狀態(tài)信息和其他相關(guān)系統(tǒng)(如,觀測數(shù)據(jù)處理系統(tǒng)等)運(yùn)行狀態(tài)信息進(jìn)行綜合關(guān)聯(lián)分析,從而可以獲得海洋觀測系統(tǒng)整體運(yùn)行狀態(tài),這些狀態(tài)信息可基于統(tǒng)一的地理信息系統(tǒng)(Geographic Information System,GIS)界面進(jìn)行可視化展示,并可依據(jù)信息技術(shù)基礎(chǔ)架構(gòu)庫(Information Technology Infrastructure Library,ITIL)理論在綜合運(yùn)維系統(tǒng)中開展運(yùn)維流程跟蹤。狀態(tài)信息通過消息中間件(Message Oriented Middleware)向上層系統(tǒng)推送[5],從而構(gòu)成一個(gè)應(yīng)用層通用數(shù)據(jù)網(wǎng)關(guān),輸出的數(shù)據(jù)類型包括:觀測網(wǎng)基本屬性信息、實(shí)時(shí)性能信息以及故障告警信息,數(shù)據(jù)輸出格式為標(biāo)準(zhǔn)可擴(kuò)展標(biāo)記語言(eXtensible Markup Language,XML)格式。
雙向標(biāo)準(zhǔn)化接口是海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的一個(gè)重要技術(shù)特色,它在信息獲取和信息共享兩個(gè)層面均實(shí)現(xiàn)了接口的標(biāo)準(zhǔn)化,使系統(tǒng)的可擴(kuò)展性大大增強(qiáng)。
狀態(tài)信息獲取接口(即監(jiān)控系統(tǒng)的南向接口)基于簡單網(wǎng)絡(luò)管理協(xié)議(SNMP),這使得信息獲取層的狀態(tài)信息提取軟件可以采用通用的數(shù)據(jù)采集方法,無需針對海洋觀測設(shè)備進(jìn)行專門的設(shè)計(jì),極大地增強(qiáng)了系統(tǒng)的穩(wěn)定性,并且可以減輕后續(xù)再擴(kuò)充其他觀測設(shè)備的工作量。SNMP是由Internet活動(dòng)委員會(huì)IAB制定的最為通用的管理TCP/IP網(wǎng)絡(luò)的標(biāo)準(zhǔn)協(xié)議。SNMP協(xié)議的體系結(jié)構(gòu)由3部分組成:信息管理結(jié)構(gòu)(Structure of Management Information,SMI)、管理信息庫(MIB)以及SNMP協(xié)議。其中,信息管理結(jié)構(gòu)(SMI)可以確定管理信息庫(MIB)中被管對象的定義和SNMP報(bào)文的描述規(guī)則,它是構(gòu)成整個(gè)SNMP的基礎(chǔ)。管理信息庫(MIB)描述了SNMP所用到的管理信息庫結(jié)構(gòu)及其中變量的定義,它以樹形結(jié)構(gòu)來表示。SMI和MIB兩者都遵循OSI的抽象語法表示(ASN.1)規(guī)則定義。SNMP協(xié)議則規(guī)定了管理站和監(jiān)控對象之間交換管理信息的方法。
海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)開發(fā)過程中設(shè)計(jì)了6種主要海洋觀測設(shè)備的MIB,這是我國海洋觀測系統(tǒng)發(fā)展歷史上首次定義觀測設(shè)備的MIB。依據(jù)通行的MIB編制規(guī)則,新定義的海洋觀測設(shè)備管理對象標(biāo)志符位于iso.org.dod.internet.private.enterprise.notc.inspector 子 樹下,進(jìn)而分為station、bouy、ship、radarstation 4個(gè)子樹,分別描述海洋站、浮標(biāo)、志愿船以及雷達(dá)站4類觀測設(shè)備對象,其中,bouy子樹又進(jìn)一步分為bbouy和sbouy兩個(gè)子樹,分別描述大型監(jiān)測浮標(biāo)和中/小型監(jiān)測浮標(biāo);ship子樹進(jìn)一步分為fship和nship兩個(gè)子樹,分別描述遠(yuǎn)洋志愿船和近海志愿船。對于每一類觀測對象,MIB中定義的信息主要包括設(shè)備基本屬性信息、設(shè)備運(yùn)行狀態(tài)信息和告警信息?;緦傩孕畔⒚枋鲈O(shè)備的編號、區(qū)站代碼、所屬關(guān)系、經(jīng)緯度等靜態(tài)信息內(nèi)容。運(yùn)行狀態(tài)信息包括設(shè)備的電壓、電流,復(fù)位次數(shù)等信息以及各種傳感器的測量數(shù)據(jù),用以綜合判斷設(shè)備及其所搭載的傳感器的工作狀態(tài)是否正常。告警信息主要規(guī)定由監(jiān)控對象向管理站發(fā)送的記錄故障信息的Trap消息。在狀態(tài)信息獲取過程中,管理站中的通用狀態(tài)信息提取軟件的管理進(jìn)程定期請求狀態(tài)信息,監(jiān)控對象固有或自主研發(fā)的SNMP代理軟件進(jìn)程向其提供標(biāo)準(zhǔn)的SNMP應(yīng)答,實(shí)現(xiàn)了標(biāo)準(zhǔn)的基于網(wǎng)元管理的Manager-Agent交互模型,從而使監(jiān)控應(yīng)用層軟件可以實(shí)時(shí)獲取各類監(jiān)控對象的運(yùn)行狀態(tài)信息。基于SNMP的信息交換層次架構(gòu)見圖2。
圖2 基于SNMP的信息交換層次架構(gòu)
狀態(tài)信息共享接口(即監(jiān)控系統(tǒng)的北向接口)基于消息中間件技術(shù),消息中間件(Message Oriented Middleware)是用來構(gòu)建松耦合系統(tǒng)的支持分布式應(yīng)用系統(tǒng)之間同步/異步收發(fā)消息的中間件,該技術(shù)可支持實(shí)時(shí)數(shù)據(jù)推送與接收,可以有效地屏蔽異構(gòu)技術(shù)細(xì)節(jié)而向外提供統(tǒng)一服務(wù),適用于大數(shù)據(jù)量并發(fā)訪問。本系統(tǒng)未采用一些應(yīng)用系統(tǒng)之間共享數(shù)據(jù)時(shí)經(jīng)常使用的網(wǎng)絡(luò)服務(wù)(Web Service)接口形式,因?yàn)?Web Service的設(shè)計(jì)思想為被動(dòng)響應(yīng)式提取,并不適用于大量并發(fā)請求的場景,而海洋觀測網(wǎng)中監(jiān)控對象(網(wǎng)元)眾多,一些設(shè)備的性能指標(biāo)又很多,如果上層綜合運(yùn)維系統(tǒng)軟件發(fā)出頻繁、大量請求,則提供信息的服務(wù)器響應(yīng)時(shí)延就會(huì)增加,對服務(wù)器的性能壓力巨大。但是如果降低訪問頻率,則又會(huì)造成某些狀態(tài)信息不能及時(shí)反饋到上層系統(tǒng),影響信息交換的實(shí)時(shí)性。采用消息中間件技術(shù)可以有效地解決上述問題,因?yàn)橄㈥?duì)列中的數(shù)據(jù)是由信息共享層軟件模塊主動(dòng)推出,可以有效地保障實(shí)時(shí)性,特別是故障發(fā)生時(shí),可及時(shí)將故障告警數(shù)據(jù)上報(bào)上層系統(tǒng),而消息中間件管理消息隊(duì)列并向外系統(tǒng)提供數(shù)據(jù)共享服務(wù)的效率和響應(yīng)特性也遠(yuǎn)高于 Web Service,因此特別適用于海洋觀測網(wǎng)監(jiān)控信息共享的應(yīng)用場景,第4部分的測試試驗(yàn)也證明了這一論點(diǎn)。
在實(shí)際系統(tǒng)中,信息共享層的通用數(shù)據(jù)網(wǎng)關(guān)相應(yīng)模塊(傳輸網(wǎng)絡(luò)狀態(tài)信息共享模塊和觀測設(shè)備狀態(tài)信息共享廣模塊)依據(jù)主題把數(shù)據(jù)推送到消息中間件的各個(gè)隊(duì)列,由消息中間件管理這些數(shù)據(jù),并向綜合運(yùn)維系統(tǒng)或其他系統(tǒng)訂閱該主題的軟件提供。依據(jù)業(yè)務(wù)需求,共建立3個(gè)主題的消息隊(duì)列,即:基本屬性信息隊(duì)列、實(shí)時(shí)性能信息隊(duì)列和故障告警信息隊(duì)列。其中,基本屬性信息隊(duì)列傳輸監(jiān)控對象的靜態(tài)信息,更新周期一般為24h(發(fā)現(xiàn)設(shè)備變更時(shí)除外);實(shí)時(shí)性能信息隊(duì)列傳輸監(jiān)控對象的動(dòng)態(tài)信息,更新周期最低為1min(海洋站觀測設(shè)備);故障告警數(shù)據(jù)隊(duì)列傳輸故障信息,僅在發(fā)現(xiàn)故障時(shí)實(shí)時(shí)更新。數(shù)據(jù)信息采用標(biāo)準(zhǔn)的XML格式封裝,具有較強(qiáng)的通用性,考慮到網(wǎng)絡(luò)安全的要求,系統(tǒng)對數(shù)據(jù)內(nèi)容進(jìn)行了加密處理。此外,為了提高系統(tǒng)的靈活性,還開發(fā)了數(shù)據(jù)共享控制模塊,可對發(fā)送的信息內(nèi)容和發(fā)送周期進(jìn)行可視化配置。信息共享層軟件架構(gòu)如圖3所示。
圖3 信息共享層軟件架構(gòu)
目前,海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)原型已完成開發(fā),初步實(shí)現(xiàn)了海洋觀測設(shè)備和數(shù)據(jù)傳輸網(wǎng)絡(luò)的一體化監(jiān)控功能,系統(tǒng)與監(jiān)控對象間的基于SNMP的通用狀態(tài)信息提取軟件以及系統(tǒng)與綜合運(yùn)維系統(tǒng)間的基于消息中間件的通用數(shù)據(jù)網(wǎng)關(guān)也均已研發(fā)完成,可以向上層系統(tǒng)提供基本屬性、實(shí)時(shí)性能和故障告警3類共享信息。
監(jiān)控系統(tǒng)性能最主要的表征是故障發(fā)生時(shí)系統(tǒng)反映的及時(shí)程度,因此考慮兩個(gè)測試指標(biāo):平均故障發(fā)現(xiàn)時(shí)間和平均故障信息輸出時(shí)間。平均故障發(fā)現(xiàn)時(shí)間是指從故障發(fā)生到系統(tǒng)產(chǎn)生故障告警間隔時(shí)間的均值;而平均故障信息輸出時(shí)間是指從故障發(fā)生到向消息中間件中輸出告警信息間隔時(shí)間的均值。海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的設(shè)計(jì)要求是上述兩個(gè)指標(biāo)均小于60s,平均故障發(fā)現(xiàn)時(shí)間Ts計(jì)算公式如下:
式中:n為故障總數(shù);Tei為第i個(gè)故障發(fā)生時(shí)間;Tfi為該故障在系統(tǒng)中產(chǎn)生告警的時(shí)間。
平均故障信息輸出時(shí)間To計(jì)算公式如下:
式中:Tqi為消息中間件告警信息隊(duì)列中該故障的告警信息產(chǎn)生的時(shí)間,其他定義同上式。
測試場景如下:監(jiān)控系統(tǒng)部署在雙至強(qiáng)E7-4807CPU/32G內(nèi)存的服務(wù)器中,在時(shí)鐘同步的前提下,設(shè)置狀態(tài)信息常規(guī)采樣周期為30s,以100為遞增步長,向監(jiān)控系統(tǒng)加入100~1200個(gè)監(jiān)控對象(含觀測設(shè)備、網(wǎng)絡(luò)設(shè)備以及計(jì)算機(jī)/服務(wù)器等),測試其中隨機(jī)10%的監(jiān)控對象發(fā)生故障時(shí)系統(tǒng)的平均故障發(fā)現(xiàn)時(shí)間和平均故障信息輸出時(shí)間。
需要說明的是,系統(tǒng)的告警按其產(chǎn)生的來源可以分為兩類:一類是由監(jiān)控對象發(fā)現(xiàn)并以Trap消息向通用狀態(tài)信息提取軟件主動(dòng)上報(bào)的故障告警,簡稱網(wǎng)元端告警;另一類是由監(jiān)控應(yīng)用層軟件通過分析獲取的狀態(tài)信息發(fā)現(xiàn)故障(如:超過某種預(yù)定的閾值等)進(jìn)而產(chǎn)生的告警,簡稱系統(tǒng)端告警。圖4和圖5分別描繪了網(wǎng)元端告警和系統(tǒng)端告警的平均故障發(fā)現(xiàn)時(shí)間和平均故障信息輸出時(shí)間。
圖4 網(wǎng)元端告警平均故障發(fā)現(xiàn)和平均故障信息輸出時(shí)間
圖5 系統(tǒng)端告警平均故障發(fā)現(xiàn)和平均故障信息輸出時(shí)間
從測試結(jié)果可以看出,對于網(wǎng)元端告警,由于告警信息是由監(jiān)控對象主動(dòng)發(fā)出,無需通用狀態(tài)信息提取軟件輪詢采集,其對監(jiān)控系統(tǒng)的壓力較小,雖然隨著監(jiān)控對象數(shù)和故障數(shù)的增加,平均故障發(fā)現(xiàn)時(shí)間Ts和平均故障信息輸出時(shí)間To有所上升,但上升幅度并不顯著,在1200個(gè)監(jiān)控對象的場景下,Ts不大于5.02s,To不大于10.23s。
而對于系統(tǒng)端告警,在測試監(jiān)控對象總數(shù)少于500個(gè)的情況下,系統(tǒng)的平均故障發(fā)現(xiàn)時(shí)間Ts在30s左右波動(dòng)(不大于36.21s),當(dāng)測試監(jiān)控對象超過500個(gè)時(shí),系統(tǒng)平均故障發(fā)現(xiàn)時(shí)間持續(xù)上升至61.45s(1200個(gè)測試節(jié)點(diǎn))。對于平均故障信息輸出時(shí)間To,其值亦隨監(jiān)控對象數(shù)量的增加而升高,但與平均故障發(fā)現(xiàn)時(shí)間Ts的差值始終在2.02~9.11s之間波動(dòng),未表現(xiàn)出明顯的上升趨勢。
因此,綜合分析上述測試過程與結(jié)果,監(jiān)控系統(tǒng)的“瓶頸”在于狀態(tài)信息的獲取,隨著測試監(jiān)控對象數(shù)量的增加,輪詢提取狀態(tài)信息所消耗的時(shí)間也在增長。當(dāng)系統(tǒng)中的監(jiān)控對象總數(shù)小于1000個(gè)時(shí),平均故障發(fā)現(xiàn)時(shí)間Ts與平均故障信息輸出時(shí)間To均小于60s(分別為53.15s和57.97s),符合海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的設(shè)計(jì)要求,而當(dāng)系統(tǒng)中的監(jiān)控對象總數(shù)超過1000個(gè)則無法滿足設(shè)計(jì)要求,此時(shí)只有采取層級部署的模式,方可實(shí)現(xiàn)狀態(tài)信息的同步快速提取。而對于狀態(tài)信息特別是告警信息的輸出,由于采用了松耦合的消息中間件機(jī)制而表現(xiàn)出較好的承載力,不會(huì)造成系統(tǒng)的瓶頸。
研發(fā)海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)是一項(xiàng)開創(chuàng)性的工作,在海洋公益性行業(yè)科研專項(xiàng)的支持下,這項(xiàng)工作已經(jīng)產(chǎn)生了一些成果。本研究概括性地介紹了海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的業(yè)務(wù)需求、總體架構(gòu)和原型系統(tǒng)開發(fā)情況,重點(diǎn)介紹了與該系統(tǒng)的3項(xiàng)技術(shù)創(chuàng)新點(diǎn):首先是第一次研發(fā)了覆蓋海洋觀測網(wǎng)全部主要組成要素的運(yùn)行狀態(tài)監(jiān)控系統(tǒng),改變了以往缺乏監(jiān)控或只具備分散監(jiān)控的現(xiàn)狀;第二是定義了海洋觀測設(shè)備的MIB,研發(fā)了基于SNMP標(biāo)準(zhǔn)協(xié)議的海洋觀測設(shè)備監(jiān)控代理(Agent)軟件,使海洋觀測設(shè)備具備了標(biāo)準(zhǔn)化監(jiān)控和管理能力;第三是引入雙向標(biāo)準(zhǔn)化接口的概念,它使監(jiān)控系統(tǒng)向下集成更多監(jiān)控對象和向上與更高層系統(tǒng)進(jìn)行對接的能力都大為增強(qiáng)。最后文章描述并分析了系統(tǒng)的性能測試結(jié)果,給出了單系統(tǒng)部署規(guī)模上限的參考值,為系統(tǒng)投入實(shí)際業(yè)務(wù)化運(yùn)行奠定了良好的理論基礎(chǔ)。
在海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)初步研發(fā)完成后,后續(xù)的工作方向主要有兩個(gè):一是基于現(xiàn)有的標(biāo)準(zhǔn)化信息共享接口研發(fā)上層的綜合運(yùn)維系統(tǒng),全面實(shí)現(xiàn)海洋觀測系統(tǒng)的綜合保障功能;二是逐步推進(jìn)海洋觀測設(shè)備監(jiān)控代理軟件與現(xiàn)有觀測設(shè)備的硬集成,實(shí)現(xiàn)觀測設(shè)備的智能化。但是,應(yīng)該看到,這兩者都不是簡單的工作。綜合運(yùn)維的核心——ITIL理論,雖然已提出數(shù)年,但其在業(yè)界真正有效運(yùn)行的案例還很少,究其原因在于它需要與各應(yīng)用領(lǐng)域的特點(diǎn)和具體業(yè)務(wù)需求緊密結(jié)合方可顯現(xiàn)強(qiáng)大的生命力,而且其業(yè)務(wù)化運(yùn)行也需要各層級用戶的良好配合,否則它只能是一個(gè)軟件框架而缺乏實(shí)際的應(yīng)用價(jià)值。觀測設(shè)備智能化是一個(gè)技術(shù)趨勢,但受限于設(shè)備目前的通信能力,其實(shí)現(xiàn)程度還不高,一些設(shè)備尚未具備雙向?qū)崟r(shí)通信功能,這在一定程度上阻礙了設(shè)備實(shí)時(shí)管控功能前移的進(jìn)程??傊?,海洋觀測網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的研究與開發(fā)還處在初期階段,雖然目前已取得了一些成果,但還有很多方面值得進(jìn)一步探索。
[1]曹軍威,萬宇鑫,涂國煜 .智能電網(wǎng)信息系統(tǒng)體系結(jié)構(gòu)研究[J].計(jì)算機(jī)學(xué)報(bào),2013(1):143-167.
[2]趙彥敏,張道有 .電信級客服系統(tǒng)監(jiān)控的研究[J].福州大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2004(4):462-465.
[3]SHARADA K A,HEMANT,PRASHANTH.A model proposed for reducing the false positive alarm rate using the feature of event correlation[J].International Journal of Advanced Research in Computer Science and Software Engineering,2012(8):103-108.
[4]PRAS A,DREVERS T,MEENT R V.Comparing the performance of SNMP and web services-based management[J].IEEE eTNSM-eTransactions on Network and Service Management,2004(2):72-82.
[5]戴大蒙,李虎雄,陳賽 .綜合性能監(jiān)控管理模型的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2007(1):252.