孫超 肖文名 陳永濤 曾樂 張小纓
(1 國家氣象信息中心,北京 100081;2 中國氣象局預(yù)報與網(wǎng)絡(luò)司,北京 100081)
隨著氣象信息化、集約化、標(biāo)準(zhǔn)化進(jìn)程的加速推進(jìn),建立統(tǒng)一數(shù)據(jù)環(huán)境、整合業(yè)務(wù)應(yīng)用系統(tǒng)、建設(shè)集約共享的氣象云等各項工作都在穩(wěn)步推進(jìn)和實(shí)施,氣象業(yè)務(wù)信息化正由技術(shù)應(yīng)用走向工作協(xié)同。但是,現(xiàn)有各業(yè)務(wù)系統(tǒng)監(jiān)控系統(tǒng)仍然呈現(xiàn)信息孤島現(xiàn)象,上下游監(jiān)控信息沒有共享,導(dǎo)致運(yùn)維效率低,正制約著氣象業(yè)務(wù)集約化健康發(fā)展,需根據(jù)業(yè)務(wù)監(jiān)控和運(yùn)維需求實(shí)施標(biāo)準(zhǔn)化與集約化整合與集中。因此,急需打通氣象綜合業(yè)務(wù)監(jiān)控流程,實(shí)現(xiàn)業(yè)務(wù)集中監(jiān)控、有機(jī)融合,構(gòu)建開放的、全流程、一體化、可視化的氣象綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng),提高集約化后的氣象業(yè)務(wù)運(yùn)行質(zhì)量與效率。
目前國內(nèi)氣象行業(yè)的業(yè)務(wù)監(jiān)控系統(tǒng),主要功能是實(shí)現(xiàn)對觀測裝備、系統(tǒng)資源、數(shù)據(jù)收集分發(fā)、核心業(yè)務(wù)運(yùn)行狀況的監(jiān)視和運(yùn)維,如全國綜合氣象信息共享系統(tǒng)業(yè)務(wù)監(jiān)控系統(tǒng)(CIMISS-MCP)對數(shù)據(jù)收集、分發(fā)、處理、存儲和共享進(jìn)行綜合監(jiān)視和統(tǒng)計分析[1],綜合氣象觀測系統(tǒng)運(yùn)行監(jiān)控平臺(ASOM)[2]對天氣雷達(dá)、國家級臺站自動氣象站、探空系統(tǒng)和風(fēng)能等觀測網(wǎng)的運(yùn)行進(jìn)行監(jiān)控。
國外氣象行業(yè)的監(jiān)視系統(tǒng)也是主要圍繞著數(shù)據(jù)傳輸網(wǎng)絡(luò)、數(shù)據(jù)收集生成、數(shù)據(jù)質(zhì)量、觀測設(shè)備狀態(tài)進(jìn)行監(jiān)控,如美國國家海洋和大氣管理局(NOAA)建設(shè)了觀測系統(tǒng)監(jiān)控中心(OSMC)實(shí)時監(jiān)測全球海洋觀測系統(tǒng)的性能[3],歐洲中期天氣預(yù)報中心(ECMWF)通過常規(guī)觀測告警系統(tǒng)檢測數(shù)據(jù)可用性和質(zhì)量問題[4],美國國家環(huán)境預(yù)報中心(NCEP)的實(shí)時數(shù)據(jù)監(jiān)測系統(tǒng)(RTDMS)主要監(jiān)測數(shù)據(jù)的數(shù)量和時效性[5]。
隨著氣象信息化的快速推進(jìn),業(yè)務(wù)高度集約化的發(fā)展趨勢對監(jiān)控系統(tǒng)提出了更高的要求,現(xiàn)有監(jiān)控系統(tǒng)在監(jiān)控范圍和技術(shù)框架上已經(jīng)出現(xiàn)了明顯的瓶頸。
1)沒有實(shí)現(xiàn)全流程、一體化監(jiān)控
氣象業(yè)務(wù)現(xiàn)有監(jiān)視系統(tǒng)都是獨(dú)立開發(fā)和運(yùn)維,監(jiān)控系統(tǒng)分散且數(shù)量龐大,運(yùn)行維護(hù)人力成本高。各監(jiān)控系統(tǒng)僅監(jiān)控全業(yè)務(wù)流程中的獨(dú)立環(huán)節(jié),無法實(shí)現(xiàn)跨業(yè)務(wù)部門的全業(yè)務(wù)流程集中監(jiān)視,監(jiān)視信息無法上下游共享,存在信息孤島,無法實(shí)現(xiàn)面向全流程的業(yè)務(wù)監(jiān)視和分析,造成業(yè)務(wù)故障定位困難,無法關(guān)聯(lián)分析業(yè)務(wù)流程問題。
2)數(shù)據(jù)監(jiān)控功能不足
現(xiàn)有監(jiān)控系統(tǒng)普遍側(cè)重于基礎(chǔ)平臺及應(yīng)用進(jìn)程監(jiān)視,針對業(yè)務(wù)應(yīng)用的數(shù)據(jù)完整性、質(zhì)量及時效的監(jiān)控功能缺乏,同時缺少主動運(yùn)維管控功能。業(yè)界先進(jìn)的信息系統(tǒng)運(yùn)維普遍采用ITIL運(yùn)維流程管理模式,通過流程化的運(yùn)維管理工具進(jìn)行信息系統(tǒng)的運(yùn)維工作。
3)監(jiān)控系統(tǒng)技術(shù)架構(gòu)難以支撐高度集約化業(yè)務(wù)精細(xì)化監(jiān)控要求
現(xiàn)有監(jiān)控系統(tǒng)架構(gòu)存在與業(yè)務(wù)系統(tǒng)“耦合過緊”的問題,監(jiān)控系統(tǒng)故障影響業(yè)務(wù)系統(tǒng)性能的情況時有發(fā)生。而且現(xiàn)有監(jiān)控系統(tǒng)采用傳統(tǒng)的集中式技術(shù)架構(gòu),面對精細(xì)化的監(jiān)控需求,日益增長的海量監(jiān)視數(shù)據(jù),現(xiàn)有技術(shù)架構(gòu)的處理、存儲和服務(wù)能力嚴(yán)重不足。
在電力等其他行業(yè)中,對于一體化監(jiān)控的研究成為熱點(diǎn)和趨勢,如趙世龍?zhí)接懥穗娏ζ髽I(yè)信息系統(tǒng)性能一體化監(jiān)控管理模式[6];譚軍通過對國家電網(wǎng)公司一體化監(jiān)控系統(tǒng)的設(shè)計,實(shí)現(xiàn)了對數(shù)據(jù)中心內(nèi)各個智能化系統(tǒng),包括環(huán)境監(jiān)控、安防、消防、BA、電力系統(tǒng)監(jiān)控、RFID 資產(chǎn)管理、MMT 氣流與熱場管理等子系統(tǒng)的統(tǒng)一監(jiān)控管理[7]。
因此,業(yè)務(wù)監(jiān)控系統(tǒng)分散運(yùn)維,正制約著氣象業(yè)務(wù)集約化健康發(fā)展,需根據(jù)業(yè)務(wù)監(jiān)控和運(yùn)維需求實(shí)施標(biāo)準(zhǔn)化與集約化整合與集中。氣象綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng)的設(shè)計也應(yīng)面向業(yè)務(wù)系統(tǒng)、數(shù)據(jù)、基礎(chǔ)設(shè)施資源提供一體化的實(shí)時運(yùn)行監(jiān)視。
德國工業(yè)4.0強(qiáng)調(diào)企業(yè)信息系統(tǒng)的一體化,所追求的就是在整體業(yè)務(wù)范疇內(nèi)實(shí)現(xiàn)所有環(huán)節(jié)信息的無縫鏈接,即所謂“縱橫一體化”,是所有智能化的基礎(chǔ)[8]。氣象綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng)設(shè)計定位于對觀測、信息、預(yù)報預(yù)測、公共服務(wù)及政務(wù)管理的“全流程、一體化、可視化”監(jiān)控,按照“橫向集中、下沉一級、綜合監(jiān)控”的原則,建立橫縱一體化的氣象綜合業(yè)務(wù)全流程監(jiān)控,實(shí)現(xiàn)“兩橫兩縱”(圖1)。橫向整合氣象核心業(yè)務(wù)系統(tǒng)運(yùn)行監(jiān)控,整合數(shù)據(jù)從采集、傳輸、處理、存儲到服務(wù)的全流程監(jiān)控;縱向?qū)崿F(xiàn)對支撐氣象業(yè)務(wù)的基礎(chǔ)設(shè)施、場地環(huán)境全面監(jiān)控,實(shí)現(xiàn)對全國省級數(shù)據(jù)中心的集中監(jiān)視。
圖1 橫縱一體化監(jiān)控設(shè)計Fig. 1 Design of the integrated monitoring
實(shí)現(xiàn)氣象綜合業(yè)務(wù)橫縱一體化監(jiān)控,需打通氣象業(yè)務(wù)流程、數(shù)據(jù)流程的各環(huán)節(jié),實(shí)現(xiàn)信息融合與共享,有助于全面掌握氣象綜合業(yè)務(wù)的運(yùn)行狀態(tài),實(shí)現(xiàn)故障的快速定位和解決,促進(jìn)流程優(yōu)化,并通過海量監(jiān)視信息的挖掘分析,為氣象現(xiàn)代業(yè)務(wù)發(fā)展提供科學(xué)依據(jù)。
氣象綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng)軟件總體框架由接口層、存儲層、處理層、服務(wù)層組成(圖2)。
監(jiān)視源:包括觀測系統(tǒng)、基礎(chǔ)設(shè)施資源、數(shù)據(jù)全流程、業(yè)務(wù)應(yīng)用系統(tǒng)、信息安全設(shè)施五類被監(jiān)視源。
接口層:根據(jù)規(guī)范的接口協(xié)議,與外部系統(tǒng)進(jìn)行對接,采用“推”“拉”兩種方式支持各業(yè)務(wù)系統(tǒng)監(jiān)視信息的主動推送和被動采集,并實(shí)現(xiàn)控制指令的自動推送。
存儲層:采用大數(shù)據(jù)技術(shù),實(shí)現(xiàn)監(jiān)控信息的實(shí)時緩存、實(shí)時指標(biāo)的高效存儲訪問和歷史日志的永久在線存儲。
處理層:采用流式計算、分布式處理技術(shù),實(shí)現(xiàn)指標(biāo)計算、告警處理、挖掘分析。
服務(wù)層:基于生成的監(jiān)視指標(biāo)和監(jiān)視視圖,在運(yùn)維平臺、展示大屏幕上實(shí)現(xiàn)一體化、多維度、由面到點(diǎn)逐級深入的監(jiān)視展示,實(shí)現(xiàn)告警集中發(fā)布及運(yùn)維管理,提供業(yè)務(wù)報表及監(jiān)視信息分析服務(wù),實(shí)現(xiàn)精細(xì)化的資源和運(yùn)維服務(wù)統(tǒng)計或計費(fèi)服務(wù)。
用戶層:包括業(yè)務(wù)運(yùn)維人員、業(yè)務(wù)管理人員、參觀來賓等三類用戶。
圖2 系統(tǒng)技術(shù)架構(gòu)Fig. 2 System technology architecture
監(jiān)控系統(tǒng)主要功能圍繞監(jiān)視信息的全生命周期,從監(jiān)視信息匯聚、分析到可視化監(jiān)視、集中告警、運(yùn)維管理、運(yùn)營服務(wù)。監(jiān)控系統(tǒng)能從不同業(yè)務(wù)視角綜合監(jiān)控業(yè)務(wù)的實(shí)時運(yùn)行狀態(tài),根據(jù)業(yè)務(wù)監(jiān)控需求進(jìn)行指標(biāo)的多維統(tǒng)計分析、業(yè)務(wù)影響分析等處理,生成監(jiān)控系統(tǒng)的多級別、多維度綜合性指標(biāo)、超閾值監(jiān)測指標(biāo)和關(guān)聯(lián)分析視圖;根據(jù)業(yè)務(wù)決策需求,對實(shí)時、歷史監(jiān)視信息進(jìn)行數(shù)據(jù)挖掘,提供業(yè)務(wù)和流程的分析評估管理視圖。同時,監(jiān)控系統(tǒng)具備集中告警和運(yùn)維管理功能,具備與業(yè)務(wù)系統(tǒng)對接,并接入省級數(shù)據(jù)中心監(jiān)視指標(biāo),實(shí)現(xiàn)全國集中監(jiān)視。
1)監(jiān)視信息匯聚
根據(jù)規(guī)范的監(jiān)控信息采集標(biāo)準(zhǔn)協(xié)議,采集來自氣象數(shù)據(jù)全流程、觀測系統(tǒng)、氣象業(yè)務(wù)應(yīng)用系統(tǒng)、基礎(chǔ)設(shè)施資源、場地環(huán)境、信息安全系統(tǒng)的運(yùn)行狀態(tài)、性能指標(biāo)、日志、異常等監(jiān)視信息;對分散的、異構(gòu)的監(jiān)視信息進(jìn)行標(biāo)準(zhǔn)化處理,并存儲到監(jiān)控信息數(shù)據(jù)庫中統(tǒng)一管理。不同形式的監(jiān)視數(shù)據(jù)的采集方式如表1所示。
表1 監(jiān)視信息分類及采集方式Table 1 Collection and classification methods of monitoring information
2)監(jiān)視信息處理
根據(jù)氣象業(yè)務(wù)的監(jiān)視邏輯對收集的監(jiān)視信息進(jìn)行集中處理分析,生成軟硬件層面、數(shù)據(jù)層面、業(yè)務(wù)運(yùn)行層面、信息安全層面的監(jiān)視指標(biāo)(表2),反映業(yè)務(wù)系統(tǒng)的運(yùn)行狀態(tài),分析基礎(chǔ)設(shè)施資源的容量和瓶頸,發(fā)現(xiàn)業(yè)務(wù)和系統(tǒng)的運(yùn)行問題,對故障進(jìn)行關(guān)聯(lián)分析。
3)綜合監(jiān)視
利用圖形圖表、儀表盤、三維立體展示、實(shí)時視頻等多種可視化技術(shù),通過不同的維度和業(yè)務(wù)視角,靈活、按需的對國省兩級數(shù)據(jù)中心的監(jiān)控信息進(jìn)行綜合展示。實(shí)時監(jiān)視綜合觀測、信息基礎(chǔ)設(shè)施資源、數(shù)據(jù)流程、業(yè)務(wù)應(yīng)用系統(tǒng)、信息安全各個方面的運(yùn)行狀態(tài),全面展示氣象業(yè)務(wù)流程串接的國家級及各省業(yè)務(wù)系統(tǒng)的核心監(jiān)視指標(biāo)。
對各類資源和業(yè)務(wù)系統(tǒng)的異常狀態(tài)進(jìn)行告警集中發(fā)布,實(shí)現(xiàn)告警的壓縮、歸并、顯示、提醒和管理,支持頁面顯示、聲音、短信等多種告警通知方式,能實(shí)現(xiàn)從告警到運(yùn)維派單的聯(lián)動,支持基于手機(jī)等移動設(shè)備的告警分類發(fā)布。
表2 監(jiān)控指標(biāo)數(shù)據(jù)分類Table 2 Classification of monitoring index data
4)在線管控
實(shí)現(xiàn)基于數(shù)據(jù)完整性驅(qū)動的自動業(yè)務(wù)調(diào)度管理,實(shí)現(xiàn)基于人機(jī)交互的業(yè)務(wù)調(diào)度和控制;擴(kuò)展自動化運(yùn)維場景,支持腳本或可視化的業(yè)務(wù)編排管理,支持裸機(jī)安裝、自動巡檢、軟件部署、文件清理等業(yè)務(wù)資源管理。
5)運(yùn)維管理
基于配置建模、發(fā)現(xiàn)、維護(hù),形成統(tǒng)一可信的配置管理數(shù)據(jù)庫,實(shí)現(xiàn)對各類資源對象配置信息的生命周期管理;實(shí)現(xiàn)運(yùn)維流程ITIL事件管理、問題管理、變更發(fā)布管理、知識庫等管理;實(shí)現(xiàn)日常運(yùn)維操作的服務(wù)封裝,通過業(yè)務(wù)場景編排建立一定自動化運(yùn)維能力。
6)統(tǒng)計分析
基于實(shí)時和歷史監(jiān)視信息,具備數(shù)據(jù)挖掘及統(tǒng)計分析功能。根據(jù)業(yè)務(wù)要求,統(tǒng)計分析自動生成各類業(yè)務(wù)運(yùn)行報表;根據(jù)業(yè)務(wù)決策需要,提供任意時段、任意維度的監(jiān)視信息檢索、統(tǒng)計分析及可視化展示功能;根據(jù)其他業(yè)務(wù)系統(tǒng)需要,提供監(jiān)視信息服務(wù)接口,實(shí)現(xiàn)監(jiān)視信息實(shí)時獲取。
7)運(yùn)營服務(wù)
通過統(tǒng)一入口受理用戶的服務(wù)請求,實(shí)現(xiàn)對用戶計算資源、存儲資源、網(wǎng)絡(luò)資源的彈性按需分配,實(shí)現(xiàn)資源和服務(wù)的計費(fèi),對運(yùn)維服務(wù)進(jìn)行多維分析,通過服務(wù)清單支持精細(xì)化的資源和運(yùn)維服務(wù)。
資源計費(fèi)的實(shí)現(xiàn)需要資源池管理平臺提供的計算資源、存儲資源、網(wǎng)絡(luò)資源分配數(shù)據(jù)、資源所屬業(yè)務(wù)系統(tǒng)和單位的資源配置數(shù)據(jù),然后根據(jù)計費(fèi)規(guī)則來統(tǒng)計計算;運(yùn)維服務(wù)統(tǒng)計主要基于運(yùn)維流程工單數(shù)據(jù)來進(jìn)行統(tǒng)計分析。
1)“松耦合”的技術(shù)架構(gòu)
為解決現(xiàn)有監(jiān)控系統(tǒng)與業(yè)務(wù)系統(tǒng)“耦合過緊”影響業(yè)務(wù)系統(tǒng)性能的問題,本系統(tǒng)建設(shè)采用“松耦合”的技術(shù)架構(gòu)。監(jiān)控系統(tǒng)與業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫物理分離,不會產(chǎn)生數(shù)據(jù)庫性能的互相影響;監(jiān)視信息入庫通過監(jiān)控系統(tǒng)提供的接口推送或者主動獲取,從而降低業(yè)務(wù)系統(tǒng)直接向監(jiān)控系統(tǒng)數(shù)據(jù)庫插入監(jiān)視信息造成的入庫延遲對業(yè)務(wù)系統(tǒng)的性能影響(圖3)。
圖3 “松耦合”的技術(shù)架構(gòu)Fig. 3 Loosely coupled technical architecture
2)“開放”的系統(tǒng)框架
為實(shí)現(xiàn)與氣象綜合業(yè)務(wù)的對接,監(jiān)控系統(tǒng)須具備開放的系統(tǒng)框架,具備與現(xiàn)有業(yè)務(wù)系統(tǒng)及新建業(yè)務(wù)系統(tǒng)的集成對接能力。對接的核心是提供規(guī)范化的監(jiān)視信息采集和控制接口、以及能支撐各種類型監(jiān)視信息接入、處理、存儲及可視化顯示的系統(tǒng)框架,以實(shí)現(xiàn)系統(tǒng)對接的敏捷擴(kuò)充(圖4)。
圖4 “開放”的系統(tǒng)框架Fig. 4 Open system framework
3)采用“大數(shù)據(jù)”技術(shù)的技術(shù)平臺
現(xiàn)有監(jiān)控系統(tǒng)采用的是傳統(tǒng)的IOE架構(gòu)(Intel、Oracle、Emc),面臨快速增長的海量監(jiān)控數(shù)據(jù)和復(fù)雜的監(jiān)控功能,IOE架構(gòu)已疲于應(yīng)付。為適應(yīng)業(yè)務(wù)高度集約化背景下對系統(tǒng)監(jiān)控在性能和擴(kuò)展性方面提出的更高挑戰(zhàn),氣象綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng)的建設(shè)將采用云計算、大數(shù)據(jù)等新一代IT技術(shù),具體技術(shù)平臺及應(yīng)用設(shè)計見表3。
表3 技術(shù)平臺及應(yīng)用設(shè)計Table 3 Technology platform and application design
為落實(shí)中國氣象局“發(fā)展智慧氣象”“全面推進(jìn)氣象現(xiàn)代化”的工作部署,國家氣象信息中心正在深入打造氣象大數(shù)據(jù)中心。建立集中管理的氣象綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng),將有利于:(1)集中展示氣象大數(shù)據(jù)中心能力,監(jiān)控其實(shí)時運(yùn)行狀態(tài),保障大集中模式下氣象業(yè)務(wù)、服務(wù)、管理系統(tǒng)穩(wěn)定運(yùn)行;(2)提升智慧氣象時代下大數(shù)據(jù)中心[9]的運(yùn)維能力,實(shí)現(xiàn)從被動運(yùn)維階段到主動運(yùn)維、服務(wù)導(dǎo)向階段的轉(zhuǎn)型;(3)通過一體化監(jiān)控設(shè)計,實(shí)現(xiàn)業(yè)務(wù)信息及業(yè)務(wù)流程的融合監(jiān)控,基于海量監(jiān)控信息挖掘分析業(yè)務(wù)流程的問題,促進(jìn)業(yè)務(wù)流程優(yōu)化,進(jìn)一步推動氣象業(yè)務(wù)現(xiàn)代化、綜合化、集約化發(fā)展。
為實(shí)現(xiàn)一體化監(jiān)控,在氣象綜合業(yè)務(wù)實(shí)時監(jiān)控系統(tǒng)的建設(shè)過程中,重點(diǎn)是實(shí)現(xiàn)與各業(yè)務(wù)系統(tǒng)的對接,實(shí)時采集業(yè)務(wù)系統(tǒng)運(yùn)行狀態(tài)信息,與上下游業(yè)務(wù)流程實(shí)現(xiàn)自動關(guān)聯(lián),實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)故障或問題的快速定位及解決。同時,逐步實(shí)現(xiàn)基于數(shù)據(jù)完整性驅(qū)動的自動業(yè)務(wù)調(diào)度管理、基于作業(yè)運(yùn)行驅(qū)動的自動資源調(diào)度管理,實(shí)現(xiàn)業(yè)務(wù)在線管控,進(jìn)一步提高系統(tǒng)運(yùn)行及運(yùn)維管理的自動化、智能化水平。
[1]熊安元, 趙芳, 王穎, 等. 全國綜合氣象信息共享系統(tǒng)的設(shè)計與實(shí)現(xiàn). 應(yīng)用氣象學(xué)報, 2015, 26(4): 500-512.
[2]李峰, 秦世廣, 周薇, 等. 綜合氣象觀測運(yùn)行監(jiān)控業(yè)務(wù)及系統(tǒng)升級設(shè)計. 氣象科技, 2014, 42(4): 539-544.
[3]Bouchard R, Kern K, Hankin S, et al. Observing system monitoring center. IUGG XXV General Assembly. 2011.
[4]Dahoui M, Isaksen L, Bormann N. Monitoring for conventional observation systems at ECMWF. Observation monitoring meeting, 2013.
[5]Kumar K V, Ballish B, Stoudt, J. Real time data monitoring at NCEP.22nd International Conference on Interactive Information Processing Systems for Meteorology, Oceanography, and Hydrology, 2006.
[6]趙世龍, 李姝文, 胡欣. 探討電力企業(yè)信息系統(tǒng)性能一體化監(jiān)控管理模式. 信息化建設(shè), 2016(1): 208-211.
[7]譚軍, 王文亮. 國家電網(wǎng)數(shù)據(jù)中心一體化監(jiān)控系統(tǒng)的部署實(shí)施. 電力信息化, 2011(10): 93-97.
[8]沈文海. “智慧氣象”內(nèi)涵及特征分析. 中國信息化, 2015(1):80-91.
[9]沈文海. 向氣象數(shù)據(jù)中心演進(jìn). 氣象科技進(jìn)展, 2012, 2(4): 53-57.
Advances in Meteorological Science and Technology2018年1期