袁雅涵 馮勇 朱輝 孟金 陳澍
(山東省氣象信息中心 山東省濟南市 250031)
隨著氣象信息化、集約化、標準化進程的加速推進,建立統(tǒng)一數據環(huán)境、整合業(yè)務應用系統(tǒng)、建設集約共享的氣象云等各項工作都在穩(wěn)步推進和實施,氣象業(yè)務信息化正由技術應用走向工作協(xié)同。氣象綜合業(yè)務實時監(jiān)控系統(tǒng)——“天鏡”建設是推動信息化和國家級業(yè)務現(xiàn)代化的一項重要舉措,對于促進氣象數據融合,推動氣象業(yè)務綜合化、集約化發(fā)展具有重大意義,可以全方位提升氣象業(yè)務、現(xiàn)代化管理和信息化水平。
目前,山東省已完成了“天鏡”省級通用版的本地化部署,實現(xiàn)了部分省級數據的傳輸監(jiān)控,但缺少對省內特色資料及地市數據的全流程監(jiān)控,存在市級和縣級下游數據監(jiān)控的空白,業(yè)務應用的數據完整性、時效性的監(jiān)控能力相對薄弱等問題。另外,山東省氣象局正大力推進業(yè)務系統(tǒng)集約化管理,面對日益精細化的監(jiān)控需求、日漸增長的業(yè)務系統(tǒng),目前還存在監(jiān)控任務分散,運行維護人力成本高、效率低的問題,制約了山東氣象業(yè)務集約化的健康發(fā)展。為實現(xiàn)省-市-縣三級“全流程”、集約化的實時業(yè)務監(jiān)控運維系統(tǒng),急需打通下游數據監(jiān)控流程,規(guī)范數據監(jiān)控接入的步驟和程序,規(guī)范山東特色資料和業(yè)務系統(tǒng)對接“天鏡”的技術流程,實現(xiàn)快速接入。
綜合上述問題,本文展開特色資料全流程和業(yè)務系統(tǒng)接入“天鏡”系統(tǒng)的規(guī)范化研究,實現(xiàn)特色數據全流程和業(yè)務系統(tǒng)重要指標的實時監(jiān)控和告警。實現(xiàn)省內特色資料、省-市-縣三級業(yè)務數據及業(yè)務系統(tǒng)的標準化快速接入和全流程監(jiān)控,數據全流程的實時監(jiān)控實現(xiàn)數據采集、數據加工處理、數據存儲服務、數據分析應用的全過程監(jiān)控和實時的監(jiān)視告警,實現(xiàn)數據的快速監(jiān)控和全流程監(jiān)視。根據業(yè)務監(jiān)控和系統(tǒng)運維需求實施集約化的監(jiān)控整合,實時監(jiān)控業(yè)務系統(tǒng)基礎資源狀態(tài)、應用存儲目錄、產品完整性、頁面訪問狀態(tài)等關鍵性指標,對異常狀態(tài)實時告警。業(yè)務系統(tǒng)的快速接入,實現(xiàn)對業(yè)務系統(tǒng)基礎資源、軟件運行、各環(huán)節(jié)數據時效性及完整性、服務狀態(tài)、任務運行情況的實時監(jiān)控,大大降低業(yè)務系統(tǒng)運維難度,提高業(yè)務數據監(jiān)視的靈活性,滿足業(yè)務數據高質量運維的需求。
目前國內外氣象行業(yè)都在積極開展業(yè)務系統(tǒng)監(jiān)控的研究工作。
國外氣象行業(yè)的監(jiān)視系統(tǒng)主要圍繞著數據傳輸網絡、數據收集生成、數據質量、觀測設備狀態(tài)進行監(jiān)控,如歐洲中期天氣預報中心(ECMWF)通過告警系統(tǒng)來對數據可用性和數據質量進行監(jiān)控告警;美國國家海洋和大氣管理局(NOAA)通過建設觀測系統(tǒng)監(jiān)控中心對全球海洋觀測系統(tǒng)的性能進行實時監(jiān)控;美國國家環(huán)境預報中心(NCEP)主要對數據完整性和時效性進行實時監(jiān)控。
如圖1所示,國內氣象行業(yè)的業(yè)務監(jiān)控系統(tǒng),主要功能是實現(xiàn)對觀測裝備、基礎資源、數據分發(fā)狀態(tài)、業(yè)務系統(tǒng)核心進程的監(jiān)視和運維,如全國綜合氣象信息共享系統(tǒng)業(yè)務監(jiān)控系統(tǒng)(CIMISS-MCP)對數據收集、分發(fā)、處理、存儲和共享進行全流程的監(jiān)視和綜合分析,綜合氣象觀測系統(tǒng)運行監(jiān)控平臺(ASOM)對天氣雷達、自動氣象站、探空系統(tǒng)等運行狀態(tài)進行實時監(jiān)控。
圖1:監(jiān)視信息接入“天鏡”技術框架
中國氣象局開發(fā)了氣象綜合業(yè)務實時監(jiān)控系統(tǒng),定位于對觀測、信息、預報預測、公共服務及政務管理的“全流程、一體化、可視化”監(jiān)控,按照“橫向集中、下沉一級、綜合監(jiān)控”的原則,建立橫縱一體化的氣象綜合業(yè)務全流程監(jiān)控。目前,山東省已完成了“天鏡”系統(tǒng)的本地
化建設和部署,實現(xiàn)了部分統(tǒng)一收集業(yè)務運行信息和觀測資料的監(jiān)控,實現(xiàn)了省級監(jiān)控系統(tǒng)與國家級監(jiān)控系統(tǒng)的實時聯(lián)動,初步建成了集約化實時業(yè)務監(jiān)控與運維體系。
結合“天鏡·山東”本地化建設需求,開展數據全流程接入“天鏡”監(jiān)控的關鍵技術研究,實現(xiàn)特色資料數據全流程的實時監(jiān)控。以特色資料為主線,監(jiān)視數據在采集、收集、入庫、分發(fā)等各環(huán)節(jié)的關鍵性能指標狀態(tài)。提供針對每類資料的全流程詳情查詢和耗時統(tǒng)計功能,根據時次、資料、數據來源等屬性可以查詢資料每條數據在各環(huán)節(jié)輸入輸出的詳細狀況。
基于“天鏡”的開放性框架,研究業(yè)務系統(tǒng)對接 “天鏡”的重難點問題和規(guī)范化流程,實現(xiàn)業(yè)務系統(tǒng)監(jiān)控的快速接入。監(jiān)控業(yè)務系統(tǒng)主要功能圍繞監(jiān)視信息的全生命周期,從監(jiān)控信息匯聚、分析到可視化展示、集中告警、運維管理。對業(yè)務系統(tǒng)的基礎資源、軟件運行、各環(huán)節(jié)數據時效及完整性、服務狀態(tài)、任務運行情況等進行實時監(jiān)控,根據業(yè)務系統(tǒng)需求進行指標的多維統(tǒng)計分析、業(yè)務影響分析等加工處理,生成監(jiān)控系統(tǒng)的多級別、多維度綜合性指標、超閾值監(jiān)測指標和關聯(lián)分析視圖,實現(xiàn)對超出各環(huán)節(jié)閾值信息進行實時告警功能。
“天鏡·山東”按照高性能、大容量的原則設計,提供平滑可伸縮的系統(tǒng)架構,支持高并發(fā)量用戶訪問,具備良好的擴展性。
本文基于“天鏡·山東”開展特色數據及業(yè)務系統(tǒng)的關鍵技術研究,根據監(jiān)控類型分為資源類監(jiān)控、數據全流程監(jiān)控、業(yè)務系統(tǒng)監(jiān)控、告警監(jiān)視四種,監(jiān)視信息接入“天鏡·山東”技術框架如圖1所示。結合數據輪詢、FTP推送、
消息隊列拆分、解碼入庫等步驟打通數據全流程通道,按照“天鏡”系統(tǒng)監(jiān)視信息采集接口規(guī)范開發(fā)數據推送接口和數據采集接口,開發(fā)DI/EI信息采集腳本并進行指標信息的可視化。對業(yè)務系統(tǒng)的基礎資源、軟件運行、各環(huán)節(jié)數據時效性及完整性、服務狀態(tài)、任務運行情況等進行實時監(jiān)控,開發(fā)相應的多元可視化監(jiān)控頁面,實時展示告警信息。
表1:數據DI信息字段內容
針對服務器、操作系統(tǒng)、數據庫、中間件等監(jiān)測采集,主要是通過在被監(jiān)測服務器上安裝“天鏡”的Agent(本地代理)或RemoteAgent(遠程代理)來采集數據,通過內拉或外推的形式接入“天鏡”。針對第三方監(jiān)控平臺數據,如云平臺、安全管理系統(tǒng)、機房動力環(huán)境監(jiān)測系統(tǒng)等,按照“天鏡”接口要求開發(fā)數據推送接口,將監(jiān)測DI(對氣象綜合業(yè)務實時監(jiān)控體系下監(jiān)控數據進行分類,定義監(jiān)控數據包含的條目、條目含義、屬性、約束條件等業(yè)務內容)信息發(fā)送至“天鏡”系統(tǒng)。
數據源通過FTP輪詢腳本推送到CTS(全國綜合氣象信息共享平臺山東省數據收發(fā)業(yè)務監(jiān)控系統(tǒng))進行數據和消息隊列的處理和轉發(fā),接著進行DPC解碼程序解碼拆分,將數據存儲到大數據云平臺的緩存庫。通過氣象大數據云平臺“天擎”的總控配置管理系統(tǒng)對資料的全流程的總配置、收集、分發(fā)、入庫、同步的各個環(huán)節(jié)進行配置,其中總配置包括配置資料編碼、臺站級/文件級、提前延后時次、收集頻次、是否為關鍵資料、是否考核、是否監(jiān)視;收集配置包括配置節(jié)目表、是否告警、告警參數、應收數、及時時間配置;分發(fā)配置包括配置分發(fā)用戶、分發(fā)頻次、節(jié)目表、是否告警、告警參數、應分發(fā)數、及時時間配置;入庫配置包括配置目標庫標識(緩沖庫BFDB或實時庫RADB等)、SOD編碼、入庫頻次、節(jié)目表、是否告警、告警參數、應入庫數、及時時間配置;同步配置包括配置同步的目標節(jié)點、目標庫、目標表、同步頻次、節(jié)目表、是否告警、告警參數、應同步數配置。
如表1所示,各個環(huán)節(jié)的DI信息通過Transfer形式通過接口傳送到gateway中進行白名單匹配關聯(lián),將匹配后的信息傳送到Kafka,通過數據處理腳本從Kafka中調取相關信息存入ElasticSearch數據庫中,最后基于“天鏡”系統(tǒng)按需調取相關監(jiān)視內容信息,對數據加工處理并進行可視化監(jiān)控展示。
以業(yè)務監(jiān)控需求和頁面展示設計為前提,根據業(yè)務系統(tǒng)監(jiān)視范圍確定監(jiān)視具體內容,常用的業(yè)務系統(tǒng)監(jiān)視范圍主要分為四個層次,包括服務層、數據層、軟件運行層、基礎資源層, 如圖2所示。根據業(yè)務應用監(jiān)視需求,選擇提供應用存儲目錄監(jiān)視、應用進程監(jiān)視、應用服務端口監(jiān)視配置、產品完整性監(jiān)視、頁面訪問狀態(tài)監(jiān)視等。
圖2:業(yè)務系統(tǒng)監(jiān)視范圍
根據業(yè)務應用監(jiān)視需求,將業(yè)務系統(tǒng)的基礎資源監(jiān)視相關信息和核心業(yè)務監(jiān)視指標信息根據接口開發(fā)規(guī)范開發(fā)數據推送接口,推送業(yè)務系統(tǒng)基礎資源監(jiān)視相關信息和核心監(jiān)視指標信息DI,HTTP網關接入采集的數據,使用Nginx Web反向代理所有的rest接口實現(xiàn)網關的負載均衡,采用Kafka、Spark streaming實時并行計算框架進行數據的加工處理,實時將數據閾值分析、統(tǒng)計分析生成熱點數據存入內存數據庫redis,將數據解析計算生成指標數據存入ElasticSearch數據庫中,具體流程如圖3所示。
圖3:業(yè)務系統(tǒng)接入流程
最后,根據業(yè)務系統(tǒng)監(jiān)視需求進行指標的多維統(tǒng)計分析、業(yè)務影響分析等處理,生成監(jiān)控系統(tǒng)的多級別、多維度綜合性指標監(jiān)控和關聯(lián)分析視圖,開發(fā)多元可視化的展示頁面。
對于告警的監(jiān)視,首先對告警信息進行接入,按照EI信息(對氣象信息化業(yè)務在運行過程中產生的告警事件信息進行分類,定義事件信息屬性,并對每個屬性的內容描述規(guī)則進行說明。同時對氣象業(yè)務告警事件信息管理流程進行說明)接口規(guī)范開發(fā)相關接口,將數據監(jiān)控和業(yè)務系統(tǒng)監(jiān)控各環(huán)節(jié)的EI告警信息通過告警接口推送到ElasticSearch數據庫,告警EI示例如下,字段內容如表2所示。
表2:告警EI信息字段內容
圖4:告警監(jiān)視流程
接著對告警信息進行分析處理,實現(xiàn)對超出各環(huán)節(jié)閾值的信息進行實時警告功能,提高業(yè)務系統(tǒng)運維效率,最大限度減少無效告警,并將監(jiān)控告警與運維流程、配置管理工具進行聯(lián)動,流程圖如4所示。在告警主頁面對告警信息及告警反饋信息流水式展示,掌握故障資源的相關信息,提升故障處理效率。
目前,山東省已完成了“天鏡”省級通用版的本地化部署,實現(xiàn)了部分省級數據的傳輸監(jiān)控。面對日益精細化的監(jiān)控需求、日漸增長的業(yè)務系統(tǒng),目前還存在監(jiān)控任務分散,運行維護人力成本高、效率低,缺少對省內特色資料的全流程監(jiān)控及業(yè)務系統(tǒng)快速融入的方案,阻礙了推進業(yè)務系統(tǒng)集約化管理的進程。本文基于“天鏡·山東”的開放性框架,對特色資料及業(yè)務系統(tǒng)接入“天鏡·山東”監(jiān)控展開規(guī)范化研究,根據不同監(jiān)控類型研究了資源類監(jiān)控、數據全流程監(jiān)控、業(yè)務系統(tǒng)監(jiān)控、告警監(jiān)視四種監(jiān)視的接入方案。打通下游數據監(jiān)控流程,規(guī)范數據監(jiān)控接入的步驟和程序,規(guī)范山東特色資料和業(yè)務系統(tǒng)對接“天鏡·山東”的技術流程,實現(xiàn)快速接入,切實推進省-市-縣三級“全流程”、集約化的實時業(yè)務監(jiān)控運維系統(tǒng)建設。