管麗麗 曹鈺 胡龍平 陳文源
1.上海市氣象信息與技術支持中心;2.長三角環(huán)境氣象預報預警中心;3.上海地聽信息科技有限公司
建立“長三角環(huán)境氣象案例庫及檢索系統(tǒng)”數(shù)據(jù)流程的改造機制,針對數(shù)據(jù)采集、產品加工、數(shù)據(jù)調用、算法管理與業(yè)務監(jiān)控等5個部分的改造。建立可行的流程機制并進行測試,未來將統(tǒng)一使用大數(shù)據(jù)云平臺提供的數(shù)據(jù)源,將業(yè)務產品生成流程納入到加工流水線中,業(yè)務產品生成后統(tǒng)一存放到分布式對象存儲庫中,在天鏡實現(xiàn)全流程全要素的監(jiān)控。
為消除“數(shù)據(jù)孤島”“應用煙囪”,推進資源整合、流程再造,發(fā)揮數(shù)據(jù)聚集規(guī)模效應,實現(xiàn)業(yè)務集約高效,需要把氣象局內業(yè)務系統(tǒng)數(shù)據(jù)統(tǒng)一歸集到國省氣象大數(shù)據(jù)云平臺(天擎)。數(shù)據(jù)中臺通過對接氣象大數(shù)據(jù)云平臺,形成和原始數(shù)據(jù)保持一致的歸集庫;歸集庫數(shù)據(jù)經過清洗加工、數(shù)據(jù)治理以及按照AI智能應用場景及服務的要求,進一步經過關聯(lián)、整合,從歸集庫中抽取數(shù)據(jù)構建各自的主題庫、專題庫,通過數(shù)據(jù)服務支撐子系統(tǒng)為上層智能化應用及服務提供數(shù)據(jù)支撐[1-4]。根據(jù)《氣象大數(shù)據(jù)云平臺試點建設工作方案》,選取“長三角環(huán)境氣象案例庫及檢索系統(tǒng)”做為融入上海市氣象局氣象大數(shù)據(jù)云平臺的試點任務。
“長三角環(huán)境氣象案例庫及檢索系統(tǒng)”通過集成多年海量歷史數(shù)據(jù)(空氣質量監(jiān)測、大氣污染模式預報,氣象觀測分析、氣象模式預報),從污染傳輸、氣象條件、模式預報分析等多個維度實現(xiàn)對PM2.5、臭氧等多種污染物的歷史同期污染過程深度對照。同時對重點城市和區(qū)域的污染發(fā)生頻率、污染水平及特征、發(fā)生氣象條件、污染類型進行系統(tǒng)性診斷,及對未來過程與歷史污染過程進行全方位自適應匹配,為長三角環(huán)境氣象質量保障和專家決策提供專業(yè)洞察和科學支持。
隨著系統(tǒng)本身和用戶數(shù)量的發(fā)展,逐步增加了3個大的需求:高效存儲及計算需求、統(tǒng)一監(jiān)控運維需求、集約化需求。
(1)高效存儲及計算需求。平臺數(shù)據(jù)涉及基礎氣象資料、環(huán)保數(shù)據(jù)、基礎地理數(shù)據(jù)等3大類30余項,數(shù)據(jù)來源廣泛、格式標準各異、接入方式復雜。經測算,平臺日采集及處理數(shù)據(jù)量約為20GB,生成服務產品文件大小近10GB,中大多數(shù)以小文件存放。高分辨率數(shù)據(jù)時空分析、高頻回滾計算對分類存儲、快速存儲檢索、分析再計算能力均提出更高需求。平臺涉及的2013年至今的觀測、預報模式數(shù)據(jù)均需滿足數(shù)據(jù)訪問、在線計算及回存需求,實時數(shù)據(jù)訪問快速響應需求,歷史長序列數(shù)據(jù)統(tǒng)計分析需求。
(2)統(tǒng)一監(jiān)控運維需求。作為“長三角環(huán)境氣象預報預警中心”的業(yè)務系統(tǒng)之一,需對數(shù)據(jù)到達、產品加工、服務分發(fā)等關鍵環(huán)節(jié)提供“全流程、全要素、全過程”監(jiān)控,提高數(shù)據(jù)質量、服務時效、故障處理時效,增強平臺運行的穩(wěn)定性。
(3)集約化需求。平臺存在大量數(shù)據(jù)和產品實時匯交與共享,數(shù)據(jù)分析、產品加工、前端交互涉及多個網(wǎng)段,目前雖功能研發(fā)完成,但需從業(yè)務布局出發(fā),更加實現(xiàn)集約部署。
受限于原CIMISS數(shù)據(jù)源環(huán)境,上面的需求無法實現(xiàn),但是基于氣象大數(shù)據(jù)云平臺為業(yè)務實現(xiàn)數(shù)據(jù)和算法的統(tǒng)一調配提供了可能?!伴L三角環(huán)境氣象案例庫及檢索系統(tǒng)”完成數(shù)據(jù)統(tǒng)一采集、存儲、產品加工處理,業(yè)務功能的改造融入,實現(xiàn)全流程統(tǒng)一調度管理與監(jiān)控,最終實現(xiàn)全面融入氣象大數(shù)據(jù)云平臺,進一步提升業(yè)務系統(tǒng)運行和管理效率。
目前“長三角環(huán)境氣象案例庫及檢索系統(tǒng)”數(shù)據(jù)源包括以下幾個方面:CIMISS平臺:氣象觀測數(shù)據(jù)(地面、探空)、環(huán)保局網(wǎng)站(空氣質量監(jiān)測數(shù)據(jù))、模式服務器(WRF-CHEM大氣模式、EC細網(wǎng)格)。系統(tǒng)通過實時獲取各類數(shù)據(jù),在系統(tǒng)應用服務器上進行單獨加工處理,圖片等產品存入NAS掛載盤,元數(shù)據(jù)等控制信息存入系統(tǒng)自建SQL Server數(shù)據(jù)庫,系統(tǒng)采用前后分離的架構,開發(fā)接口Web服務接口,為Web前端提供服務接口。系統(tǒng)界面如圖1所示。
圖1 長三角環(huán)境氣象案例庫及檢索系統(tǒng)Fig.1 Yangtze River Delta environmental meteorological case database and retrieval system
根據(jù)大數(shù)據(jù)云平臺業(yè)務架構和功能特點,向天擎的融入分別從“云”“端”兩方面聯(lián)合設計融入方案(如圖2所示)。
圖2 改造后的數(shù)據(jù)流程圖Fig.2 The modified data flow chart
“云”的融入包含IaaS層、SaaS層。其中,IaaS層由大數(shù)據(jù)云平臺提供系統(tǒng)所需的虛擬資源池、分布式物理池、數(shù)據(jù)存儲的基礎設施資源。SaaS層,云平臺針對系統(tǒng)數(shù)據(jù)及產品特征,提供分類數(shù)據(jù)存儲、算法集成改造融入、擴充現(xiàn)有數(shù)據(jù)服務接口,將原系統(tǒng)中的算法、工作流、任務調度調整為大數(shù)據(jù)云平臺的加工流水線,支持生成的業(yè)務產品回存入云平臺統(tǒng)一的數(shù)據(jù)及存儲環(huán)境[5-8]。
“端”的融入包括Web端展示融入、后端管理端的融入改造。后端Web接口連接天擎云數(shù)據(jù)庫及存儲,Web前端保持原有不變。數(shù)據(jù)采集環(huán)境,現(xiàn)有數(shù)據(jù)交互算法向云平臺遷移。對于原本對接CIMISS數(shù)據(jù)服務接口,不作變化。對于云平臺尚不包含的環(huán)保等數(shù)據(jù),遵循大數(shù)據(jù)云平臺的數(shù)據(jù)輸入輸出和監(jiān)控規(guī)范,納入統(tǒng)一交換質控系統(tǒng)進行解析處理。
數(shù)據(jù)存儲管理,完全轉移至云平臺。新增空間數(shù)據(jù)庫,以postgreSQL支撐點、線、面SHP數(shù)據(jù)與氣象基礎數(shù)據(jù)的空間融合入分析與信息提??;擴充歷史分析庫,大體量、長時次、循環(huán)滾動計算的歷史檢驗數(shù)據(jù),采用云數(shù)據(jù)庫提升計算效率;分配共享文件存儲,用于中間結果緩存,對頻繁更新的共享指標、圖片產品以分布式NAS存儲。
數(shù)據(jù)服務接口改造,數(shù)據(jù)接口融入包含兩部分,基于現(xiàn)有標準、擴展MUSIC底層通用接口,在時間窗、區(qū)域段、地理信息區(qū)間等方面容納更多動態(tài)適配參數(shù),定制開發(fā)空間分析服務接口功能,滿足不同參數(shù)化方案下的動態(tài)空間信息調用和分析;利用眾創(chuàng)接口,對MUSIC接口無法滿足的功能定制開發(fā),如根據(jù)前端展示需求,形成多個數(shù)據(jù)服務接口。
針對系統(tǒng)的業(yè)務加工處理流程通過接口與天鏡系統(tǒng)對接進行改造,實施個性化監(jiān)控告警策略,對應用端及業(yè)務流程進行監(jiān)控。依據(jù)天鏡標準接口改造升級系統(tǒng)的所有加工處理流程,增加發(fā)送DI和EI信息的業(yè)務功能,并通過接口的形式與天鏡系統(tǒng),并制定相應的告警策略。實施對“長三角環(huán)境氣象案例庫及檢索系統(tǒng)”的個性化監(jiān)控,實現(xiàn)應用端及所使用的大數(shù)據(jù)云平臺資源的業(yè)務流程監(jiān)控,向運維保障人員提供基于業(yè)務分類的業(yè)務全流程監(jiān)控信息。
現(xiàn)有的氣象大數(shù)據(jù)云平臺“天擎”系統(tǒng)的數(shù)據(jù)資料可分為5類:結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù)、雷達流、質控前原始數(shù)據(jù)。作為試點融入系統(tǒng)的“長三角環(huán)境氣象案列庫及檢索系統(tǒng)”的數(shù)據(jù)類型主要包含2個:結構化和非結構化數(shù)據(jù)。該次試點融入任務在2類數(shù)據(jù)中各選取1種數(shù)據(jù)進行融入,結構化數(shù)據(jù)選取了“按類型統(tǒng)計診斷產品-風玫瑰圖”,非結構化數(shù)據(jù)選取了“查詢產品-污染空間分布圖”。
兩類數(shù)據(jù)的相關算法分別是:(1)風玫瑰圖(結構化數(shù)據(jù))是氣象科學專業(yè)統(tǒng)計圖表,用來統(tǒng)計某個地區(qū)一段時期內風向、風速發(fā)生頻率,又分為“風向玫瑰圖”和“風速玫瑰圖”。(2)污染空間分布圖(非結構化數(shù)據(jù))是對污染物觀測數(shù)據(jù)進行采集、并進行時間一致性和空間一致性匹配加工,實現(xiàn)所需時間、空間范圍平均等統(tǒng)計數(shù)據(jù)顯示。此次試點融入改造了兩個方面的任務,實現(xiàn)了外部系統(tǒng)的首次閉環(huán)數(shù)據(jù)融入。
圖3 系統(tǒng)融入的主要工作和流程Fig.3 The main work and process of system integration
數(shù)據(jù)方面:將風玫瑰頻率統(tǒng)計算法所用到的數(shù)據(jù)來源從CIMISS系統(tǒng)切換到天擎系統(tǒng),通過讀取中國地面逐小時數(shù)據(jù)和中國地面分鐘數(shù)據(jù)兩個資料,將實時采集的各個風向統(tǒng)計到這16個方向上,生成華東地面風頻風向小時資料。因為這個是上海特有的資料,為了融入“天擎”系統(tǒng),申請了新的資料四級編碼(A.4600.0001.S001)、存儲四級編碼(A.4600.0001.M001)、并在基礎庫的緩沖庫里新建了風頻風向統(tǒng)計表(SURF_WEA_HD_ WINDROSE_HOR_TAB)用于存儲統(tǒng)計的風向要素。
編譯程序方面:天擎數(shù)據(jù)讀取用了MUSIC接口,MUSIC對于Java語言提供了多種數(shù)據(jù)服務方式,包含SDK開發(fā)、REST、Web Service等。每種方式適用于不同的開發(fā)場景,比如在獲取數(shù)據(jù)頻率高、數(shù)據(jù)量大的場景,融入使用SDK模式進行開發(fā),通過建立數(shù)據(jù)服務長連接,提高數(shù)據(jù)獲取效率。虛谷數(shù)據(jù)庫JDBC驅動程序實現(xiàn)了和虛谷數(shù)據(jù)庫通信,支持PLSQL語句對數(shù)據(jù)庫的訪問,同時也是構造高級API和數(shù)據(jù)庫開發(fā)工具的基礎。風玫瑰頻率算法通過重新編譯JAR包從外部機器上遷移到天擎的DPL加工流水線上,實現(xiàn)了算法的融入?!伴L三角環(huán)境氣象案例庫及檢索系統(tǒng)”通過天擎的MUSIC接口讀取風頻風向統(tǒng)計表里的數(shù)據(jù)最終在Web端生成風玫瑰圖(如圖4所示)。非結構化數(shù)據(jù)AQI污染分布圖也是如此完成5大步驟的改造,實現(xiàn)了全部融入“天擎”系統(tǒng)。
圖4 污染風玫瑰圖Fig.4 The distribution with wind directions of a typical type pollution even
至此,從數(shù)據(jù)采集流程、數(shù)據(jù)存儲管理、產品加工流程、前端應用流程,全流程都完成改造,實現(xiàn)了首次整個流水線融入天擎系統(tǒng)。另外,天鏡系統(tǒng)需要重新開發(fā)監(jiān)控頁面,目前實現(xiàn)發(fā)送DI報錯信息給天鏡系統(tǒng),然后通過短信和企業(yè)微信方式實現(xiàn)實時監(jiān)控,實現(xiàn)了業(yè)務監(jiān)控流程的改造。
系統(tǒng)融入改造后長三角觀測數(shù)據(jù)獲取及統(tǒng)計從原來的4.7s縮短至2.3s,應用系統(tǒng)接口平均響應速度從原來的3s縮短至1.8s。“長三角環(huán)境氣象案例庫及檢索系統(tǒng)”融入天擎體現(xiàn)了集約化的思想。數(shù)據(jù)共享:數(shù)據(jù)放入云平臺,一點存入,全局應用;算法共用:算法納入流水線,一點嵌入,全程貫通;應用輕量化:不用買硬件、不用建基礎軟件、不用管理數(shù)據(jù)資源;優(yōu)化業(yè)務流程,提升業(yè)務運行和管理效率,減少數(shù)據(jù)搬運環(huán)節(jié)、貫通業(yè)務上下游。
引用
[1]趙芳,何文春,張小纓,等.全國綜合氣象信息共享平臺建設[J].氣象科技進展,2018,8(1):171-180.
[2]劉媛媛,何文春,王妍,等.氣象大數(shù)據(jù)云平臺歸檔系統(tǒng)設計及實現(xiàn)[J].氣象科技,2021,49(5):697-706.
[3]張暉妍,楊青軍,李林,等.青海省氣象大數(shù)據(jù)云平臺設計[J].青??萍?2019,26(3):67-71.
[4]秦運龍,王迎迎,張冰松,等.省級外網(wǎng)氣象大數(shù)據(jù)服務平臺研究與實現(xiàn)[J].氣象科技,2020,48(6):823-828+854.
[5]趙冰燕,郭彩蓮,來志云.基于青海氣象大數(shù)據(jù)云平臺的數(shù)據(jù)服務接口[J].青海科技,2021,28(1):82-86+90.
[6]黃志,黃珩,梁維亮,等.基于“天擎”DPL的業(yè)務融入設計與應用初探[J].氣象研究與應用,2022,43(1):73-77.
[7]戚云楓,曾小團,梁苑苑,等.廣西網(wǎng)格預報系統(tǒng)融入“天擎”的實踐與思考[J].氣象研究與應用,2022(2):111-116.
[8]朱亮,夏正龍,鐘艷雯,等.基于天擎·湖南的一體化平臺云化改造關鍵技術[J].智能計算機與應用,2022,12(3):204-207.