劉海燕, 周雪瑩, 李顯風(fēng), 胡麗麗
江西省氣象信息中心, 江西 南昌 330096
天氣預(yù)報實現(xiàn)了從傳統(tǒng)站點預(yù)報向滾動制作、實時同步、協(xié)同一致的智能網(wǎng)格預(yù)報發(fā)展,對公眾和各行業(yè)領(lǐng)域的精細化天氣預(yù)報服務(wù)具有重要的作用,是發(fā)展現(xiàn)代氣象業(yè)務(wù)的重要業(yè)務(wù)體系(金榮花等,2019)。面向精細化氣象業(yè)務(wù)服務(wù)需求,智能網(wǎng)格氣象預(yù)報業(yè)務(wù)不斷發(fā)展,其產(chǎn)品的時空分辨率不斷提升,導(dǎo)致產(chǎn)品數(shù)據(jù)量逐年大幅度增長。業(yè)務(wù)產(chǎn)品通過寫入氣象大數(shù)據(jù)云平臺以統(tǒng)一數(shù)據(jù)接口提供用戶共享訪問,由于用戶本地存儲空間有限,用戶通過數(shù)據(jù)接口獲取的數(shù)據(jù)文件通常不能完整保存,無法滿足人工智能等大數(shù)據(jù)應(yīng)用對長時間序列產(chǎn)品文件的需求。因此,迫切需要建設(shè)統(tǒng)一的文件級數(shù)據(jù)共享環(huán)境。數(shù)據(jù)湖可以用于存儲任意類型的海量數(shù)據(jù),并具有可擴展的大規(guī)模數(shù)據(jù)處理能力。用戶通過數(shù)據(jù)湖引擎可實現(xiàn)直接訪問集中存儲的數(shù)據(jù)文件,并能夠根據(jù)業(yè)務(wù)、科研等不同需求解析數(shù)據(jù),挖掘價值,減少數(shù)據(jù)的重復(fù)存儲(陳永南等,2019),可以顯著提升大數(shù)據(jù)應(yīng)用支撐能力。
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,數(shù)據(jù)湖技術(shù)在眾多行業(yè)領(lǐng)域得到應(yīng)用和發(fā)展。國內(nèi)檔案文獻領(lǐng)域?qū)W者通過整合多樣性檔案數(shù)據(jù)資源,基于數(shù)據(jù)湖架構(gòu)構(gòu)建了智慧檔案館生態(tài)系統(tǒng)(趙生輝等,2021);國內(nèi)民用航空研究人員針對傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫無法滿足航空數(shù)據(jù)指數(shù)級增長的需求,提出了一種基于Lambda的運行支持數(shù)據(jù)湖系統(tǒng)設(shè)計方法(馬馳,2021);中國電信基于“新基建”對統(tǒng)一數(shù)據(jù)湖做了有益的探索和實踐,并提出了基于BSS/MSS/OSS跨域融合的統(tǒng)一數(shù)據(jù)湖建設(shè)方案(胡軍軍等,2019;劉志勇等,2021);針對我國水陸聯(lián)運領(lǐng)域高復(fù)雜程度的自動化集裝箱碼頭運營數(shù)據(jù)混亂及可視化程度低等問題,提出一種自動化集裝箱碼頭數(shù)據(jù)湖系統(tǒng)設(shè)計與管理方法(孔席超等,2022)。根據(jù)氣象數(shù)據(jù)集約化管理需求,中國氣象局依托氣象大數(shù)據(jù)云平臺建設(shè)了氣象數(shù)據(jù)湖,實現(xiàn)對國家級多套氣象文件存儲系統(tǒng)集成,并提供統(tǒng)一目錄視圖服務(wù),可以滿足不同業(yè)務(wù)對數(shù)據(jù)的存儲需求,為挖掘數(shù)據(jù)價值提供高性能的服務(wù)支撐。
文中結(jié)合江西業(yè)務(wù)建設(shè)和實際業(yè)務(wù)需求,采用數(shù)據(jù)湖技術(shù)建設(shè)全省統(tǒng)一的文件級數(shù)據(jù)環(huán)境,實現(xiàn)智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品共享服務(wù),以滿足江西省精細化預(yù)報業(yè)務(wù)對國內(nèi)外模式產(chǎn)品以及實況網(wǎng)格產(chǎn)品等多數(shù)據(jù)源長時間序列產(chǎn)品文件的需求,為海量氣象數(shù)據(jù)的存儲管理和共享服務(wù)提供思路和參考。
江西省氣象局通過國內(nèi)氣象通信系統(tǒng)(CTS)、中國氣象衛(wèi)星廣播系統(tǒng)(CMACast)和智能網(wǎng)格氣象預(yù)報云平臺等不同渠道收集全國智能網(wǎng)格預(yù)報指導(dǎo)產(chǎn)品、全國智能網(wǎng)格實況融合分析產(chǎn)品和高分辨率數(shù)值預(yù)報模式產(chǎn)品(表1)等產(chǎn)品。全國智能網(wǎng)格預(yù)報指導(dǎo)產(chǎn)品包括陸面格點預(yù)報指導(dǎo)產(chǎn)品(含基本要素、環(huán)境、強對流)、全國格點預(yù)報逐時滾動更新產(chǎn)品和省級格點預(yù)報產(chǎn)品(含定時、實時)等各業(yè)務(wù)環(huán)節(jié)產(chǎn)品,時空分辨率最高為5 km/h(胡爭光等,2020)。全國智能網(wǎng)格實況融合分析產(chǎn)品包括降水融合實況分析產(chǎn)品、陸面融合實況分析產(chǎn)品與三維云融合實況分析產(chǎn)品,時空分辨率最高為1 km/h(韓帥等,2018;師春香等,2019;朱智等,2021)。上述兩種產(chǎn)品的空間范圍包括中國區(qū)域(0°—60°N,70°—140°E)和江西區(qū)域(24°—31°N,113°—119°E)兩種,數(shù)據(jù)格式包括MICAPS格式和GRIB2兩種存儲格式。高分辨率數(shù)值預(yù)報模式產(chǎn)品包括中國氣象局研發(fā)的全球數(shù)值預(yù)報模式產(chǎn)品(GRAPES)和上海、廣東、北京三個區(qū)域氣象中心研發(fā)的區(qū)域數(shù)值預(yù)報模式(李婷苑,2021)。
表1 高分辨率數(shù)值預(yù)報模式產(chǎn)品說明
圖1為2017—2021年江西省氣象局年均日接收數(shù)據(jù)量,可見產(chǎn)品平均日接收數(shù)據(jù)量呈逐年增長趨勢。2017年平均日接收數(shù)據(jù)量為14.58 GB,2018—2020年由于產(chǎn)品頻次、分辨率提升,年平均日接收數(shù)據(jù)量小幅增加。根據(jù)第八屆全國氣象行業(yè)天氣預(yù)報職業(yè)技能競賽數(shù)據(jù)環(huán)境需求,2021年江西省將國家級格點預(yù)報指導(dǎo)產(chǎn)品由分省區(qū)域切換為全國區(qū)域,導(dǎo)致該產(chǎn)品年平均日接收數(shù)據(jù)量由0.2 GB提升至35 GB左右,并且2021年新增了華南熱帶區(qū)域模式-TRAMS-9公里產(chǎn)品和國家氣象中心-GRAPES_REPS模式產(chǎn)品,年平均日接收數(shù)據(jù)量增加至46 GB左右。受存儲空間限制,產(chǎn)品文件保留天數(shù)最長近30 d,最短近3 d,無法滿足日益增長的業(yè)務(wù)需求。
圖1 2017—2021年江西省氣象局年均日接收數(shù)據(jù)量
目前,智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品通過智能網(wǎng)格共享平臺和氣象大數(shù)據(jù)云平臺兩種方式提供產(chǎn)品的存儲管理,并通過氣象統(tǒng)一服務(wù)接口(MUSIC)向省市縣提供共享服務(wù)。圖2為2021年智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品接口調(diào)用情況,接口調(diào)用最長耗時小于1 s的次數(shù)占總調(diào)用次數(shù)的95.34%,1—5 s的比例為3.97%,大于5 s的比例為0.69%,其中獲取中國0.05°×0.05°逐小時總云量融合實況分析產(chǎn)品的接口調(diào)用耗時最長,達19.98 s,獲取省級格點預(yù)報訂正產(chǎn)品的接口調(diào)用耗時最短,耗時在毫秒內(nèi)。
圖2 2021年江西省氣象局智能網(wǎng)格接口調(diào)用耗時
目前業(yè)務(wù)用戶獲取智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品需要訪問多個數(shù)據(jù)源,面對這種共享服務(wù)現(xiàn)狀,需要尋找一種用戶可以更便捷地獲取產(chǎn)品文件的方式?;跉庀蟠髷?shù)據(jù)云平臺構(gòu)建的氣象數(shù)據(jù)湖,集成現(xiàn)有的文件存儲系統(tǒng),屏蔽底層架構(gòu)的復(fù)雜性,通過目錄管理統(tǒng)一標(biāo)識各項數(shù)據(jù),在分布式系統(tǒng)架構(gòu)基礎(chǔ)上實現(xiàn)用戶管理、目錄掛載、目錄授權(quán)和日志審計等。借助氣象數(shù)據(jù)湖,授權(quán)用戶直接獲取已入湖的業(yè)務(wù)產(chǎn)品,滿足氣象業(yè)務(wù)對多數(shù)據(jù)源長時間序列產(chǎn)品文件的需求。
數(shù)據(jù)湖是一個以原始格式存儲數(shù)據(jù)的大型數(shù)據(jù)存儲庫或系統(tǒng),以數(shù)據(jù)為導(dǎo)向,實現(xiàn)任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理,具有靈活性,可擴展性,低成本性等特性。它按原生模型存儲數(shù)據(jù),能夠大量存儲各種類型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及二進制數(shù)據(jù)等。數(shù)據(jù)湖中的數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù)的完整副本,僅對數(shù)據(jù)進行適當(dāng)?shù)亟M織,保證數(shù)據(jù)真實可靠,能更好滿足業(yè)務(wù)應(yīng)用對長時間序列數(shù)據(jù)的需求。作為海量數(shù)據(jù)的存儲和傳輸載體,用戶通過統(tǒng)一的數(shù)據(jù)環(huán)境,能夠根據(jù)業(yè)務(wù)、科研等不同需求解析數(shù)據(jù),挖掘價值,并且減少重復(fù)性工作。
數(shù)據(jù)湖技術(shù)的使用,可以具備以下幾個優(yōu)勢:
1) 數(shù)據(jù)湖基于現(xiàn)有硬件資源,采用開源技術(shù),降低了建設(shè)和維護成本。數(shù)據(jù)湖的存儲一般采用分布式對象存儲或分布式文件系統(tǒng)來存儲數(shù)據(jù),具有可擴展性和敏捷性等特性,存儲空間巨大,能極大提高數(shù)據(jù)存儲總量。
2) 把不同種類的數(shù)據(jù)匯聚是數(shù)據(jù)湖的價值之一。數(shù)據(jù)湖中的數(shù)據(jù)類型依賴于數(shù)據(jù)源系統(tǒng)的原始數(shù)據(jù)格式,可以快速高效地存儲大量來源不同、格式不同的業(yè)務(wù)原始數(shù)據(jù),實現(xiàn)數(shù)據(jù)的匯聚和集中管理,有利于優(yōu)化數(shù)據(jù)服務(wù)。
3) 數(shù)據(jù)湖實現(xiàn)海量原始數(shù)據(jù)集中存儲。存儲任意類型的數(shù)據(jù),只有在使用時才會處理和轉(zhuǎn)換數(shù)據(jù),適合為人工智能提供海量小文件存取和數(shù)據(jù)共享等,采用這種模式,能為數(shù)據(jù)挖掘、數(shù)據(jù)分析和深度學(xué)習(xí)提供有效服務(wù),使得數(shù)據(jù)分析人員更專注于數(shù)據(jù)、算法和業(yè)務(wù),實現(xiàn)數(shù)據(jù)價值增值化。
根據(jù)氣象業(yè)務(wù)的實際需求,充分考慮處理流程及業(yè)務(wù)系統(tǒng)現(xiàn)狀等因素,堅持簡單、敏捷和靈活的理念,采用PostgreSQL、Kibana、Elasticsearch等開源技術(shù)設(shè)計氣象數(shù)據(jù)湖,其架構(gòu)如圖3所示。在氣象大數(shù)據(jù)云平臺上進行快速搭建,將產(chǎn)品加工系統(tǒng)的消息集群和調(diào)度集群分別作為氣象數(shù)據(jù)湖的管理和計算節(jié)點,管理節(jié)點實現(xiàn)服務(wù)高可用性,授權(quán)管理文件系統(tǒng);計算節(jié)點管理存儲資源,提供分布式緩存能力和高性能緩存加速,實現(xiàn)存儲后端可以同時對接分布式NAS、HDFS等。該設(shè)計可以滿足大數(shù)據(jù)框架各種海量、高性能的訪問需求,以及AI/機器學(xué)習(xí)的低延時、高吞吐的使用需求,同時簡化運維管理。
圖3 氣象數(shù)據(jù)湖架構(gòu)
目前智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品主要通過氣象數(shù)據(jù)統(tǒng)一服務(wù)接口(MUSIC)、MICAPS4和產(chǎn)品共享平臺等方式為業(yè)務(wù)用戶提供共享服務(wù)。該產(chǎn)品接入氣象數(shù)據(jù)湖后,授權(quán)用戶可以通過數(shù)據(jù)湖客戶端連接至數(shù)據(jù)湖文件管理系統(tǒng),采用掛載盤符的方式獲取以時間為粒度的長時間序列產(chǎn)品文件。
智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品采用物理入湖的方式匯總至氣象數(shù)據(jù)湖內(nèi),分為半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)包括智能網(wǎng)格二源快速融合降水產(chǎn)品(小時、日)、智能網(wǎng)格三源實時融合降水產(chǎn)品(小時、日)、智能網(wǎng)格逐10 min降水產(chǎn)品、國家級網(wǎng)格預(yù)報指導(dǎo)產(chǎn)品(全國、分省)、全國網(wǎng)格預(yù)報服務(wù)產(chǎn)品(定時拼接-全國)、全國網(wǎng)格預(yù)報服務(wù)產(chǎn)品(逐時滾動-分省)、省級網(wǎng)格預(yù)報訂正產(chǎn)品和3DCloudA中國逐小時三維云量融合實況分析產(chǎn)品;非結(jié)構(gòu)化數(shù)據(jù)包括CMPAS 0.01°×0.01°逐小時降水實時融合實況分析產(chǎn)品(分省)、CMPAS 0.01°×0.01°逐小時降水近實時融合實況分析產(chǎn)品(分省)、HRCLDAS中國0.01°×0.01°逐小時實時融合實況分析產(chǎn)品(分省)、3DCloudA 0.05°×0.05°逐小時總云量融合實況分析產(chǎn)品。半結(jié)構(gòu)化數(shù)據(jù)拆分、重組要素后,索引存入文件索引庫,文件體存入分布式NAS;非結(jié)構(gòu)化數(shù)據(jù)根據(jù)索引策略和存儲規(guī)則把數(shù)據(jù)存入分布式文件索引庫+分布式NAS,同時文件實體存入分布式表格系統(tǒng)。
氣象數(shù)據(jù)湖存儲長時間序列的數(shù)據(jù)集,為業(yè)務(wù)用戶提供一個統(tǒng)一的數(shù)據(jù)共享平臺。在初始化階段,根據(jù)“/根目錄/{大類簡碼}/{產(chǎn)品屬性[加工中心]/[產(chǎn)品種類]/[加工系統(tǒng)]/[產(chǎn)品等級]/[產(chǎn)品代碼]/[產(chǎn)品格式]/[空間屬性]/[要素]/[時間屬性]}”形成存儲目錄(表2),{}內(nèi)為必選,[]內(nèi)為可選,確定業(yè)務(wù)產(chǎn)品存儲位置,完成相應(yīng)數(shù)據(jù)的全量抽取或增量接入,并且長期存儲不會隨意遷移。
表2 存儲目錄說明
訪問控制包括主體(業(yè)務(wù)用戶)、客體(氣象數(shù)據(jù)湖)和安全控制規(guī)則集(安全策略)三個基本要素,用來控制和管理業(yè)務(wù)用戶對氣象數(shù)據(jù)湖進行不同的授權(quán)訪問。氣象數(shù)據(jù)湖的安全策略包括基于身份的策略和基于組的策略,只有能通過認證的業(yè)務(wù)用戶才能連接氣象數(shù)據(jù)湖,由安全管理員對氣象數(shù)據(jù)湖進行統(tǒng)一的強制性控制,并且對認證、授權(quán)和使用過程中產(chǎn)生的流水進行記錄和監(jiān)控,包括用戶使用的產(chǎn)品、使用的時間、以及執(zhí)行的操作等。訪問控制有助于保障業(yè)務(wù)用戶正常使用湖內(nèi)數(shù)據(jù),確保氣象數(shù)據(jù)湖免遭非法授權(quán)用戶的侵害,同時對數(shù)據(jù)恢復(fù)提供幫助。
在氣象數(shù)據(jù)湖文件管理系統(tǒng)上,通過入湖模板建立業(yè)務(wù)產(chǎn)品對應(yīng)虛擬表的集成方式,實現(xiàn)虛擬文件與存儲目錄映射,并且定義安全授權(quán)的安全策略,按照確定的規(guī)則控制用戶組可以訪問指定的目錄、子目錄和文件,以及適當(dāng)?shù)牟僮鳈?quán)限,使用邏輯機制實現(xiàn)業(yè)務(wù)用戶更安全、更便捷地獲取長時間序列、多類型細粒度的產(chǎn)品文件,并有效地控制用戶對湖內(nèi)數(shù)據(jù)的使用。安全策略允許用戶在目錄一級的操作對目錄中的所有文件和子目錄均有效,以陸面格點預(yù)報指導(dǎo)產(chǎn)品為例,產(chǎn)品根據(jù)加工中心和時間屬性分塊存儲在目錄SCMOC下(圖4),如果安全管理員將目錄SCMOC授權(quán)給業(yè)務(wù)用戶,則授權(quán)用戶可以獲取該目錄下所有子目錄的產(chǎn)品;如果安全管理員將目錄BABJ或BENC授權(quán)給業(yè)務(wù)用戶,則授權(quán)用戶可以獲取目錄BABJ或BENC下所有日期的產(chǎn)品。
圖4 陸面格點預(yù)報指導(dǎo)產(chǎn)品目錄視圖
本文在詳細介紹智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品現(xiàn)狀基礎(chǔ)上,提出了一種采用氣象數(shù)據(jù)湖技術(shù)的產(chǎn)品共享思路,從智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品、氣象數(shù)據(jù)湖設(shè)計與實現(xiàn)、智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品入湖存儲等方面進行了詳細闡述。采用開源技術(shù)設(shè)計與建設(shè)了基于氣象大數(shù)據(jù)云平臺的氣象數(shù)據(jù)湖,實現(xiàn)了數(shù)據(jù)產(chǎn)品的高效采集和存儲管理,能夠減少數(shù)據(jù)的重復(fù)存儲,避免數(shù)據(jù)孤島的產(chǎn)生,保障了數(shù)據(jù)可訪問性和正確性。通過統(tǒng)一的目錄管理、強制性訪問控制和權(quán)限控制等安全方法,確保湖內(nèi)數(shù)據(jù)在合法的范圍內(nèi)使用,為氣象大數(shù)據(jù)的挖掘分析和智慧氣象業(yè)務(wù)的發(fā)展提供精準(zhǔn)高效的支撐數(shù)據(jù)資源。本文僅是針對智能網(wǎng)格預(yù)報業(yè)務(wù)產(chǎn)品進行氣象數(shù)據(jù)湖共享技術(shù)的初步探索和實踐,如何實現(xiàn)氣象數(shù)據(jù)全集的統(tǒng)一存儲管理和共享服務(wù)還有待進一步深入研究。