馬 強(qiáng) 顏京輝 魏 敏* 辛?xí)愿?張 莉 張 芳 吳統(tǒng)文
1)(國家氣象信息中心, 北京 100081) 2)(清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系, 北京 100084) 3)(中國氣象局地球系統(tǒng)數(shù)值預(yù)報(bào)中心, 北京 100081) 4)(中國氣象科學(xué)研究院災(zāi)害天氣國家重點(diǎn)實(shí)驗(yàn)室, 北京 100081)
20世紀(jì)90年代,世界氣候研究計(jì)劃(World Climate Rearch Programme,WCRP)提出并組織了耦合模式比較計(jì)劃(Coupled Model Intercomparison Project,CMIP),該計(jì)劃通過設(shè)計(jì)氣候模式試驗(yàn),制定試驗(yàn)標(biāo)準(zhǔn),收集、共享來自世界不同國家模式工作組的氣候模式試驗(yàn)數(shù)據(jù),開展多模式相互比較和評估工作。參與該計(jì)劃的試驗(yàn)數(shù)據(jù)被廣泛應(yīng)用于氣候變化機(jī)理研究與未來氣候變化預(yù)估等相關(guān)領(lǐng)域,為政府間氣候變化專門委員會(Intergovernmental Panel on Climate Change,IPCC)定期發(fā)布評估報(bào)告提供技術(shù)支撐,也為氣候模式發(fā)展提供重要平臺[1]。WCRP先后組織了6次國際耦合模式比較計(jì)劃,目前正在進(jìn)行的是CMIP6[2-3]。CMIP6科學(xué)試驗(yàn)設(shè)計(jì)包括2個(gè)核心試驗(yàn)和23個(gè)模式比較子計(jì)劃,試驗(yàn)種類較CMIP5明顯增加。參加比較計(jì)劃的氣候模式由早期的海-氣耦合模式發(fā)展到對大氣、陸面、海洋及海冰等多圈層進(jìn)行模擬的耦合模式,以及包含碳循環(huán)過程的地球系統(tǒng)模式,模式分辨率越來越精細(xì)[4]。多種因素綜合導(dǎo)致試驗(yàn)數(shù)據(jù)量激增,從CMIP1約1 GB,到CMIP2超過500 GB,CMIP3超過35 TB,CMIP5超過3.5 PB,CMIP6產(chǎn)生的數(shù)據(jù)量更加巨大。如何在全球范圍廣泛、高效地共享這些海量試驗(yàn)數(shù)據(jù),滿足氣候變化及相關(guān)領(lǐng)域研究的需求,成為亟需解決的關(guān)鍵技術(shù)問題。
2011年美國在原有地球系統(tǒng)網(wǎng)格(Earth System Grid,ESG)項(xiàng)目基礎(chǔ)上,由美國能源部(Department of Energy, DOE)、美國航空航天局(National Aeronautics and Space Administration,NASA)、美國國家海洋和大氣管理局(National Oceanic and Atmospheric Administration,NOAA)等多家單位共同資助,多個(gè)國家共同參與建立了地球系統(tǒng)網(wǎng)格聯(lián)盟(Earth System Grid Federation,ESGF),自CMIP5開始負(fù)責(zé)模式試驗(yàn)數(shù)據(jù)的管理與共享[5]。ESGF是由多個(gè)分布式節(jié)點(diǎn)組成的全球系統(tǒng),節(jié)點(diǎn)分為數(shù)據(jù)節(jié)點(diǎn)、身份認(rèn)證節(jié)點(diǎn)、索引節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)4種類型,參加CMIP模式工作組可根據(jù)需要進(jìn)行部署。數(shù)據(jù)共享平臺的建設(shè)成為參與CMIP的重要環(huán)節(jié)。
作為國家級業(yè)務(wù)中心,北京氣候中心(BCC)參加了CMIP5和CMIP6兩個(gè)階段的比較計(jì)劃[6-7]。為了滿足數(shù)據(jù)共享應(yīng)用需求,BCC建設(shè)試驗(yàn)數(shù)據(jù)共享平臺,部署B(yǎng)CC ESGF數(shù)據(jù)節(jié)點(diǎn)。
BCC選用近年研發(fā)的3個(gè)不同版本模式參加CMIP6,包括地球系統(tǒng)模式BCC-ESM1.0、中等分辨率氣候系統(tǒng)模式BCC-CSM2-MR和高分辨率氣候系統(tǒng)模式BCC-CSM2-HR,模式信息見表1。
表1 BCC參加CMIP6試驗(yàn)的模式版本Table 1 BCC model versions participated in CMIP6
BCC-ESM1.0與BCC-CSM2-MR完成了氣候診斷、評估和描述試驗(yàn)(Diagnostic,Evaluation and Characterization of Klima experiments,DECK)與歷史氣候模擬試驗(yàn)(Historical)[2]兩個(gè)核心試驗(yàn)。在此基礎(chǔ)上,BCC-ESM1.0開展了氣溶膠和化學(xué)模式比較計(jì)劃(Aerosols and Chemistry Model Intercomparison Project,AerChemMIP)[11],BCC-CSM2-HR參與了高分辨率模式比較計(jì)劃(High-Resolution Model Intercomparison Project,HighResMIP)[12],BCC-CSM2-MR完成了包括年代際氣候預(yù)測計(jì)劃(Decadal Climate Prediction Project,DCPP)[13-14]在內(nèi)的其他8個(gè)子計(jì)劃。
BCC模式開展核心試驗(yàn)共需完成超過2500年的積分,計(jì)算輸出近2000個(gè)模式要素,完成各子計(jì)劃需進(jìn)行近萬年積分,計(jì)算輸出超過6000個(gè)模式要素。按照CMIP6要求,模式數(shù)據(jù)均采用標(biāo)準(zhǔn)NetCDF格式存儲,水平分辨率與模式保持一致,垂直分辨率按照試驗(yàn)要求進(jìn)行插值,時(shí)間分辨率根據(jù)試驗(yàn)要求不同,分為逐小時(shí)、3 h、日及月等。以應(yīng)用最多的BCC-CSM2-MR模式為例,該模式為大氣、陸面、海洋和海冰多圈層耦合模式,僅大氣模式單時(shí)次、單要素場格點(diǎn)就包含約235萬個(gè),多圈層格點(diǎn)之和則達(dá)到約583萬個(gè)。歷史氣候模擬試驗(yàn)(Historical)分為3個(gè)集合樣本,每個(gè)樣本積分165年,分別按照3 h,6 h,日及月不同頻率輸出近200個(gè)要素,數(shù)據(jù)量約為7.4 TB。據(jù)測算BCC CMIP6試驗(yàn)的數(shù)據(jù)量共計(jì)190 TB。由此可知試驗(yàn)具有配置復(fù)雜、模式分辨率高、要素種類多、數(shù)據(jù)輸出頻次多樣及作業(yè)積分時(shí)間長等特點(diǎn)。
由于參加比較計(jì)劃的模式來自不同國家模式工作組,模式數(shù)據(jù)特征各不相同,為便于進(jìn)行統(tǒng)一管理與規(guī)范應(yīng)用,需對模式原始輸出數(shù)據(jù)進(jìn)行加工處理,采用通用標(biāo)準(zhǔn)格式存儲。數(shù)據(jù)管理與存儲處理邏輯非常復(fù)雜,工作量巨大,數(shù)據(jù)共享工作極具挑戰(zhàn)性。
為滿足BCC試驗(yàn)數(shù)據(jù)存儲及共享服務(wù)需求,從數(shù)據(jù)規(guī)模,服務(wù)效率、訪問安全性等多方面考慮,共享平臺采用多層體系架構(gòu),采用組件化設(shè)計(jì),保障系統(tǒng)靈活的可擴(kuò)展性和可維護(hù)性,采用數(shù)據(jù)庫與文件系統(tǒng)結(jié)合,進(jìn)行高效的數(shù)據(jù)存儲管理和統(tǒng)一的數(shù)據(jù)支撐服務(wù),采用http,Globus等通信協(xié)議及WebService等技術(shù),確保數(shù)據(jù)傳輸和共享服務(wù)的準(zhǔn)確與高效。平臺系統(tǒng)總體框架由系統(tǒng)層、數(shù)據(jù)層、服務(wù)層和用戶層4部分組成(如圖1所示)。
系統(tǒng)層包括硬件和軟件兩部分,硬件主要包括高性能專用服務(wù)器和1套具有高速讀寫訪問能力的可擴(kuò)展分布式存儲設(shè)備。存儲系統(tǒng)采用全對稱分布式架構(gòu),可橫向平滑擴(kuò)展文件存儲,包含7個(gè)存儲節(jié)點(diǎn),提供約900 TB可用存儲容量。平臺采用的分布式數(shù)據(jù)存儲系統(tǒng)在可擴(kuò)展性、并發(fā)性能等方面克服了傳統(tǒng)本地存儲擴(kuò)容步驟復(fù)雜、性能受單一控制器能力限制的缺陷。同時(shí),為服務(wù)器配置輕量級備份虛擬機(jī),以提升持續(xù)服務(wù)能力。軟件包括支撐數(shù)據(jù)處理和展示的Fortran,Python,NCL等程序語言和工具軟件,支持通過高級程序語言調(diào)用函數(shù)庫對數(shù)據(jù)處理,支持在命令行實(shí)現(xiàn)對數(shù)據(jù)的集合操作及繪圖等功能[15]。
數(shù)據(jù)層存儲平臺所涉及的所有數(shù)據(jù),包括模式原始計(jì)算數(shù)據(jù)、共享的數(shù)據(jù)產(chǎn)品及產(chǎn)品元數(shù)據(jù)等。服務(wù)層指運(yùn)行在服務(wù)器的各種服務(wù),包括Web服務(wù)、OPeNDAP服務(wù)、Globus Gridftp服務(wù)、OpenID身份認(rèn)證服務(wù)等。Web服務(wù)提供互聯(lián)網(wǎng)訪問服務(wù),OPeNDAP服務(wù)通過http通信協(xié)議實(shí)現(xiàn)數(shù)據(jù)訪問請求與響應(yīng),基于URL鏈接和Web服務(wù)器即可實(shí)現(xiàn)對數(shù)據(jù)的分發(fā)與共享,Globus Gridftp服務(wù)為共享數(shù)據(jù)的下載提供高性能、安全可靠的數(shù)據(jù)傳輸,OpenID服務(wù)可為訪問平臺的用戶提供便捷的單點(diǎn)登錄功能。用戶層主要為用戶提供平臺交互訪問客戶端,為用戶提供多種條件組合查詢界面、元數(shù)據(jù)展示、wget和Globus等多種數(shù)據(jù)下載服務(wù)與數(shù)據(jù)說明文檔等。
平臺部署在中國氣象局互聯(lián)網(wǎng)隔離區(qū)(demilitarized zone,DMZ),既可實(shí)現(xiàn)互聯(lián)網(wǎng)的公開訪問,又可獲得加強(qiáng)的網(wǎng)絡(luò)安全防護(hù)[16]。平臺通過中國科技網(wǎng)(出口帶寬為1.35 Gbps)對外部用戶提供服務(wù),并實(shí)現(xiàn)與其他多個(gè)國家或組織的ESGF節(jié)點(diǎn)高速互聯(lián)通信,氣象局內(nèi)網(wǎng)用戶可通過萬兆以太網(wǎng)訪問。
平臺建設(shè)包括數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲發(fā)布及數(shù)據(jù)服務(wù)幾個(gè)關(guān)鍵部分(圖2),數(shù)據(jù)安全工作貫穿全流程。
首先對BCC模式計(jì)劃開展的試驗(yàn)進(jìn)行分析,預(yù)估可能產(chǎn)生的數(shù)據(jù)量及后續(xù)工作任務(wù),確定軟硬件性能及功能需求[17]。硬件建設(shè)主要包括服務(wù)器及配套存儲設(shè)施選型、采購及安裝測試等。在此基礎(chǔ)上,對相應(yīng)軟件環(huán)境進(jìn)行部署,主要包括系統(tǒng)軟件、開發(fā)運(yùn)行環(huán)境、應(yīng)用軟件的安裝配置。建設(shè)過程中嚴(yán)格按照安全規(guī)范執(zhí)行,在平臺正式上線前通過系統(tǒng)安全基線檢查、軟件漏洞掃描等安全檢測。
數(shù)據(jù)收集模塊實(shí)現(xiàn)自動化傳輸流程,采用加密傳輸策略,將在數(shù)據(jù)生產(chǎn)平臺-高性能計(jì)算系統(tǒng)產(chǎn)生的模式試驗(yàn)數(shù)據(jù)收集到共享平臺。數(shù)據(jù)處理模塊對模式原始輸出數(shù)據(jù)進(jìn)行檢查、處理并規(guī)范化數(shù)據(jù)格式[18]。數(shù)據(jù)存儲發(fā)布模塊確定試驗(yàn)數(shù)據(jù)在線存儲規(guī)則,建立目錄結(jié)構(gòu)及訪問權(quán)限,完成數(shù)據(jù)發(fā)布。數(shù)據(jù)共享服務(wù)門戶提供易用高效的數(shù)據(jù)檢索界面,用戶經(jīng)過身份認(rèn)證后,可通過多種方式批量下載檢索結(jié)果。
模式試驗(yàn)在高性能計(jì)算系統(tǒng)開展,模式程序并行規(guī)模大,運(yùn)行時(shí)間長,計(jì)算過程可能受到內(nèi)存爭用、通信抖動或文件讀寫干擾等多方面因素影響,增加模式計(jì)算結(jié)果的不穩(wěn)定性。確保每個(gè)試驗(yàn)數(shù)據(jù)的完整性和可用性是數(shù)據(jù)處理工作的前提,需要在每個(gè)試驗(yàn)完成后,對生成的試驗(yàn)數(shù)據(jù)文件數(shù)量、文件大小及是否存在計(jì)算異常等情況進(jìn)行嚴(yán)格檢查,對存在問題的試驗(yàn),需要重新計(jì)算。針對各試驗(yàn)配置特點(diǎn),結(jié)合模式運(yùn)行情況,設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)檢查流程,提高自動化水平,減少人為干預(yù),提升問題篩查精準(zhǔn)度,從信息技術(shù)角度保障數(shù)據(jù)質(zhì)量[19]。
模式模擬效果合理性檢查也是必不可少的重要環(huán)節(jié)。BCC CMIP6模式均為多圈層耦合模式,每個(gè)試驗(yàn)完成后需對大氣、海洋等主要分量模式關(guān)鍵要素模擬結(jié)果從全球、典型區(qū)域等空間屬性,多年平均、季節(jié)平均等時(shí)間屬性的物理意義合理性進(jìn)行檢查[20]。如大氣分量主要考查地表溫度、降水、風(fēng)場等要素在全球及東亞等不同區(qū)域氣候態(tài)及隨時(shí)間的演變規(guī)律。海洋分量主要考慮海表及中上層海溫基本氣候態(tài),全球、赤道太平洋等關(guān)鍵區(qū)域海表溫度不同時(shí)間尺度變化等。檢查方法包括空間分布合理性檢查、時(shí)間序列合理性檢查、氣候態(tài)檢查、極值統(tǒng)計(jì)及誤差分析等。
參加CMIP的模式來自世界不同國家模式工作組,模式原始輸出數(shù)據(jù)在數(shù)據(jù)組織、數(shù)據(jù)格式及元數(shù)據(jù)信息等方面存在較大差異,為減少對不同模式同一試驗(yàn)數(shù)據(jù)預(yù)處理的工作量,CMIP給出較為嚴(yán)格的數(shù)據(jù)規(guī)范及明確的數(shù)據(jù)屬性要求。因此,在嚴(yán)格的技術(shù)框架內(nèi)結(jié)合BCC CMIP6數(shù)據(jù)特征與共享平臺實(shí)際情況,實(shí)現(xiàn)數(shù)據(jù)規(guī)范化是十分關(guān)鍵的技術(shù)問題。模式輸出結(jié)果采用氣候模式輸出重寫(climate model output rewriter,CMOR)軟件[21]進(jìn)行格式標(biāo)準(zhǔn)化,確保生成符合氣候和預(yù)測元數(shù)據(jù)公約的NetCDF文件。經(jīng)過CMOR軟件處理,實(shí)現(xiàn)將同一試驗(yàn)相同要素的多個(gè)時(shí)間記錄存儲在1個(gè)或一系列文件中,將模式垂直層輸出的要素插值到標(biāo)準(zhǔn)等壓面,依據(jù)給定的經(jīng)緯度排列順序?qū)?shù)據(jù)進(jìn)行排序,對要素量綱進(jìn)行轉(zhuǎn)換等。數(shù)據(jù)屬性主要包含模式工作組提供的模式配置信息、CMIP6各模式及其組織機(jī)構(gòu)信息和模式要素信息等內(nèi)容,以JSON格式存儲為MIP表文件[22],與模式原始輸出數(shù)據(jù)文件共同作為CMOR軟件的輸入和輸出數(shù)據(jù)的元數(shù)據(jù)。CMOR輸出的數(shù)據(jù)采用CMIP的統(tǒng)一規(guī)則命名。
數(shù)據(jù)處理流程如圖3所示。
CMIP6試驗(yàn)數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)文件離散但命名規(guī)則統(tǒng)一及元數(shù)據(jù)多維等特征[23]。平臺采用專題實(shí)時(shí)環(huán)境數(shù)據(jù)分發(fā)系統(tǒng)(thematic real-time environmental distributed data services,THRE-DDS)提供數(shù)據(jù)服務(wù)(THREDDS data server,TDS),支持http,Girdftp,OPeNDAP和OGC WMS/WCS等多種數(shù)據(jù)訪問接口。THREDDS是一個(gè)面向服務(wù)體系結(jié)構(gòu)(service oriented architecture,SOA)的數(shù)據(jù)服務(wù)系統(tǒng),實(shí)現(xiàn)試驗(yàn)數(shù)據(jù)組織、元數(shù)據(jù)管理和數(shù)據(jù)發(fā)布的功能。THREDDS提取數(shù)據(jù)文件的元數(shù)據(jù)信息,用于支撐數(shù)據(jù)訪問接口以Web服務(wù)形式提供用戶訪問。其中http,Girdftp提供完整文件下載功能,OPeNDAP支持?jǐn)?shù)據(jù)空間、時(shí)間、要素等范圍子集的選取功能,OGC WMS/WCS提供GIS訪問接口。
目錄結(jié)構(gòu)設(shè)計(jì)對于THREDDS非常重要,CMIP6試驗(yàn)數(shù)據(jù)存儲目錄采用具有自描述信息的層級管理結(jié)構(gòu),實(shí)現(xiàn)不同試驗(yàn)不同要素?cái)?shù)據(jù)分級分類存儲。在試驗(yàn)數(shù)據(jù)發(fā)布過程中,THREDDS遍歷掃描所選數(shù)據(jù)集,自動分析提取要素變量、時(shí)空分辨率等多種元數(shù)據(jù)信息,保持試驗(yàn)數(shù)據(jù)及元數(shù)據(jù)的一致性和準(zhǔn)確性[24]。將元數(shù)據(jù)存儲到本地PostgreSQL數(shù)據(jù)庫相應(yīng)數(shù)據(jù)表中,生成對應(yīng)的數(shù)據(jù)集元數(shù)據(jù)描述文件catalog.xml,并納入TDS提供服務(wù),用戶即可通過URL方式對多層次的目錄進(jìn)行訪問,將數(shù)據(jù)下載至本地或者通過客戶端直接讀取訪問所需要的數(shù)據(jù)。同時(shí),元數(shù)據(jù)信息發(fā)布到ESGF索引節(jié)點(diǎn),實(shí)現(xiàn)CMIP6試驗(yàn)數(shù)據(jù)統(tǒng)一檢索,如圖4所示。
試驗(yàn)數(shù)據(jù)通過ESGF索引節(jié)點(diǎn)以Web門戶方式提供共享服務(wù),主要包含CMIP6模式及其試驗(yàn)數(shù)據(jù)的詳細(xì)描述、數(shù)據(jù)檢索及獲取等服務(wù)。數(shù)據(jù)檢索功能支持試驗(yàn)類型、模式信息、組織機(jī)構(gòu)、數(shù)據(jù)要素、集合樣本等多種條件組合檢索,根據(jù)需求可從結(jié)果中進(jìn)一步檢索所需時(shí)間序列的數(shù)據(jù)子集,為用戶使用提供極大的便利。平臺收到數(shù)據(jù)節(jié)點(diǎn)響應(yīng)索引節(jié)點(diǎn)的請求,為用戶提供數(shù)據(jù)瀏覽以及基于http,Globus,OPeNDAP等協(xié)議的數(shù)據(jù)獲取服務(wù)。平臺依據(jù)數(shù)據(jù)檢索結(jié)果為用戶自動生成Bash或Python格式腳本,用戶登錄認(rèn)證通過后即可實(shí)現(xiàn)批量數(shù)據(jù)文件下載。
平臺面向世界各國ESGF用戶,通過互聯(lián)網(wǎng)對外提供數(shù)據(jù)共享服務(wù),保障數(shù)據(jù)安全極其重要。
物理層面上,通過增加物理介質(zhì)的副本存儲等方式保護(hù)存儲在分布式存儲系統(tǒng)上的試驗(yàn)數(shù)據(jù)的物理安全,采用輕量級備份虛擬機(jī)保障服務(wù)的連續(xù)性,確保數(shù)據(jù)不丟失、服務(wù)不中斷。同時(shí),BCC CMIP6數(shù)據(jù)同步到澳大利亞、美國和英國等其他國家的ESGF數(shù)據(jù)節(jié)點(diǎn),實(shí)現(xiàn)數(shù)據(jù)異地備份,提升共享服務(wù)能力,用戶可選擇最優(yōu)站點(diǎn)進(jìn)行數(shù)據(jù)下載。
系統(tǒng)層面上,系統(tǒng)及應(yīng)用軟件參照ESGF軟件安全規(guī)范部署,并采用密碼增強(qiáng)、系統(tǒng)加固、訪問控制、日志審計(jì)等多種技術(shù)方法對平臺進(jìn)行基礎(chǔ)的系統(tǒng)安全防護(hù)。
網(wǎng)絡(luò)層面上,平臺部署在互聯(lián)網(wǎng)DMZ,納入中國氣象局國家級的整體網(wǎng)絡(luò)安全防護(hù)體系,通過防火墻、抗DDOS、入侵檢測、入侵防御、Web應(yīng)用防護(hù)、安全威脅和態(tài)勢感知等一系列安全防護(hù)手段保障網(wǎng)絡(luò)安全。
對于模式試驗(yàn)數(shù)據(jù)自身的安全,從數(shù)據(jù)處理、收集、發(fā)布、共享服務(wù)等各個(gè)環(huán)節(jié)采取安全管控措施,避免數(shù)據(jù)的非授權(quán)訪問,保護(hù)數(shù)據(jù)不被篡改和偽造。在數(shù)據(jù)處理過程中,利用高性能計(jì)算機(jī)安全管理體系[25],針對數(shù)據(jù)加工處理過程進(jìn)行嚴(yán)格授權(quán)﹐僅允許特定用戶進(jìn)行相關(guān)操作,控制輸入、輸出和中間結(jié)果數(shù)據(jù)文件的訪問權(quán)限,確保數(shù)據(jù)來源可信。在數(shù)據(jù)收集過程中,采用SFTP加密協(xié)議防止用戶名、口令等敏感信息泄露, 確保數(shù)據(jù)不被非法訪問,并通過校驗(yàn)機(jī)制確保數(shù)據(jù)的完整性。
數(shù)據(jù)發(fā)布前,BCC需向ESGF內(nèi)部CA(certification authority)證書頒發(fā)機(jī)構(gòu)申請認(rèn)證審查,獲取并在BCC數(shù)據(jù)節(jié)點(diǎn)安裝其簽署的主機(jī)證書,獲得數(shù)據(jù)發(fā)布授權(quán)。主機(jī)證書符合RFC3280定義的X.509規(guī)范,使用4096位密鑰,用于數(shù)據(jù)節(jié)點(diǎn)管理程序、數(shù)據(jù)發(fā)布程序等客戶端應(yīng)用的安全認(rèn)證。發(fā)布過程中對外提供檢索服務(wù)的元數(shù)據(jù)信息與實(shí)際的模式數(shù)據(jù)文件分別進(jìn)行存儲管理,并結(jié)合系統(tǒng)層和應(yīng)用層的訪問控制設(shè)置訪問權(quán)限。發(fā)布的元數(shù)據(jù)存儲在數(shù)據(jù)庫中,并同步發(fā)布到索引節(jié)點(diǎn),模式數(shù)據(jù)文件存儲在本地安全可靠的分布式存儲系統(tǒng)上[26]。
平臺針對發(fā)布后的數(shù)據(jù)共享服務(wù)進(jìn)行授權(quán)管理,僅允許通過認(rèn)證的用戶進(jìn)行批量數(shù)據(jù)訪問和下載操作。用戶通過瀏覽器檢索訪問BCC CMIP6數(shù)據(jù)時(shí),需要通過OpenID(open identification)進(jìn)行身份認(rèn)證。利用去中心化的OpenID用戶身份認(rèn)證協(xié)議,用戶只需在ESGF的某一個(gè)身份認(rèn)證節(jié)點(diǎn)注冊獲取OpenID帳號,就可以憑此帳號登錄并獲取數(shù)據(jù),在加強(qiáng)數(shù)據(jù)應(yīng)用安全的同時(shí)兼顧用戶便捷訪問的需求。
BCC CMIP6數(shù)據(jù)共享平臺自2017年開始建設(shè),2018年正式開始發(fā)布BCC CMIP6數(shù)據(jù),截至2021年共計(jì)發(fā)布數(shù)據(jù)190 TB,實(shí)現(xiàn)BCC CMIP6全部數(shù)據(jù)共享。模式試驗(yàn)數(shù)據(jù)包括DECK和Historical 2個(gè)核心試驗(yàn),以及ScenarioMIP,C4MIP 等10個(gè)子計(jì)劃,共計(jì)50多個(gè)試驗(yàn),輸出模擬結(jié)果包括約8000個(gè)要素,涵蓋了對全球開展的中等分辨率、高分辨率多圈層模擬及大氣化學(xué)模擬數(shù)據(jù),各試驗(yàn)集合樣本量和模擬結(jié)果要素?cái)?shù)量有所差異,如表2所示。
表2 BCC CMIP6數(shù)據(jù)Table 2 BCC CMIP6 data
續(xù)表2
模式試驗(yàn)大部分利用耦合模式完成,試驗(yàn)輸出要素分別由大氣、陸面、海洋及海冰多個(gè)圈層的分量模式生成,試驗(yàn)數(shù)據(jù)集內(nèi)容豐富,要素種類多,時(shí)間序列長,包含地球表面及大氣層多種科學(xué)數(shù)據(jù),對地球系統(tǒng)科學(xué)研究具有重要價(jià)值。數(shù)據(jù)均采用國際通用標(biāo)準(zhǔn)NetCDF格式存儲,每個(gè)試驗(yàn)數(shù)據(jù)集設(shè)置國際通用DOI(數(shù)字對象唯一標(biāo)識符),有利于數(shù)據(jù)長期保存和有效管理,同時(shí)也體現(xiàn)數(shù)據(jù)權(quán)威性,對數(shù)據(jù)提供者和制作者知識產(chǎn)權(quán)進(jìn)行有效保護(hù)。為便于推廣使用,對每個(gè)試驗(yàn)數(shù)據(jù)集提供說明文檔,以BCC-CSM2-MR模式完成的歷史氣候模擬試驗(yàn)數(shù)據(jù)為例,具體信息如表3所示。
表3 BCC-CSM2-MR模式歷史氣候模擬試驗(yàn)數(shù)據(jù)Table 3 Historical experiment data of BCC-CSM2-MR
BCC CMIP6數(shù)據(jù)共享平臺投入運(yùn)行以來,兩次存儲容量擴(kuò)充均未中斷服務(wù),同步提升整體吞吐和并發(fā)能力,有力支撐平臺的存儲發(fā)布和服務(wù),已為來自亞洲、歐洲及美洲等多個(gè)國家和地區(qū)的用戶提供數(shù)據(jù)服務(wù),取得顯著成效。以2022年上半年為例,中國、韓國、新加坡等亞洲國家數(shù)據(jù)下載量達(dá)到32.37 TB,位居各大洲之首,美國、加拿大等北美洲國家數(shù)據(jù)下載量約為9.70 TB,位居第二,英國、挪威、西班牙等歐洲國家數(shù)據(jù)下載量約為7.63 TB,BCC CMIP6數(shù)據(jù)共享平臺下載數(shù)據(jù)量共計(jì)50.97 TB,各大洲訪問共享平臺情況如圖5所示。BCC CMIP6數(shù)據(jù)共享平臺的穩(wěn)定運(yùn)行為全球科研工作者提供獲取BCC試驗(yàn)數(shù)據(jù)的方便快捷途徑與方法,降低獲取試驗(yàn)數(shù)據(jù)的難度與成本,成為推動我國氣候模式國際應(yīng)用的有力技術(shù)手段。
BCC CMIP6數(shù)據(jù)共享平臺為國內(nèi)外氣候變化及相關(guān)領(lǐng)域的研究提供數(shù)據(jù)支撐,不同國家科研人員利用平臺獲得的試驗(yàn)數(shù)據(jù)開展科學(xué)研究工作,在氣候變化模擬與預(yù)估[34]、全球變暖與人類活動[35]及模式評估改進(jìn)[36]等領(lǐng)域取得成果。2020年以來,國際公開發(fā)表的氣候變化相關(guān)領(lǐng)域研究引用BCC CMIP6數(shù)據(jù)60余次(不完全統(tǒng)計(jì)),在參與CMIP6的近200個(gè)模式中位居前列[37]。2021年8月IPCC正式發(fā)布IPCC第6次評估報(bào)告第1工作組報(bào)告,該報(bào)告的多個(gè)章節(jié)引用BCC模式多個(gè)試驗(yàn)數(shù)據(jù)集[38],主要涉及人類活動對氣候系統(tǒng)的影響,全球碳和其他生物地球化學(xué)循環(huán)與反饋及地球的能量收支、氣候反饋和氣候敏感性等方面科學(xué)研究。
我國科學(xué)家也利用平臺共享數(shù)據(jù)開展氣候變化研究工作,如基于BCC-CSM2-MR模式歷史氣候模擬試驗(yàn)與情景模式比較計(jì)劃等數(shù)據(jù)開展西南暴雨洪澇災(zāi)害風(fēng)險(xiǎn)預(yù)估[39]、青藏高原夏季水汽長期變化趨勢分析[40]與黃河流域生態(tài)徑流影響預(yù)估[41]等研究工作,有助于揭示我國主要區(qū)域及典型氣候事件的變化規(guī)律,推動氣候變化與水資源、生態(tài)安全等領(lǐng)域關(guān)系研究,促進(jìn)我國地球系統(tǒng)模式的評估與改進(jìn)。
分析表明:
1) 基于BCC CMIP6數(shù)據(jù)特征分析,實(shí)現(xiàn)完整性檢查與標(biāo)準(zhǔn)化處理。采用分布式存儲架構(gòu), 設(shè)計(jì)并實(shí)現(xiàn)分層級的數(shù)據(jù)共享平臺,基于專題實(shí)時(shí)環(huán)境數(shù)據(jù)分發(fā)系統(tǒng)提供數(shù)據(jù)服務(wù),實(shí)現(xiàn)存儲管理和共享發(fā)布,并在系統(tǒng)、應(yīng)用及網(wǎng)絡(luò)等方面采取措施保障數(shù)據(jù)安全。BCC CMIP6數(shù)據(jù)共享平臺為我國國家級業(yè)務(wù)中心參與國際CMIP6比較計(jì)劃提供了基礎(chǔ)技術(shù)支撐。
2) BCC CMIP6數(shù)據(jù)共享平臺為國內(nèi)外用戶提供持續(xù)穩(wěn)定的數(shù)據(jù)共享服務(wù),BCC CMIP6數(shù)據(jù)應(yīng)用于氣候變化模擬與預(yù)估、全球變暖與人類活動、地球系統(tǒng)模式評估與改進(jìn)等研究領(lǐng)域,支撐國內(nèi)外多項(xiàng)科研成果,多個(gè)數(shù)據(jù)集被IPCC第6次評估報(bào)告引用,有效提升我國氣候模式的國際影響力,推動氣候變化研究工作的開展。
未來氣候模式將向更高分辨率、更高輸出頻次、更多集合成員等方向發(fā)展,CMIP試驗(yàn)設(shè)計(jì)將更為復(fù)雜、靈活,試驗(yàn)數(shù)據(jù)量將迅速增長,這些變化對共享平臺軟硬件的高需求也將更突顯。今后將對CMIP提供持續(xù)數(shù)據(jù)服務(wù),并從基礎(chǔ)設(shè)施及技術(shù)集約化考慮,將擴(kuò)展平臺功能,為其他相關(guān)模式比較計(jì)劃提供統(tǒng)一支撐。