王證帥 呂巧誼,2 張 偉,2 鄭 輝,2 陳德花,2
(1.廈門市海峽氣象開放重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361012;2.廈門市氣象臺(tái),福建 廈門 361012)
數(shù)值天氣預(yù)報(bào)是當(dāng)前氣象預(yù)報(bào)最重要的手段之一,它主要以物理模擬來實(shí)現(xiàn)對(duì)環(huán)境大氣趨勢(shì)的預(yù)測(cè),但數(shù)值天氣模式也存在一定的不準(zhǔn)確性和一些系統(tǒng)性的偏差,從而導(dǎo)致天氣預(yù)測(cè)不夠準(zhǔn)確。造成偏差的主要原因有經(jīng)驗(yàn)化的參數(shù)化方案的誤差、模式動(dòng)力系統(tǒng)的不準(zhǔn)確性、初始場(chǎng)的誤差等。為了減少數(shù)值模式帶來的誤差,蘇志重等開展了多模式降水融合預(yù)報(bào)研究,融合產(chǎn)品能夠接近最優(yōu)確定性預(yù)報(bào),但仍存在一定偏差[1]。近年來,人工智能技術(shù)越來越多地應(yīng)用于天氣預(yù)報(bào)領(lǐng)域?;跀?shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法,是從大量數(shù)據(jù)中通過融合多維數(shù)據(jù)作為特征輸入進(jìn)行建模,以此來訓(xùn)練預(yù)測(cè)模型,與傳統(tǒng)統(tǒng)計(jì)學(xué)方法具有較大差異,其使用的是算法模型,犧牲了可解釋性,提高預(yù)測(cè)的準(zhǔn)確率。
國內(nèi)外一些領(lǐng)先的氣象業(yè)務(wù)科研機(jī)構(gòu),如歐洲中期天氣數(shù)值預(yù)報(bào)中心、中國氣象科學(xué)研究院等,均已開展AI技術(shù)在氣象領(lǐng)域的應(yīng)用,包括觀測(cè)數(shù)據(jù)質(zhì)量控制、災(zāi)害性天氣監(jiān)測(cè)和識(shí)別、短時(shí)臨近預(yù)報(bào)、資料同化等[2-10]。越來越多的氣象科研工作者開展了一系列基于數(shù)值預(yù)報(bào)的客觀應(yīng)用方法。例如,譚江紅等利用湖北省氣象站地面觀測(cè)溫度與歐洲中心再分析資料,建立了LightGBM模型,較數(shù)值預(yù)報(bào)模式產(chǎn)品提升明顯[11]。任萍等初步研發(fā)了一套基于機(jī)器學(xué)習(xí)方法XGBoost且考慮地形特征影響的數(shù)值預(yù)報(bào)多模式集成技術(shù),有效降低模式的系統(tǒng)性誤差[12]。孫全德等基于三種機(jī)器學(xué)習(xí)算法(LASSO回歸、隨機(jī)森林和深度學(xué)習(xí)),對(duì)數(shù)值天氣預(yù)報(bào)模式ECMWF預(yù)測(cè)的華北地區(qū)近地面10 m風(fēng)速進(jìn)行訂正[13]。馬景奕等提出了一種基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的氣象要素預(yù)測(cè)方法,進(jìn)一步提升了氣象預(yù)測(cè)的準(zhǔn)確性[14]。蔣薇等通過對(duì)比不同機(jī)器學(xué)習(xí)方法對(duì)江蘇省夏季降水開展預(yù)測(cè)試驗(yàn),發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)統(tǒng)計(jì)方法和其他機(jī)器學(xué)習(xí)方法有一定優(yōu)勢(shì)[15]。
在氣象大數(shù)據(jù)的時(shí)代背景下,機(jī)器學(xué)習(xí)技術(shù)通過足夠多的數(shù)據(jù)驅(qū)動(dòng),獲取足夠多的觀測(cè)模型的準(zhǔn)確性。為進(jìn)一步在實(shí)際的預(yù)報(bào)業(yè)務(wù)中挖掘數(shù)值模式預(yù)報(bào)產(chǎn)品信息,提升降水預(yù)報(bào)的準(zhǔn)確性。本文提出一種基于集成學(xué)習(xí)XGBoost模型的降水客觀預(yù)報(bào)方法(以下簡(jiǎn)稱為客觀預(yù)報(bào)方法),通過決策專家系統(tǒng)對(duì)氣象要素特征進(jìn)行提取和預(yù)處理,使用機(jī)器學(xué)習(xí)的方法對(duì)歷史數(shù)據(jù)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)對(duì)本地區(qū)的降水進(jìn)行客觀預(yù)報(bào)。
本文選取2019年1月1日—2020年12月31日08時(shí)和20時(shí)(北京時(shí))的ECMWF全球模式的細(xì)網(wǎng)格產(chǎn)品(以下簡(jiǎn)稱為ECMWF模式資料)和地面實(shí)況降水觀測(cè)資料,形成機(jī)器學(xué)習(xí)訓(xùn)練樣本。其中,模式資料包含風(fēng)、降水、氣溫等產(chǎn)品,預(yù)報(bào)時(shí)效為0~72小時(shí),時(shí)間間隔為6小時(shí),空間分辨率為0.125°×0.125°;地面實(shí)況降水觀測(cè)資料,選取福建省70個(gè)國家級(jí)自動(dòng)站(見圖1)相應(yīng)時(shí)段的逐6小時(shí)累積降水資料,作為降水實(shí)況真實(shí)值。同時(shí),在2021年6月1日—2021年10月31日08時(shí)和20時(shí)(北京時(shí))的實(shí)際預(yù)報(bào)業(yè)務(wù)中,采用福建省70個(gè)國家級(jí)自動(dòng)站的實(shí)況資料,檢驗(yàn)本文客觀預(yù)報(bào)方法的預(yù)報(bào)效果。
圖1 福建省70個(gè)國家級(jí)自動(dòng)站點(diǎn)分布
選取使用ECMWF模式資料輸出的大尺度降水(LSP)和對(duì)流性降水(CRAIN)、不同的天氣形勢(shì)、不同的溫度,500hPa位勢(shì)高度場(chǎng)、地面2m最高氣溫等,共選擇7個(gè)氣象要素場(chǎng)(見表1),并將其作為機(jī)器學(xué)習(xí)算法的輸入,構(gòu)建基于機(jī)器學(xué)習(xí)的客觀預(yù)報(bào)模型。
表1 ECMWF高分辨率數(shù)值預(yù)報(bào)因子列表
本文提出了一種基于集成學(xué)習(xí)XGBoost模型的客觀預(yù)報(bào)方法,綜合考慮本地預(yù)報(bào)決策專家系統(tǒng)知識(shí)庫和集成學(xué)習(xí)XGBoost模型相結(jié)合,實(shí)現(xiàn)了基于ECMWF模式資料的客觀預(yù)報(bào)方法,實(shí)現(xiàn)了對(duì)福建省內(nèi)70個(gè)國家級(jí)自動(dòng)站點(diǎn)0~72小時(shí)降水預(yù)報(bào)。首先基于本地預(yù)報(bào)決策專家系統(tǒng)知識(shí)庫,對(duì)ECMWF模式資料輸出的各種要素特征進(jìn)行數(shù)據(jù)預(yù)處理和特征選擇,獲得相關(guān)要素特征數(shù)據(jù)集,再以選擇的特征集進(jìn)行機(jī)器學(xué)習(xí)建模,最后獲取福建地區(qū)70個(gè)站點(diǎn)的0~72小時(shí)預(yù)報(bào)結(jié)果?;诩蓪W(xué)習(xí)XGBoost模型的降水客觀預(yù)報(bào)方法整體架構(gòu)設(shè)計(jì)見圖2。
圖2 基于集成學(xué)習(xí)XGBoost模型的降水客觀預(yù)報(bào)方法架構(gòu)示意圖
客觀預(yù)報(bào)方法主要包含兩個(gè)部分:一是決策專家系統(tǒng),二是集成學(xué)習(xí)XGBoost模型。決策專家系統(tǒng)主要用來對(duì)ECMWF模式資料的輸出進(jìn)行選擇和預(yù)處理,提升資料的可用性和可靠性,經(jīng)過決策專家系統(tǒng)處理后的數(shù)據(jù)與地面雨量觀測(cè)值共同組成訓(xùn)練數(shù)據(jù)集;集成學(xué)習(xí)XGBoost算法模型是利用訓(xùn)練數(shù)據(jù)集,通過不斷訓(xùn)練獲得的,在后續(xù)的預(yù)測(cè)過程中可以直接調(diào)用。
3.1.1 決策專家系統(tǒng)
本方法涉及到的預(yù)處理,主要分為降水落區(qū)訂正和降水強(qiáng)度訂正,其目的是對(duì)現(xiàn)有的模式輸出進(jìn)行初步訂正,從而進(jìn)一步提高用于機(jī)器學(xué)習(xí)模型訓(xùn)練的數(shù)據(jù)集準(zhǔn)確性。
降水落區(qū)訂正是基于ECMWF模式資料歷史資料、雷達(dá)歷史回波、地面雨量觀測(cè)經(jīng)驗(yàn),對(duì)降水落區(qū)進(jìn)行調(diào)整,主要引入500hPa位勢(shì)高度和500hPa的引導(dǎo)氣流方向。將500hPa風(fēng)向作為引導(dǎo)因子,對(duì)降水格點(diǎn)落區(qū)進(jìn)行計(jì)算和調(diào)整,即增加500hPa風(fēng)向來向,擴(kuò)大進(jìn)入模型的區(qū)域。
降水強(qiáng)度訂正是基于本地化氣候?qū)W經(jīng)驗(yàn),使用EC自帶的大尺度降水(LSP)和對(duì)流性降水(CRAIN),分別選定閾值,進(jìn)行消空,降低午后強(qiáng)對(duì)流的空?qǐng)?bào)率,根據(jù)不同的天氣形勢(shì)、不同的溫度,選定不同的閾值。
3.1.2 集成學(xué)習(xí)模型
基于集成學(xué)習(xí)XGBoost的降水預(yù)報(bào)模型(見圖3)主要借鑒卷積和梯度提升決策樹的算法思想。該模型主要包含兩個(gè)部分:一是依托卷積進(jìn)行空間特征提取,將格點(diǎn)數(shù)據(jù)通過卷積計(jì)算,獲得不同站點(diǎn)的關(guān)于降水預(yù)報(bào)的特征行向量;二是將卷積后得到的特征行向量,輸入梯度提升決策樹(XGBoost)模型,最后獲得對(duì)應(yīng)時(shí)次的降水預(yù)報(bào)結(jié)果。
圖3 基于集成學(xué)習(xí)XGBoost的降水預(yù)報(bào)模型示意圖
如圖4所示,客觀預(yù)報(bào)方法主要分為兩個(gè)過程,一是訓(xùn)練過程,二是預(yù)測(cè)過程。訓(xùn)練過程是獲取機(jī)器學(xué)習(xí)算法模型的過程,將ECMWF模式資料歷史數(shù)據(jù)進(jìn)行決策專家系統(tǒng)訂正后,再與地面雨量觀測(cè)值一一對(duì)應(yīng),獲得訓(xùn)練機(jī)器學(xué)習(xí)算法模型的數(shù)據(jù)集;將專家訂正后的ECMWF模式資料數(shù)據(jù)集作為模型輸入,地面雨量觀測(cè)值作為目標(biāo)值,對(duì)預(yù)報(bào)方法模型進(jìn)行訓(xùn)練,最終獲得較優(yōu)的機(jī)器學(xué)習(xí)算法模型。預(yù)測(cè)過程是獲取對(duì)應(yīng)時(shí)次降水預(yù)報(bào)值的過程,將當(dāng)前時(shí)次ECMWF模式資料的數(shù)據(jù)進(jìn)行決策專家系統(tǒng)訂正后,輸入到機(jī)器學(xué)習(xí)算法模型中,最終獲得對(duì)應(yīng)時(shí)次的降水預(yù)報(bào)值。
(a)訓(xùn)練過程示意圖 (b)預(yù)測(cè)過程示意圖圖4 基于集成學(xué)習(xí)XGBoost模型的降水客觀預(yù)報(bào)方法流程
訓(xùn)練過程中,采用格網(wǎng)搜索法(Grid Search)進(jìn)行參數(shù)調(diào)優(yōu),為了評(píng)估模型的性能,對(duì)雨量使用平均絕對(duì)誤差作為損失函數(shù),用來評(píng)估機(jī)器學(xué)習(xí)模型在訓(xùn)練過程中的預(yù)報(bào)準(zhǔn)確性。其詳細(xì)過程如下:
①?zèng)Q策專家系統(tǒng)選取特征值(見表1),并進(jìn)行數(shù)據(jù)預(yù)處理。本文選取了2019—2020年每日08時(shí)和20時(shí)(北京時(shí))的預(yù)報(bào)資料,共計(jì)1462個(gè)模式預(yù)報(bào)數(shù)據(jù)。針對(duì)各種模式輸出資料,選取目標(biāo)站點(diǎn)所在的格點(diǎn),并取該格點(diǎn)相鄰的格點(diǎn)數(shù)據(jù)(共9個(gè)格點(diǎn)數(shù)據(jù));根據(jù)500hPa的引導(dǎo)氣流方向,增加拓展區(qū)域格點(diǎn);對(duì)數(shù)值預(yù)報(bào)格點(diǎn)中的空值和異常值進(jìn)行處理。之后對(duì)各要素值進(jìn)行歸一化處理,提升訓(xùn)練運(yùn)算速度。
②構(gòu)造數(shù)據(jù)集,選用2019—2020年福建省70個(gè)國家級(jí)自動(dòng)站相應(yīng)時(shí)段的6小時(shí)累積降水資料,作為降水實(shí)況,與ECMWF模式資料的輸出一一對(duì)應(yīng),構(gòu)造數(shù)據(jù)集,并按照8∶2比例劃分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。
目前市場(chǎng)環(huán)境下,專業(yè)培訓(xùn)機(jī)構(gòu)往往停留在理論和早期項(xiàng)目案例層面,真正對(duì)于EPC工程總承包實(shí)操層面的培訓(xùn)機(jī)制非常缺失,還需要施工企業(yè)有專業(yè)化部門和力量來建設(shè)人才隊(duì)伍、培養(yǎng)并發(fā)展人才,而且企業(yè)自身要加強(qiáng)經(jīng)驗(yàn)總結(jié)。
③集成學(xué)習(xí)模型訓(xùn)練。將訓(xùn)練數(shù)據(jù)集投入降水預(yù)報(bào)模型進(jìn)行訓(xùn)練,采用Adam優(yōu)化器,其中學(xué)習(xí)率為10-3,每個(gè)訓(xùn)練周期的迭代次數(shù)為10000,獲得降水客觀預(yù)報(bào)模型。
④集成學(xué)習(xí)模型迭代驗(yàn)證。降水預(yù)測(cè)過程是選取對(duì)應(yīng)時(shí)次的模式資料,進(jìn)行數(shù)據(jù)預(yù)處理(同訓(xùn)練過程),獲得預(yù)測(cè)輸入數(shù)據(jù);將預(yù)測(cè)輸入數(shù)據(jù)集輸入到降水客觀預(yù)報(bào)模型中,獲得對(duì)應(yīng)時(shí)次的降水預(yù)報(bào)值。最后,使用對(duì)應(yīng)時(shí)次的地面雨量觀測(cè)值,評(píng)估預(yù)測(cè)模型的準(zhǔn)確性。
本文開展檢驗(yàn)評(píng)估時(shí),將客觀預(yù)報(bào)方法預(yù)報(bào)的站點(diǎn)降水量、ECMWF模式預(yù)報(bào)的降水量,分別與相應(yīng)觀測(cè)站的實(shí)況雨量進(jìn)行對(duì)比檢驗(yàn)。其中,ECMWF模式預(yù)報(bào)的降水量是通過經(jīng)緯度選取最近的格點(diǎn)數(shù)據(jù),插值到對(duì)應(yīng)的站點(diǎn)上。評(píng)估檢驗(yàn)方法,采用傳統(tǒng)二分類檢驗(yàn)方法。
檢驗(yàn)評(píng)估分別對(duì)08時(shí)、20時(shí)(北京時(shí))起報(bào)的24小時(shí)預(yù)報(bào)時(shí)效進(jìn)行逐6小時(shí)降水預(yù)報(bào)檢驗(yàn),48小時(shí)和72小時(shí)預(yù)報(bào)時(shí)效進(jìn)行逐24小時(shí)降水預(yù)報(bào)檢驗(yàn)。對(duì)于24小時(shí)預(yù)報(bào),大雨以25mm為標(biāo)準(zhǔn);對(duì)于6小時(shí)預(yù)報(bào),以10mm為標(biāo)準(zhǔn)。
晴雨預(yù)報(bào)準(zhǔn)確率計(jì)算公式為:
(1)
式(1)中,NA為有降水預(yù)報(bào)正確站(次)數(shù),NB為空?qǐng)?bào)站(次)數(shù)、NC為漏報(bào)站(次)數(shù),ND為無降水預(yù)報(bào)正確的站(次)數(shù)。EH的值取值范圍為0%~100%,越接近100%,代表預(yù)報(bào)效果越好。
TS評(píng)分的計(jì)算公式為:
(2)
式(2)中,NA為有降水預(yù)報(bào)正確站(次)數(shù),NB為空?qǐng)?bào)站(次)數(shù)、NC為漏報(bào)站(次)數(shù)。同樣,TS的取值范圍為0%~100%,越接近100%,代表預(yù)報(bào)效果越好。
2021年6—11月,客觀預(yù)報(bào)方法的晴雨預(yù)報(bào)準(zhǔn)確率對(duì)比分析的檢驗(yàn)評(píng)估見圖5??陀^預(yù)報(bào)方法和ECMWF模式資料預(yù)報(bào)站點(diǎn)的晴雨準(zhǔn)確率結(jié)果顯示,客觀預(yù)報(bào)方法的預(yù)報(bào)結(jié)果明顯優(yōu)于ECMWF模式資料預(yù)報(bào)結(jié)果。
圖5 晴雨預(yù)報(bào)準(zhǔn)確率對(duì)比分析
2021年6—11月,客觀預(yù)報(bào)方法的大雨以上預(yù)報(bào)TS評(píng)分對(duì)比分析見圖6。各預(yù)報(bào)時(shí)次中,預(yù)報(bào)站點(diǎn)的大雨以上TS評(píng)分檢驗(yàn)情況在24h之內(nèi)的客觀預(yù)報(bào)方法效果提升幅度明顯,其他時(shí)次客觀預(yù)報(bào)方法的預(yù)報(bào)結(jié)果相較于ECMWF模式資料預(yù)報(bào)的結(jié)果,也有大幅提升。
圖6 大雨以上預(yù)報(bào)TS評(píng)分對(duì)比分析
基于集成學(xué)習(xí)XGBoost模型的降水客觀預(yù)報(bào)方法與本地預(yù)報(bào)決策專家系統(tǒng)相結(jié)合,利用集成學(xué)習(xí)XGBoost模型,深度挖掘數(shù)值模式ECMWF模式資料的降水產(chǎn)品信息,將多種氣象要素特征應(yīng)用在降水預(yù)報(bào)上。結(jié)果表明,該方法有效提升了ECMWF模式資料的預(yù)報(bào)結(jié)果,提升降水的預(yù)報(bào)準(zhǔn)確率,在業(yè)務(wù)應(yīng)用中取得了良好效果。
該方法在使用過程中也存在一些問題。例如,預(yù)測(cè)的準(zhǔn)確率還有上升空間,數(shù)值模式資料及氣象要素特征的選擇,機(jī)器學(xué)習(xí)模型及算法的選擇、參數(shù)的調(diào)整等,還需要大量實(shí)踐分析。建議今后進(jìn)一步挖掘數(shù)值模式預(yù)報(bào)產(chǎn)品信息,提升客觀預(yù)報(bào)方法的準(zhǔn)確性。