韓 豐 楊 璐 周楚炫 呂終亮
1)(國(guó)家氣象中心, 北京 100081)2)(北京城市氣象研究院, 北京 100089)
短時(shí)強(qiáng)降水(小時(shí)降水量不低于20 mm)是主要的極端降水天氣之一,主要由超級(jí)單體和中尺度對(duì)流系統(tǒng)(MCS)造成[1],具有局地性強(qiáng)、發(fā)展快、歷時(shí)短、破壞性大等特點(diǎn),是強(qiáng)對(duì)流天氣預(yù)報(bào)中的難點(diǎn)之一[2-3]。由于在短時(shí)間形成大量降水,短時(shí)強(qiáng)降水常導(dǎo)致城市內(nèi)澇和山洪、滑坡等次生災(zāi)害,給人民生命財(cái)產(chǎn)造成重大損失[4]。
根據(jù)氣塊法理論,短時(shí)強(qiáng)降水可以從深厚濕對(duì)流的三要素角度進(jìn)行分析,即充足的水汽、靜力不穩(wěn)定和抬升機(jī)制?;诖?,Doswell等[5]提出一種基于構(gòu)成要素的暴雨預(yù)報(bào)方法,俗稱配料法。張小玲等[6]利用數(shù)值模式產(chǎn)品分析有利于暴雨發(fā)生的物理“配料”,發(fā)展配料法暴雨落區(qū)預(yù)報(bào)方法。國(guó)家氣象中心在此基礎(chǔ)上制定了國(guó)家級(jí)強(qiáng)對(duì)流天氣環(huán)境場(chǎng)條件分析技術(shù)路線[7-8]。
單站探空數(shù)據(jù)是分析局地強(qiáng)對(duì)流天氣的重要數(shù)據(jù)之一。預(yù)報(bào)員常使用對(duì)流參數(shù)進(jìn)行潛勢(shì)預(yù)報(bào)[9-10]。王笑芳等[11]利用北京08:00(北京時(shí),下同)探空數(shù)據(jù)建立強(qiáng)對(duì)流天氣預(yù)報(bào)決策樹(shù),為強(qiáng)對(duì)流天氣的短時(shí)預(yù)報(bào)提供思路和方法。劉玉玲[12]結(jié)合多個(gè)個(gè)例分析對(duì)流有效位能、風(fēng)暴螺旋度等對(duì)流參數(shù)在強(qiáng)對(duì)流天氣潛勢(shì)預(yù)測(cè)中的作用。李耀東等[13]研究濕絕熱過(guò)程中對(duì)流能量計(jì)算方法,通過(guò)多指標(biāo)疊套技術(shù)實(shí)現(xiàn)強(qiáng)對(duì)流天氣的潛勢(shì)預(yù)報(bào)。劉曉璐等[14]以探空數(shù)據(jù)為因子,構(gòu)建冰雹預(yù)報(bào)模型。雷蕾等[15]基于統(tǒng)計(jì)方法,分析北京探空站在強(qiáng)對(duì)流日的物理量,得到能夠有效識(shí)別強(qiáng)對(duì)流天氣類型的物理量取值范圍和6 h變量。馬淑萍等[16]使用探空數(shù)據(jù)分析雷暴大風(fēng)的環(huán)境參量特征。田付友等[17]使用NCEP FNL分析場(chǎng)數(shù)據(jù)的物理量場(chǎng),設(shè)計(jì)短時(shí)強(qiáng)降水相關(guān)物理量的敏感性試驗(yàn),并得到幾種重要物理量的閾值。曾明劍等[18]在統(tǒng)計(jì)分析大量歷史個(gè)例的基礎(chǔ)上,結(jié)合中尺度模式輸出的對(duì)流參數(shù)預(yù)報(bào),提出一種客觀對(duì)流參數(shù)篩選和權(quán)重分配方案,構(gòu)建分類強(qiáng)對(duì)流天氣概率預(yù)報(bào)模型。
綜上所述,利用探空數(shù)據(jù)分析中尺度對(duì)流系統(tǒng)發(fā)生發(fā)展的局地垂直環(huán)境,可有效判斷短時(shí)強(qiáng)降水發(fā)生的潛勢(shì),構(gòu)建客觀預(yù)報(bào)模型。但面對(duì)不同氣候背景的站點(diǎn)和不同的天氣過(guò)程,對(duì)流參數(shù)選取和閾值確定在實(shí)際操作中存在很大的主觀性[19]。此外,不同對(duì)流參數(shù)之間有一定相關(guān)性,且有各自的適用條件,并不存在一種普適的指數(shù)或者方法[20],這也給基于探空數(shù)據(jù)的客觀診斷方法應(yīng)用帶來(lái)一定局限性。
為了解決上述算法的適用性問(wèn)題,提高客觀模型的預(yù)報(bào)能力,本文提出一種基于集成學(xué)習(xí)和探空數(shù)據(jù)的短時(shí)強(qiáng)降水預(yù)報(bào)模型,以XGBoost(extreme gradient boosting)集成學(xué)習(xí)框架為基礎(chǔ)[21],將08:00 探空觀測(cè)的大氣層結(jié)和對(duì)短時(shí)強(qiáng)降水有指示意義的對(duì)流參數(shù)作為特征,構(gòu)建集成決策樹(shù),利用長(zhǎng)時(shí)間序列站點(diǎn)數(shù)據(jù)建立短時(shí)強(qiáng)降水客觀預(yù)報(bào)模型(以下稱預(yù)測(cè)模型)。
目前,人工智能尤其是新興的深度學(xué)習(xí)方法已在氣象預(yù)報(bào)任務(wù)上取得一定應(yīng)用成果[22-25]。但縱觀各類國(guó)際智能算法大賽不難發(fā)現(xiàn),同類算法在氣象領(lǐng)域中的應(yīng)用效果往往大打折扣。從氣象角度考慮,其原因主要有3點(diǎn):天氣發(fā)展具有一定的不可預(yù)報(bào)性,氣象觀測(cè)的局限性,天氣預(yù)報(bào)事件的不均衡性。強(qiáng)對(duì)流天氣預(yù)報(bào)中,不僅無(wú)法獲得強(qiáng)對(duì)流天氣發(fā)生前的大氣真實(shí)狀態(tài),有時(shí)甚至無(wú)法確定強(qiáng)對(duì)流天氣發(fā)生與否。這些都極大制約了客觀預(yù)報(bào)模型的準(zhǔn)確率。唐文苑等[26]指出對(duì)于致災(zāi)性強(qiáng)、極易造成經(jīng)濟(jì)損失和人員傷亡的強(qiáng)對(duì)流天氣預(yù)報(bào)業(yè)務(wù),在犧牲部分空?qǐng)?bào)率的基礎(chǔ)上提高預(yù)報(bào)的準(zhǔn)確率,可以一定程度上有效提升預(yù)報(bào)服務(wù)效果,降低災(zāi)害性天氣的影響。受其啟發(fā),本文提出一種面向高影響氣象業(yè)務(wù)的人工智能模型優(yōu)化思路,即在提升模型TS評(píng)分的同時(shí),更加關(guān)注預(yù)測(cè)錯(cuò)誤的樣本分布。通過(guò)對(duì)模型的優(yōu)化,在總體上不增加錯(cuò)誤預(yù)測(cè)數(shù)量的基礎(chǔ)上,減少漏報(bào),增加空?qǐng)?bào),進(jìn)而提高模型的TS評(píng)分和命中率,提升模型的實(shí)際預(yù)報(bào)能力。
綜上所述,本文基于集成決策樹(shù),使用探空數(shù)據(jù),構(gòu)建短時(shí)強(qiáng)降水客觀預(yù)報(bào)模型,提出并驗(yàn)證一種面向高影響天氣的模型優(yōu)化方案。
集成學(xué)習(xí)指通過(guò)集成準(zhǔn)確且互補(bǔ)的基分類器,提高模型的泛化能力,獲得更優(yōu)的學(xué)習(xí)效果[27]。本文使用的XGBoost是一種基于GBDT(gradient boosting decision tree,梯度提升決策樹(shù))的集成學(xué)習(xí)框架[21],BDT(boosting decision tree,提升決策樹(shù))的模型優(yōu)化通過(guò)不斷增加決策樹(shù)實(shí)現(xiàn),其核心在于第n棵樹(shù)學(xué)的是前(n-1)棵樹(shù)預(yù)測(cè)結(jié)果和真實(shí)值的偏差(殘差),通過(guò)減小殘差,模型的學(xué)習(xí)能力得到提升。GBDT使用梯度下降法進(jìn)行BDT模型訓(xùn)練,在訓(xùn)練過(guò)程中,每一棵新的決策樹(shù)都在殘差減小的梯度方向上構(gòu)建,新決策樹(shù)的構(gòu)建使模型向提升準(zhǔn)確率的方向進(jìn)行優(yōu)化[28]。
本文在GBDT集成策略基礎(chǔ)上,通過(guò)優(yōu)化損失函數(shù),使模型更加關(guān)注預(yù)測(cè)錯(cuò)誤的樣本分布,進(jìn)而在“寧空勿漏”的方向上構(gòu)建新的決策樹(shù),最終在總體上不增加錯(cuò)誤預(yù)測(cè)數(shù)量的基礎(chǔ)上,減少漏報(bào),提高模型的命中率和TS評(píng)分。
XGBoost模型的訓(xùn)練過(guò)程就是通過(guò)最小化目標(biāo)函數(shù)找到最佳參數(shù)組。其目標(biāo)函數(shù)[21]為
(1)
(2)
將式(2)帶入式(1),可以得到模型在訓(xùn)練第K棵決策樹(shù)時(shí)的目標(biāo)函數(shù)為
(3)
損失函數(shù)是機(jī)器學(xué)習(xí)算法中最重要的要素之一,其核心是描述模型預(yù)測(cè)值和樣本真實(shí)值之間的偏差,并驅(qū)動(dòng)模型向損失值減小的方向優(yōu)化。
表1給出的是模型預(yù)測(cè)值和樣本真實(shí)值之間的關(guān)系。其中TP和FN表示預(yù)測(cè)正確,TN表示漏報(bào),F(xiàn)P表示空?qǐng)?bào)。唐文苑等[26]指出對(duì)于高影響的強(qiáng)對(duì)流天氣,“寧空勿漏”的預(yù)報(bào)傾向,有助于提升預(yù)報(bào)服務(wù)的效果,降低災(zāi)害性天氣影響。本文以此出發(fā),考慮短時(shí)強(qiáng)降水預(yù)報(bào)任務(wù)的不確定性,當(dāng)模型無(wú)法做出正確預(yù)測(cè)時(shí),通過(guò)優(yōu)化損失函數(shù),使模型的錯(cuò)誤預(yù)測(cè)更多落在FP區(qū)域,即增多空?qǐng)?bào),減少漏報(bào)(提升命中率),使模型在實(shí)際預(yù)報(bào)任務(wù)中更有應(yīng)用價(jià)值。
表1 模型預(yù)測(cè)值和樣本真實(shí)值的關(guān)系Table 1 Relations between labels and predictions
在此基礎(chǔ)上,將損失函數(shù)寫成分段形式。通過(guò)給不同變量取值范圍增加權(quán)重系數(shù)的方式,調(diào)整模型預(yù)測(cè)的傾向性。模型輸出結(jié)果為事件發(fā)生概率,選擇0.5的預(yù)測(cè)值作為事件發(fā)生的概率閾值,超過(guò)閾值即判斷為短時(shí)強(qiáng)降水發(fā)生。則分段權(quán)重?fù)p失函數(shù)如下所示:
(4)
其中,wTP,wTN,wFP,wFN分別代表真實(shí)值和預(yù)測(cè)值落在TP,TN,F(xiàn)P和FN區(qū)域時(shí)的權(quán)重系數(shù)。當(dāng)wTP,wTN,wFP,wFN相等且取值為1時(shí),分段權(quán)重?fù)p失函數(shù)和原損失函數(shù)等價(jià)。減小wFN,當(dāng)個(gè)例落在FN區(qū)間時(shí),損失函數(shù)返回的損失值較小,使預(yù)測(cè)模型向傾向于預(yù)測(cè)發(fā)生方向優(yōu)化,最終預(yù)測(cè)結(jié)果會(huì)出現(xiàn)TP和FP數(shù)量上升,TN和FN數(shù)量下降。相反,減小wTP,預(yù)測(cè)模型則向傾向于預(yù)測(cè)未發(fā)生的方向優(yōu)化,最終預(yù)測(cè)結(jié)果會(huì)出現(xiàn)TN和FN上升,TP和FP數(shù)量下降。
(5)
為了驗(yàn)證預(yù)測(cè)模型的地域適用性,本文選取我國(guó)119個(gè)探空站點(diǎn)作為試驗(yàn)對(duì)象,分別收集2015—2019年6—9月的探空觀測(cè)和降水觀測(cè),形成試驗(yàn)數(shù)據(jù)全集。其中,每個(gè)探空站分別形成各自的站點(diǎn)試驗(yàn)數(shù)據(jù)集。
本文使用08:00探空數(shù)據(jù)預(yù)測(cè)未來(lái)12 h短時(shí)強(qiáng)降水事件(不低于20 mm·h-1)。采用點(diǎn)到面[16]的檢驗(yàn)方式,即將探空站周邊一定范圍內(nèi)的自動(dòng)氣象站作為檢驗(yàn)站,統(tǒng)計(jì)目標(biāo)事件的發(fā)生情況。在此種條件下,短時(shí)強(qiáng)降水事件是否發(fā)生取決于兩個(gè)因素:搜索范圍和出現(xiàn)短時(shí)強(qiáng)降水雨量站數(shù)量?;贖aklander等[29]和田付友等[17]的研究,本文確定搜索范圍為以探空站為中心的2°×2°矩形大小,出現(xiàn)短時(shí)強(qiáng)降水雨量站的記錄數(shù)閾值為2。以某日某個(gè)探空站的探空觀測(cè)記為1站次,當(dāng)該探空站周邊2°×2°范圍內(nèi),在未來(lái)12 h內(nèi),有兩個(gè)以上自動(dòng)氣象站出現(xiàn)超過(guò)20 mm·h-1的降水時(shí),記為1次短時(shí)強(qiáng)降水事件。
為了驗(yàn)證模型的泛化能力,本文選取區(qū)域氣象中心周邊的7個(gè)探空站(烏魯木齊區(qū)域氣象中心由于短時(shí)強(qiáng)降水個(gè)例過(guò)少,無(wú)法形成有效的數(shù)據(jù)集),分別利用2017年、2018年、2019年站點(diǎn)試驗(yàn)數(shù)據(jù)集構(gòu)建站點(diǎn)試驗(yàn)數(shù)據(jù)子集,其中每個(gè)站點(diǎn)試驗(yàn)數(shù)據(jù)子集包括學(xué)習(xí)集和獨(dú)立檢驗(yàn)集,總共21個(gè)站點(diǎn)試驗(yàn)數(shù)據(jù)子集(表2)。
表2 各探空站點(diǎn)試驗(yàn)數(shù)據(jù)子集名稱Table 2 Data subset of sounding stations
本文選取的特征分為兩個(gè)組成部分:探空觀測(cè)的大氣層結(jié)和對(duì)流參數(shù)。其中大氣層結(jié)是業(yè)務(wù)中唯一基于直接觀測(cè)的高空數(shù)據(jù)(包括溫度、位勢(shì)高度、露點(diǎn)穩(wěn)定、風(fēng)速和風(fēng)向),在分析和診斷天氣形勢(shì)中有重要作用。對(duì)流參數(shù)選取和水汽、觸發(fā)條件、層結(jié)穩(wěn)定度相關(guān)的主要物理量[30-33]。同時(shí),考慮到大部分的熱力穩(wěn)定度參數(shù)都有很強(qiáng)的相關(guān)性,為了避免模型的過(guò)擬合,本文排除一些參數(shù),如SI指數(shù)。此外,特征中也包括一些不利于短時(shí)強(qiáng)降水的對(duì)流參數(shù),如不同高度的水平風(fēng)垂直切變等。最終得到48個(gè)特征,如表3所示。
表3 特征量列表Table 3 Selected elements
為驗(yàn)證損失函數(shù)中權(quán)重參數(shù)調(diào)整的有效性、泛化性,以及改進(jìn)后模型對(duì)于短時(shí)強(qiáng)降水事件的預(yù)報(bào)能力。本文設(shè)計(jì)兩組對(duì)比試驗(yàn)方案,分段權(quán)重?fù)p失函數(shù)權(quán)重敏感性試驗(yàn)和損失函數(shù)對(duì)比試驗(yàn),和一組全國(guó)范圍的預(yù)報(bào)試驗(yàn)。選用命中率、空?qǐng)?bào)率、漏報(bào)率、TS評(píng)分對(duì)預(yù)報(bào)結(jié)果進(jìn)行量化評(píng)估。本文在計(jì)算命中數(shù)(TP)、空?qǐng)?bào)數(shù)(NP)和漏報(bào)數(shù)(TN)時(shí),采用2.1節(jié)中介紹的點(diǎn)到面的檢驗(yàn)方式。
XGBoost內(nèi)置算法參數(shù)不在本文討論范圍內(nèi),故所有對(duì)比試驗(yàn)使用統(tǒng)一的算法參數(shù)。已調(diào)優(yōu)參數(shù)如表4所示,其余參數(shù)為默認(rèn)值。
表4 XGBoost模型參數(shù)Table 4 Parameters of XGBoost
3.2.1 試驗(yàn)設(shè)計(jì)
本文設(shè)計(jì)權(quán)重參數(shù)的敏感性對(duì)比試驗(yàn),以驗(yàn)證分段權(quán)重?fù)p失函數(shù)權(quán)重參數(shù)對(duì)模型預(yù)報(bào)能力影響。以標(biāo)準(zhǔn)MSE作為試驗(yàn)的對(duì)照組,分別獨(dú)立改變wTP,wTN,wFP,wFN(步長(zhǎng)為-0.1),進(jìn)行預(yù)報(bào)試驗(yàn)。為消除數(shù)據(jù)集對(duì)于試驗(yàn)的影響,對(duì)比試驗(yàn)在北京(54511),上海(58362)、武漢(57494)、錦州(54337)、清遠(yuǎn)(59280)5個(gè)站點(diǎn)的15個(gè)站點(diǎn)試驗(yàn)數(shù)據(jù)子集上進(jìn)行,共進(jìn)行15組對(duì)比試驗(yàn)。
3.2.2 結(jié)果分析
圖1為分段權(quán)重?fù)p失函數(shù)在不同權(quán)重系數(shù)下,預(yù)測(cè)模型在15個(gè)試驗(yàn)數(shù)據(jù)集上的檢驗(yàn)結(jié)果,橫軸為各權(quán)重系數(shù)的取值,縱軸為檢驗(yàn)指標(biāo)TS評(píng)分。對(duì)比wTP評(píng)分圖可以看出,隨著wTP減小,預(yù)測(cè)模型偏向保守型預(yù)報(bào),即“寧漏勿空”。命中數(shù)和空?qǐng)?bào)數(shù)減小,命中率和TS評(píng)分隨之下降,由于命中數(shù)和空?qǐng)?bào)數(shù)同時(shí)降低,故空?qǐng)?bào)率沒(méi)有明顯變化。當(dāng)wTP<0.5時(shí),命中數(shù)和空?qǐng)?bào)數(shù)減少一半,模型的預(yù)報(bào)能力比較差。當(dāng)wTP在0.8~0.9取值范圍內(nèi)時(shí),預(yù)測(cè)模型在基本維持命中率的基礎(chǔ)上,空?qǐng)?bào)數(shù)略有減少,TS評(píng)分略有上升。對(duì)比wFN評(píng)分圖可以看到,隨著wFN減小,預(yù)測(cè)模型偏向激進(jìn)型預(yù)報(bào),有明顯的“寧空勿漏”傾向。命中數(shù)和空?qǐng)?bào)數(shù)上升,命中率和空?qǐng)?bào)率隨之上升。當(dāng)wFN在0.2~0.4的取值范圍內(nèi),命中率普遍超過(guò)0.6,在一些數(shù)據(jù)集上,甚至超過(guò)0.9。此時(shí)空?qǐng)?bào)率位于0.3~0.5,TS評(píng)分略有上升。對(duì)比wTN和wFP評(píng)分圖可以看出,wTN和wFP對(duì)于預(yù)測(cè)模型的性能影響不大,這主要是因?yàn)樵谀P陀?xùn)練過(guò)程中,落在TN和FP區(qū)間的個(gè)例數(shù)相對(duì)較少,所以這部分損失值的變化很難影響到整個(gè)模型的訓(xùn)練結(jié)果。
圖1 分段權(quán)重?fù)p失函數(shù)權(quán)重敏感性分析試驗(yàn)檢驗(yàn)結(jié)果Fig.1 Result of sensitivity analysis test of weighted piecewise loss function
綜合對(duì)比圖1可以看到,預(yù)測(cè)模型在15組對(duì)比試驗(yàn)中,均表現(xiàn)出相似的變化。這表明調(diào)整權(quán)重影響對(duì)于預(yù)測(cè)模型的傾向性具有一定泛化能力。其中,減小wTP會(huì)減少模型的命中數(shù)和空?qǐng)?bào)數(shù);減小wFN會(huì)提高模型的命中數(shù)和空?qǐng)?bào)數(shù);wTN和wFP對(duì)預(yù)測(cè)模型影響較小。
綜上所述,wTP取值為0.8~1.0,wFN取值為0.3~0.5,wTN和wFP取值為1時(shí),模型的空?qǐng)?bào)率不超過(guò)0.5,命中率明顯上升,TS評(píng)分略有提高,模型表現(xiàn)出明顯的“寧空勿漏”傾向。同時(shí),不同站之間的最優(yōu)權(quán)重參數(shù)取值略有不同,實(shí)際訓(xùn)練模型時(shí),可以在確定空?qǐng)?bào)率閾值的基礎(chǔ)上,針對(duì)具體站點(diǎn)進(jìn)行進(jìn)一步調(diào)優(yōu)。
3.3.1 對(duì)比試驗(yàn)設(shè)計(jì)
本文設(shè)計(jì)了損失函數(shù)對(duì)比分析試驗(yàn)。以XGBoost框架中常用的Logloss(對(duì)數(shù)損失函數(shù),見(jiàn)式(6)和MSE損失函數(shù)作為試驗(yàn)對(duì)照組,驗(yàn)證分段權(quán)重?fù)p失函數(shù)(見(jiàn)式(4))模型的預(yù)報(bào)能力。為消除數(shù)據(jù)集對(duì)試驗(yàn)結(jié)果的影響,對(duì)比試驗(yàn)在北京(54511)、上海(58362)、武漢(57494)、錦州(54337)、清遠(yuǎn)(59280)、溫江(56187)和渝中(52983)7個(gè)探空站的21個(gè)站點(diǎn)試驗(yàn)數(shù)據(jù)子集上進(jìn)行,共21組對(duì)比試驗(yàn)。所有試驗(yàn)中,分段權(quán)重?fù)p失函數(shù)使用統(tǒng)一的權(quán)重參數(shù)配置方案:wTP=1.0,wTN=1.0,wFP=1.0,wFN=0.4。
(6)
3.3.2 結(jié)果分析
圖2為損失函數(shù)對(duì)比試驗(yàn)的檢驗(yàn)結(jié)果,表5給出的是以站點(diǎn)區(qū)分的平均檢驗(yàn)結(jié)果。由圖2a和表5可以看出,在21組對(duì)比試驗(yàn)中,有18組試驗(yàn)分段權(quán)重?fù)p失函數(shù)模型的TS評(píng)分都高于試驗(yàn)對(duì)照組。其中,渝中站改進(jìn)最為明顯,TS評(píng)分提高0.11,其他站點(diǎn)也有0.05左右的提升。由圖2b和表5可以看出,分段權(quán)重?fù)p失函數(shù)模型的準(zhǔn)確率在所有站點(diǎn)都有較大幅度的提升。由圖2c和表5可以看到,分段權(quán)重?fù)p失函數(shù)模型的空?qǐng)?bào)率略有上升(約0.05~0.1),但上升幅度明顯小于命中率,除錦州站外平均空?qǐng)?bào)率不超過(guò)0.5。對(duì)比圖2和表5可以看到,改進(jìn)后的預(yù)測(cè)模型在21組對(duì)比試驗(yàn)中,均表現(xiàn)出相似的優(yōu)化結(jié)果,表明本文提出的改進(jìn)方案具有一定的泛化性能??傮w上看,渝中站和錦州站的TS評(píng)分較低,這主要是由于短時(shí)強(qiáng)降水個(gè)例偏少,模型無(wú)法學(xué)習(xí)到有效的特征信息所致。綜上所述,改進(jìn)后的預(yù)測(cè)模型,在TS評(píng)分略有升高、命中率大幅提升的基礎(chǔ)上,空?qǐng)?bào)率略有升高,預(yù)報(bào)能力明顯加強(qiáng)。預(yù)測(cè)模型的改進(jìn)符合對(duì)分段權(quán)重?fù)p失函數(shù)優(yōu)化的預(yù)期,且表現(xiàn)出一定的泛化能力。
圖2 損失函數(shù)對(duì)比試驗(yàn)檢驗(yàn)結(jié)果 (a)TS評(píng)分,(b)命中率,(c)空?qǐng)?bào)率Fig.2 Comparison test of loss function(a)threat score,(b)probability of detection,(c)false alarm rate
續(xù)圖2
表5 站點(diǎn)平均檢驗(yàn)結(jié)果Table 5 Average result of comparison test of loss function at each sounding station
續(xù)表5
此外,改進(jìn)模型在不同站點(diǎn)呈現(xiàn)出不同的優(yōu)化能力,這可能是由于本文未針對(duì)指定站點(diǎn)進(jìn)行參數(shù)優(yōu)化。針對(duì)不同站點(diǎn)定制參數(shù)調(diào)優(yōu),可進(jìn)一步改進(jìn)效果。
3.4.1 預(yù)報(bào)試驗(yàn)設(shè)計(jì)
基于改進(jìn)的預(yù)測(cè)模型,使用“試驗(yàn)2019” 數(shù)據(jù)集對(duì)我國(guó)119個(gè)探空站分別建模,進(jìn)行全國(guó)范圍的短時(shí)強(qiáng)降水預(yù)報(bào)試驗(yàn)。所有站點(diǎn)的分段權(quán)重?fù)p失函數(shù)使用統(tǒng)一的權(quán)重參數(shù)配置方案:wTP=1.0,wTN=1.0,wFP=1.0,wFN=0.4。
3.4.2 個(gè)例檢驗(yàn)結(jié)果
2019年6月20—25日,我國(guó)受到高空槽、低層切變線和低層急流的共同影響,在西南地區(qū)東部、黃淮西部、江南、華南等地,出現(xiàn)一次自北向南的區(qū)域性短時(shí)強(qiáng)降水過(guò)程[34]。圖3為6月21—24日08:00 模型預(yù)測(cè)的12 h短時(shí)強(qiáng)降水預(yù)報(bào)和實(shí)況疊加圖,圖中淺灰色實(shí)心圓為未來(lái)12 h內(nèi)出現(xiàn)20 mm·h-1以上降水的站點(diǎn)。綜合圖3可以看到,受大尺度天氣系統(tǒng)影響, 21日短時(shí)強(qiáng)降水雨帶位于長(zhǎng)江中下游沿線,隨著850 hPa切變線的南壓,雨帶整體向南移動(dòng),到23—24日雨帶維持在東南沿海地區(qū)。對(duì)比模型的客觀預(yù)報(bào)結(jié)果可以看到,模型對(duì)于主體雨帶的預(yù)報(bào)較好,說(shuō)明通過(guò)對(duì)歷史數(shù)據(jù)的建模,模型具備一定的短時(shí)強(qiáng)降水事件預(yù)報(bào)能力。由圖3a、圖3b可以看到,模型的空?qǐng)?bào)主要出現(xiàn)在東南沿海地區(qū),這主要是由于本次過(guò)程前期,底層切變線維持在西南地區(qū)東部至長(zhǎng)江南部,東南沿海一直處于西南氣流中,大氣濕度條件較好,且東南沿海站點(diǎn)的歷史短時(shí)強(qiáng)降水日數(shù)較多,使預(yù)報(bào)結(jié)果出現(xiàn)一定范圍的空?qǐng)?bào)。圖3還可以看出,漏報(bào)主要集中在主體雨帶的西北部。另外,在本次過(guò)程中,模型對(duì)于零星的短時(shí)強(qiáng)降水點(diǎn)預(yù)報(bào)效果不佳。通過(guò)定量化檢驗(yàn),本次過(guò)程預(yù)報(bào)模型的命中率為0.64,空?qǐng)?bào)率為0.38,漏報(bào)率為0.36,TS評(píng)分為0.46。
3.4.3 長(zhǎng)時(shí)間序列檢驗(yàn)結(jié)果
本文使用“試驗(yàn)2019”數(shù)據(jù)集,進(jìn)行長(zhǎng)時(shí)間序列的全國(guó)短時(shí)強(qiáng)降水預(yù)報(bào)試驗(yàn),并給出同時(shí)間段08:00 起報(bào)的GRAPES_3 km短時(shí)強(qiáng)降水預(yù)報(bào)檢驗(yàn)結(jié)果。在GRAPES_3 km檢驗(yàn)時(shí),先將GRAPES_3 km的格點(diǎn)預(yù)報(bào)轉(zhuǎn)換到探空站點(diǎn)上,再使用2.1節(jié)的方法進(jìn)行預(yù)報(bào)檢驗(yàn),具體方法:①首先在每一格點(diǎn)上,取GRAPES_3 km 1~12 h的小時(shí)降水量的最大值,得到未來(lái)12 h內(nèi)最大的小時(shí)降水量預(yù)報(bào)場(chǎng);②統(tǒng)計(jì)探空站周邊2°×2°范圍內(nèi),最大小時(shí)降水量預(yù)報(bào)超過(guò)20 mm的格點(diǎn)數(shù),當(dāng)格點(diǎn)數(shù)不低于2時(shí),則記錄為一次短時(shí)強(qiáng)降水預(yù)報(bào);③使用2.1節(jié)中的方法,進(jìn)行預(yù)報(bào)檢驗(yàn)。
以某一日某個(gè)站的探空觀測(cè)記錄為1站次,則在 “試驗(yàn)2019”檢驗(yàn)集中共得到14389站次數(shù)據(jù),其中發(fā)生短時(shí)強(qiáng)降水事件2579站次,表6給出預(yù)測(cè)模型和GRAPES_3 km模式的2019年檢驗(yàn)集檢驗(yàn)結(jié)果。其中,預(yù)測(cè)模型命中短時(shí)強(qiáng)降水事件1693站次,命中率為0.66,空?qǐng)?bào)短時(shí)強(qiáng)降水事件1004站次,空?qǐng)?bào)率為0.37, TS評(píng)分為0.47。GRAPES_3 km,命中1806站次,命中率為0.7,空?qǐng)?bào)2040站次,空?qǐng)?bào)率為0.53,TS評(píng)分為0.39。通過(guò)對(duì)比可以發(fā)現(xiàn),預(yù)測(cè)模型雖然命中數(shù)少113站次,但是空?qǐng)?bào)少1036站次,TS評(píng)分較GRAPES_3 km提高0.08,總體上看,預(yù)測(cè)模型的短時(shí)強(qiáng)降水預(yù)報(bào)能力更強(qiáng)。
圖3 2019年6月21—24日08:00 12 h短時(shí)強(qiáng)降水預(yù)報(bào)和實(shí)況對(duì)比(a)6月21日,(b)6月22日,(c)6月23日,(d)6月24日Fig.3 Comparison between observation and 12 h forecast at 0800 BT from 21 Jun to 24 Jun in 2019(a)21 Jun,(b)22 Jun,(c)23 Jun,(d)24 Jun
表6 2019年檢驗(yàn)集長(zhǎng)檢驗(yàn)結(jié)果Table 6 Quantitative validation of prediction model on 2019 dataset
本文介紹一種基于集成決策樹(shù)的短時(shí)強(qiáng)降水預(yù)報(bào)模型。該模型以08:00探空觀測(cè)和常用對(duì)流參數(shù)為特征,預(yù)報(bào)未來(lái)12 h短時(shí)強(qiáng)降水事件。在此基礎(chǔ)上,提出一種面向高影響天氣的模型優(yōu)化思路,即通過(guò)分段損失函數(shù)調(diào)整模型“寧空勿漏”的預(yù)報(bào)傾向,在控制空?qǐng)?bào)率不超過(guò)一定閾值的基礎(chǔ)上,最大程度提升模型的預(yù)報(bào)命中率和TS評(píng)分。通過(guò)區(qū)域中心探空站的權(quán)重敏感性試驗(yàn)、損失函數(shù)對(duì)比試驗(yàn),以及全國(guó)探空站的短時(shí)強(qiáng)降水預(yù)報(bào)試驗(yàn),得到以下結(jié)論:
1) 使用分段權(quán)重MSE作為模型的損失函數(shù),通過(guò)權(quán)重系數(shù)的調(diào)整,可以有效引導(dǎo)模型向傾向預(yù)測(cè)發(fā)生(positive)或傾向預(yù)測(cè)不發(fā)生(negative)的方向優(yōu)化,進(jìn)而使最終預(yù)測(cè)模型獲得一定預(yù)報(bào)傾向。
2) 減小wTP會(huì)明顯減少模型預(yù)測(cè)的命中數(shù)和空?qǐng)?bào)數(shù),模型有“寧漏勿空”傾向;減小wFN會(huì)明顯增加模型預(yù)測(cè)的命中數(shù)和空?qǐng)?bào)數(shù),模型有“寧空勿漏”傾向;wTN和wFP對(duì)預(yù)測(cè)模型影響較小。
3) 通過(guò)7個(gè)區(qū)域中心探空站共21組試驗(yàn)數(shù)據(jù)驗(yàn)證,改進(jìn)后的模型和常規(guī)模型相比,TS評(píng)分提高0.05~0.1,命中率提高0.10以上,空?qǐng)?bào)率提高0.05~0.1,表現(xiàn)出明顯的“寧空勿漏”預(yù)報(bào)傾向,預(yù)測(cè)模型的實(shí)際預(yù)報(bào)能力得到明顯提升,且優(yōu)化方案表現(xiàn)出一定的泛化能力。
4) 全國(guó)短時(shí)強(qiáng)降水預(yù)報(bào)試驗(yàn)的獨(dú)立檢驗(yàn)表明:改進(jìn)后的預(yù)報(bào)模型在2019年獨(dú)立檢驗(yàn)集上,命中率為0.66,空?qǐng)?bào)率為0.37,TS評(píng)分為0.47,該模型具備一定的短時(shí)強(qiáng)降水天氣預(yù)報(bào)能力。
本文的預(yù)報(bào)試驗(yàn)存在以下局限性:08:00探空無(wú)法準(zhǔn)確描述午后大氣的垂直結(jié)構(gòu),導(dǎo)致預(yù)報(bào)試驗(yàn)本身存在一定的不確定性;通過(guò)多組試驗(yàn)發(fā)現(xiàn),不同試驗(yàn)組構(gòu)建模型的特征重要性差異較大,即便在同一站同一組數(shù)據(jù)中,使用不同模型參數(shù)可能得到大相徑庭的特征,所以如何使用模型反推驗(yàn)證短時(shí)強(qiáng)降水機(jī)制還有待進(jìn)一步研究。此外,本文方法所給出的短時(shí)強(qiáng)降水預(yù)報(bào),具有范圍大、預(yù)報(bào)時(shí)間長(zhǎng)等特點(diǎn)。在實(shí)際預(yù)報(bào)中,還需要預(yù)報(bào)員利用雷達(dá)、衛(wèi)星、閃電、自動(dòng)站等多源數(shù)據(jù)進(jìn)一步分析,以得到更為精準(zhǔn)的預(yù)報(bào)落區(qū)。
在今后工作中,可從原始數(shù)據(jù)上繼續(xù)優(yōu)化模型,如使用14:00加密探空數(shù)據(jù)構(gòu)建模型;或基于模式探空構(gòu)建模型,形成格點(diǎn)化的預(yù)報(bào)產(chǎn)品;也可以考慮建立模型預(yù)測(cè)的事件發(fā)生概率值和實(shí)際短時(shí)強(qiáng)降水發(fā)生概率的映射關(guān)系,得到格點(diǎn)化的概率產(chǎn)品。
致 謝:感謝國(guó)家氣象中心鄭永光研究員和關(guān)良助理工程師提供短時(shí)強(qiáng)降水站點(diǎn)數(shù)據(jù)集。