韓 豐 楊 璐 周楚炫 呂終亮
1)(國家氣象中心, 北京 100081)2)(北京城市氣象研究院, 北京 100089)
短時強(qiáng)降水(小時降水量不低于20 mm)是主要的極端降水天氣之一,主要由超級單體和中尺度對流系統(tǒng)(MCS)造成[1],具有局地性強(qiáng)、發(fā)展快、歷時短、破壞性大等特點(diǎn),是強(qiáng)對流天氣預(yù)報中的難點(diǎn)之一[2-3]。由于在短時間形成大量降水,短時強(qiáng)降水常導(dǎo)致城市內(nèi)澇和山洪、滑坡等次生災(zāi)害,給人民生命財產(chǎn)造成重大損失[4]。
根據(jù)氣塊法理論,短時強(qiáng)降水可以從深厚濕對流的三要素角度進(jìn)行分析,即充足的水汽、靜力不穩(wěn)定和抬升機(jī)制?;诖耍珼oswell等[5]提出一種基于構(gòu)成要素的暴雨預(yù)報方法,俗稱配料法。張小玲等[6]利用數(shù)值模式產(chǎn)品分析有利于暴雨發(fā)生的物理“配料”,發(fā)展配料法暴雨落區(qū)預(yù)報方法。國家氣象中心在此基礎(chǔ)上制定了國家級強(qiáng)對流天氣環(huán)境場條件分析技術(shù)路線[7-8]。
單站探空數(shù)據(jù)是分析局地強(qiáng)對流天氣的重要數(shù)據(jù)之一。預(yù)報員常使用對流參數(shù)進(jìn)行潛勢預(yù)報[9-10]。王笑芳等[11]利用北京08:00(北京時,下同)探空數(shù)據(jù)建立強(qiáng)對流天氣預(yù)報決策樹,為強(qiáng)對流天氣的短時預(yù)報提供思路和方法。劉玉玲[12]結(jié)合多個個例分析對流有效位能、風(fēng)暴螺旋度等對流參數(shù)在強(qiáng)對流天氣潛勢預(yù)測中的作用。李耀東等[13]研究濕絕熱過程中對流能量計算方法,通過多指標(biāo)疊套技術(shù)實現(xiàn)強(qiáng)對流天氣的潛勢預(yù)報。劉曉璐等[14]以探空數(shù)據(jù)為因子,構(gòu)建冰雹預(yù)報模型。雷蕾等[15]基于統(tǒng)計方法,分析北京探空站在強(qiáng)對流日的物理量,得到能夠有效識別強(qiáng)對流天氣類型的物理量取值范圍和6 h變量。馬淑萍等[16]使用探空數(shù)據(jù)分析雷暴大風(fēng)的環(huán)境參量特征。田付友等[17]使用NCEP FNL分析場數(shù)據(jù)的物理量場,設(shè)計短時強(qiáng)降水相關(guān)物理量的敏感性試驗,并得到幾種重要物理量的閾值。曾明劍等[18]在統(tǒng)計分析大量歷史個例的基礎(chǔ)上,結(jié)合中尺度模式輸出的對流參數(shù)預(yù)報,提出一種客觀對流參數(shù)篩選和權(quán)重分配方案,構(gòu)建分類強(qiáng)對流天氣概率預(yù)報模型。
綜上所述,利用探空數(shù)據(jù)分析中尺度對流系統(tǒng)發(fā)生發(fā)展的局地垂直環(huán)境,可有效判斷短時強(qiáng)降水發(fā)生的潛勢,構(gòu)建客觀預(yù)報模型。但面對不同氣候背景的站點(diǎn)和不同的天氣過程,對流參數(shù)選取和閾值確定在實際操作中存在很大的主觀性[19]。此外,不同對流參數(shù)之間有一定相關(guān)性,且有各自的適用條件,并不存在一種普適的指數(shù)或者方法[20],這也給基于探空數(shù)據(jù)的客觀診斷方法應(yīng)用帶來一定局限性。
為了解決上述算法的適用性問題,提高客觀模型的預(yù)報能力,本文提出一種基于集成學(xué)習(xí)和探空數(shù)據(jù)的短時強(qiáng)降水預(yù)報模型,以XGBoost(extreme gradient boosting)集成學(xué)習(xí)框架為基礎(chǔ)[21],將08:00 探空觀測的大氣層結(jié)和對短時強(qiáng)降水有指示意義的對流參數(shù)作為特征,構(gòu)建集成決策樹,利用長時間序列站點(diǎn)數(shù)據(jù)建立短時強(qiáng)降水客觀預(yù)報模型(以下稱預(yù)測模型)。
目前,人工智能尤其是新興的深度學(xué)習(xí)方法已在氣象預(yù)報任務(wù)上取得一定應(yīng)用成果[22-25]。但縱觀各類國際智能算法大賽不難發(fā)現(xiàn),同類算法在氣象領(lǐng)域中的應(yīng)用效果往往大打折扣。從氣象角度考慮,其原因主要有3點(diǎn):天氣發(fā)展具有一定的不可預(yù)報性,氣象觀測的局限性,天氣預(yù)報事件的不均衡性。強(qiáng)對流天氣預(yù)報中,不僅無法獲得強(qiáng)對流天氣發(fā)生前的大氣真實狀態(tài),有時甚至無法確定強(qiáng)對流天氣發(fā)生與否。這些都極大制約了客觀預(yù)報模型的準(zhǔn)確率。唐文苑等[26]指出對于致災(zāi)性強(qiáng)、極易造成經(jīng)濟(jì)損失和人員傷亡的強(qiáng)對流天氣預(yù)報業(yè)務(wù),在犧牲部分空報率的基礎(chǔ)上提高預(yù)報的準(zhǔn)確率,可以一定程度上有效提升預(yù)報服務(wù)效果,降低災(zāi)害性天氣的影響。受其啟發(fā),本文提出一種面向高影響氣象業(yè)務(wù)的人工智能模型優(yōu)化思路,即在提升模型TS評分的同時,更加關(guān)注預(yù)測錯誤的樣本分布。通過對模型的優(yōu)化,在總體上不增加錯誤預(yù)測數(shù)量的基礎(chǔ)上,減少漏報,增加空報,進(jìn)而提高模型的TS評分和命中率,提升模型的實際預(yù)報能力。
綜上所述,本文基于集成決策樹,使用探空數(shù)據(jù),構(gòu)建短時強(qiáng)降水客觀預(yù)報模型,提出并驗證一種面向高影響天氣的模型優(yōu)化方案。
集成學(xué)習(xí)指通過集成準(zhǔn)確且互補(bǔ)的基分類器,提高模型的泛化能力,獲得更優(yōu)的學(xué)習(xí)效果[27]。本文使用的XGBoost是一種基于GBDT(gradient boosting decision tree,梯度提升決策樹)的集成學(xué)習(xí)框架[21],BDT(boosting decision tree,提升決策樹)的模型優(yōu)化通過不斷增加決策樹實現(xiàn),其核心在于第n棵樹學(xué)的是前(n-1)棵樹預(yù)測結(jié)果和真實值的偏差(殘差),通過減小殘差,模型的學(xué)習(xí)能力得到提升。GBDT使用梯度下降法進(jìn)行BDT模型訓(xùn)練,在訓(xùn)練過程中,每一棵新的決策樹都在殘差減小的梯度方向上構(gòu)建,新決策樹的構(gòu)建使模型向提升準(zhǔn)確率的方向進(jìn)行優(yōu)化[28]。
本文在GBDT集成策略基礎(chǔ)上,通過優(yōu)化損失函數(shù),使模型更加關(guān)注預(yù)測錯誤的樣本分布,進(jìn)而在“寧空勿漏”的方向上構(gòu)建新的決策樹,最終在總體上不增加錯誤預(yù)測數(shù)量的基礎(chǔ)上,減少漏報,提高模型的命中率和TS評分。
XGBoost模型的訓(xùn)練過程就是通過最小化目標(biāo)函數(shù)找到最佳參數(shù)組。其目標(biāo)函數(shù)[21]為
(1)
(2)
將式(2)帶入式(1),可以得到模型在訓(xùn)練第K棵決策樹時的目標(biāo)函數(shù)為
(3)
損失函數(shù)是機(jī)器學(xué)習(xí)算法中最重要的要素之一,其核心是描述模型預(yù)測值和樣本真實值之間的偏差,并驅(qū)動模型向損失值減小的方向優(yōu)化。
表1給出的是模型預(yù)測值和樣本真實值之間的關(guān)系。其中TP和FN表示預(yù)測正確,TN表示漏報,F(xiàn)P表示空報。唐文苑等[26]指出對于高影響的強(qiáng)對流天氣,“寧空勿漏”的預(yù)報傾向,有助于提升預(yù)報服務(wù)的效果,降低災(zāi)害性天氣影響。本文以此出發(fā),考慮短時強(qiáng)降水預(yù)報任務(wù)的不確定性,當(dāng)模型無法做出正確預(yù)測時,通過優(yōu)化損失函數(shù),使模型的錯誤預(yù)測更多落在FP區(qū)域,即增多空報,減少漏報(提升命中率),使模型在實際預(yù)報任務(wù)中更有應(yīng)用價值。
表1 模型預(yù)測值和樣本真實值的關(guān)系Table 1 Relations between labels and predictions
在此基礎(chǔ)上,將損失函數(shù)寫成分段形式。通過給不同變量取值范圍增加權(quán)重系數(shù)的方式,調(diào)整模型預(yù)測的傾向性。模型輸出結(jié)果為事件發(fā)生概率,選擇0.5的預(yù)測值作為事件發(fā)生的概率閾值,超過閾值即判斷為短時強(qiáng)降水發(fā)生。則分段權(quán)重?fù)p失函數(shù)如下所示:
(4)
其中,wTP,wTN,wFP,wFN分別代表真實值和預(yù)測值落在TP,TN,F(xiàn)P和FN區(qū)域時的權(quán)重系數(shù)。當(dāng)wTP,wTN,wFP,wFN相等且取值為1時,分段權(quán)重?fù)p失函數(shù)和原損失函數(shù)等價。減小wFN,當(dāng)個例落在FN區(qū)間時,損失函數(shù)返回的損失值較小,使預(yù)測模型向傾向于預(yù)測發(fā)生方向優(yōu)化,最終預(yù)測結(jié)果會出現(xiàn)TP和FP數(shù)量上升,TN和FN數(shù)量下降。相反,減小wTP,預(yù)測模型則向傾向于預(yù)測未發(fā)生的方向優(yōu)化,最終預(yù)測結(jié)果會出現(xiàn)TN和FN上升,TP和FP數(shù)量下降。
(5)
為了驗證預(yù)測模型的地域適用性,本文選取我國119個探空站點(diǎn)作為試驗對象,分別收集2015—2019年6—9月的探空觀測和降水觀測,形成試驗數(shù)據(jù)全集。其中,每個探空站分別形成各自的站點(diǎn)試驗數(shù)據(jù)集。
本文使用08:00探空數(shù)據(jù)預(yù)測未來12 h短時強(qiáng)降水事件(不低于20 mm·h-1)。采用點(diǎn)到面[16]的檢驗方式,即將探空站周邊一定范圍內(nèi)的自動氣象站作為檢驗站,統(tǒng)計目標(biāo)事件的發(fā)生情況。在此種條件下,短時強(qiáng)降水事件是否發(fā)生取決于兩個因素:搜索范圍和出現(xiàn)短時強(qiáng)降水雨量站數(shù)量?;贖aklander等[29]和田付友等[17]的研究,本文確定搜索范圍為以探空站為中心的2°×2°矩形大小,出現(xiàn)短時強(qiáng)降水雨量站的記錄數(shù)閾值為2。以某日某個探空站的探空觀測記為1站次,當(dāng)該探空站周邊2°×2°范圍內(nèi),在未來12 h內(nèi),有兩個以上自動氣象站出現(xiàn)超過20 mm·h-1的降水時,記為1次短時強(qiáng)降水事件。
為了驗證模型的泛化能力,本文選取區(qū)域氣象中心周邊的7個探空站(烏魯木齊區(qū)域氣象中心由于短時強(qiáng)降水個例過少,無法形成有效的數(shù)據(jù)集),分別利用2017年、2018年、2019年站點(diǎn)試驗數(shù)據(jù)集構(gòu)建站點(diǎn)試驗數(shù)據(jù)子集,其中每個站點(diǎn)試驗數(shù)據(jù)子集包括學(xué)習(xí)集和獨(dú)立檢驗集,總共21個站點(diǎn)試驗數(shù)據(jù)子集(表2)。
表2 各探空站點(diǎn)試驗數(shù)據(jù)子集名稱Table 2 Data subset of sounding stations
本文選取的特征分為兩個組成部分:探空觀測的大氣層結(jié)和對流參數(shù)。其中大氣層結(jié)是業(yè)務(wù)中唯一基于直接觀測的高空數(shù)據(jù)(包括溫度、位勢高度、露點(diǎn)穩(wěn)定、風(fēng)速和風(fēng)向),在分析和診斷天氣形勢中有重要作用。對流參數(shù)選取和水汽、觸發(fā)條件、層結(jié)穩(wěn)定度相關(guān)的主要物理量[30-33]。同時,考慮到大部分的熱力穩(wěn)定度參數(shù)都有很強(qiáng)的相關(guān)性,為了避免模型的過擬合,本文排除一些參數(shù),如SI指數(shù)。此外,特征中也包括一些不利于短時強(qiáng)降水的對流參數(shù),如不同高度的水平風(fēng)垂直切變等。最終得到48個特征,如表3所示。
表3 特征量列表Table 3 Selected elements
為驗證損失函數(shù)中權(quán)重參數(shù)調(diào)整的有效性、泛化性,以及改進(jìn)后模型對于短時強(qiáng)降水事件的預(yù)報能力。本文設(shè)計兩組對比試驗方案,分段權(quán)重?fù)p失函數(shù)權(quán)重敏感性試驗和損失函數(shù)對比試驗,和一組全國范圍的預(yù)報試驗。選用命中率、空報率、漏報率、TS評分對預(yù)報結(jié)果進(jìn)行量化評估。本文在計算命中數(shù)(TP)、空報數(shù)(NP)和漏報數(shù)(TN)時,采用2.1節(jié)中介紹的點(diǎn)到面的檢驗方式。
XGBoost內(nèi)置算法參數(shù)不在本文討論范圍內(nèi),故所有對比試驗使用統(tǒng)一的算法參數(shù)。已調(diào)優(yōu)參數(shù)如表4所示,其余參數(shù)為默認(rèn)值。
表4 XGBoost模型參數(shù)Table 4 Parameters of XGBoost
3.2.1 試驗設(shè)計
本文設(shè)計權(quán)重參數(shù)的敏感性對比試驗,以驗證分段權(quán)重?fù)p失函數(shù)權(quán)重參數(shù)對模型預(yù)報能力影響。以標(biāo)準(zhǔn)MSE作為試驗的對照組,分別獨(dú)立改變wTP,wTN,wFP,wFN(步長為-0.1),進(jìn)行預(yù)報試驗。為消除數(shù)據(jù)集對于試驗的影響,對比試驗在北京(54511),上海(58362)、武漢(57494)、錦州(54337)、清遠(yuǎn)(59280)5個站點(diǎn)的15個站點(diǎn)試驗數(shù)據(jù)子集上進(jìn)行,共進(jìn)行15組對比試驗。
3.2.2 結(jié)果分析
圖1為分段權(quán)重?fù)p失函數(shù)在不同權(quán)重系數(shù)下,預(yù)測模型在15個試驗數(shù)據(jù)集上的檢驗結(jié)果,橫軸為各權(quán)重系數(shù)的取值,縱軸為檢驗指標(biāo)TS評分。對比wTP評分圖可以看出,隨著wTP減小,預(yù)測模型偏向保守型預(yù)報,即“寧漏勿空”。命中數(shù)和空報數(shù)減小,命中率和TS評分隨之下降,由于命中數(shù)和空報數(shù)同時降低,故空報率沒有明顯變化。當(dāng)wTP<0.5時,命中數(shù)和空報數(shù)減少一半,模型的預(yù)報能力比較差。當(dāng)wTP在0.8~0.9取值范圍內(nèi)時,預(yù)測模型在基本維持命中率的基礎(chǔ)上,空報數(shù)略有減少,TS評分略有上升。對比wFN評分圖可以看到,隨著wFN減小,預(yù)測模型偏向激進(jìn)型預(yù)報,有明顯的“寧空勿漏”傾向。命中數(shù)和空報數(shù)上升,命中率和空報率隨之上升。當(dāng)wFN在0.2~0.4的取值范圍內(nèi),命中率普遍超過0.6,在一些數(shù)據(jù)集上,甚至超過0.9。此時空報率位于0.3~0.5,TS評分略有上升。對比wTN和wFP評分圖可以看出,wTN和wFP對于預(yù)測模型的性能影響不大,這主要是因為在模型訓(xùn)練過程中,落在TN和FP區(qū)間的個例數(shù)相對較少,所以這部分損失值的變化很難影響到整個模型的訓(xùn)練結(jié)果。
圖1 分段權(quán)重?fù)p失函數(shù)權(quán)重敏感性分析試驗檢驗結(jié)果Fig.1 Result of sensitivity analysis test of weighted piecewise loss function
綜合對比圖1可以看到,預(yù)測模型在15組對比試驗中,均表現(xiàn)出相似的變化。這表明調(diào)整權(quán)重影響對于預(yù)測模型的傾向性具有一定泛化能力。其中,減小wTP會減少模型的命中數(shù)和空報數(shù);減小wFN會提高模型的命中數(shù)和空報數(shù);wTN和wFP對預(yù)測模型影響較小。
綜上所述,wTP取值為0.8~1.0,wFN取值為0.3~0.5,wTN和wFP取值為1時,模型的空報率不超過0.5,命中率明顯上升,TS評分略有提高,模型表現(xiàn)出明顯的“寧空勿漏”傾向。同時,不同站之間的最優(yōu)權(quán)重參數(shù)取值略有不同,實際訓(xùn)練模型時,可以在確定空報率閾值的基礎(chǔ)上,針對具體站點(diǎn)進(jìn)行進(jìn)一步調(diào)優(yōu)。
3.3.1 對比試驗設(shè)計
本文設(shè)計了損失函數(shù)對比分析試驗。以XGBoost框架中常用的Logloss(對數(shù)損失函數(shù),見式(6)和MSE損失函數(shù)作為試驗對照組,驗證分段權(quán)重?fù)p失函數(shù)(見式(4))模型的預(yù)報能力。為消除數(shù)據(jù)集對試驗結(jié)果的影響,對比試驗在北京(54511)、上海(58362)、武漢(57494)、錦州(54337)、清遠(yuǎn)(59280)、溫江(56187)和渝中(52983)7個探空站的21個站點(diǎn)試驗數(shù)據(jù)子集上進(jìn)行,共21組對比試驗。所有試驗中,分段權(quán)重?fù)p失函數(shù)使用統(tǒng)一的權(quán)重參數(shù)配置方案:wTP=1.0,wTN=1.0,wFP=1.0,wFN=0.4。
(6)
3.3.2 結(jié)果分析
圖2為損失函數(shù)對比試驗的檢驗結(jié)果,表5給出的是以站點(diǎn)區(qū)分的平均檢驗結(jié)果。由圖2a和表5可以看出,在21組對比試驗中,有18組試驗分段權(quán)重?fù)p失函數(shù)模型的TS評分都高于試驗對照組。其中,渝中站改進(jìn)最為明顯,TS評分提高0.11,其他站點(diǎn)也有0.05左右的提升。由圖2b和表5可以看出,分段權(quán)重?fù)p失函數(shù)模型的準(zhǔn)確率在所有站點(diǎn)都有較大幅度的提升。由圖2c和表5可以看到,分段權(quán)重?fù)p失函數(shù)模型的空報率略有上升(約0.05~0.1),但上升幅度明顯小于命中率,除錦州站外平均空報率不超過0.5。對比圖2和表5可以看到,改進(jìn)后的預(yù)測模型在21組對比試驗中,均表現(xiàn)出相似的優(yōu)化結(jié)果,表明本文提出的改進(jìn)方案具有一定的泛化性能。總體上看,渝中站和錦州站的TS評分較低,這主要是由于短時強(qiáng)降水個例偏少,模型無法學(xué)習(xí)到有效的特征信息所致。綜上所述,改進(jìn)后的預(yù)測模型,在TS評分略有升高、命中率大幅提升的基礎(chǔ)上,空報率略有升高,預(yù)報能力明顯加強(qiáng)。預(yù)測模型的改進(jìn)符合對分段權(quán)重?fù)p失函數(shù)優(yōu)化的預(yù)期,且表現(xiàn)出一定的泛化能力。
圖2 損失函數(shù)對比試驗檢驗結(jié)果 (a)TS評分,(b)命中率,(c)空報率Fig.2 Comparison test of loss function(a)threat score,(b)probability of detection,(c)false alarm rate
續(xù)圖2
表5 站點(diǎn)平均檢驗結(jié)果Table 5 Average result of comparison test of loss function at each sounding station
續(xù)表5
此外,改進(jìn)模型在不同站點(diǎn)呈現(xiàn)出不同的優(yōu)化能力,這可能是由于本文未針對指定站點(diǎn)進(jìn)行參數(shù)優(yōu)化。針對不同站點(diǎn)定制參數(shù)調(diào)優(yōu),可進(jìn)一步改進(jìn)效果。
3.4.1 預(yù)報試驗設(shè)計
基于改進(jìn)的預(yù)測模型,使用“試驗2019” 數(shù)據(jù)集對我國119個探空站分別建模,進(jìn)行全國范圍的短時強(qiáng)降水預(yù)報試驗。所有站點(diǎn)的分段權(quán)重?fù)p失函數(shù)使用統(tǒng)一的權(quán)重參數(shù)配置方案:wTP=1.0,wTN=1.0,wFP=1.0,wFN=0.4。
3.4.2 個例檢驗結(jié)果
2019年6月20—25日,我國受到高空槽、低層切變線和低層急流的共同影響,在西南地區(qū)東部、黃淮西部、江南、華南等地,出現(xiàn)一次自北向南的區(qū)域性短時強(qiáng)降水過程[34]。圖3為6月21—24日08:00 模型預(yù)測的12 h短時強(qiáng)降水預(yù)報和實況疊加圖,圖中淺灰色實心圓為未來12 h內(nèi)出現(xiàn)20 mm·h-1以上降水的站點(diǎn)。綜合圖3可以看到,受大尺度天氣系統(tǒng)影響, 21日短時強(qiáng)降水雨帶位于長江中下游沿線,隨著850 hPa切變線的南壓,雨帶整體向南移動,到23—24日雨帶維持在東南沿海地區(qū)。對比模型的客觀預(yù)報結(jié)果可以看到,模型對于主體雨帶的預(yù)報較好,說明通過對歷史數(shù)據(jù)的建模,模型具備一定的短時強(qiáng)降水事件預(yù)報能力。由圖3a、圖3b可以看到,模型的空報主要出現(xiàn)在東南沿海地區(qū),這主要是由于本次過程前期,底層切變線維持在西南地區(qū)東部至長江南部,東南沿海一直處于西南氣流中,大氣濕度條件較好,且東南沿海站點(diǎn)的歷史短時強(qiáng)降水日數(shù)較多,使預(yù)報結(jié)果出現(xiàn)一定范圍的空報。圖3還可以看出,漏報主要集中在主體雨帶的西北部。另外,在本次過程中,模型對于零星的短時強(qiáng)降水點(diǎn)預(yù)報效果不佳。通過定量化檢驗,本次過程預(yù)報模型的命中率為0.64,空報率為0.38,漏報率為0.36,TS評分為0.46。
3.4.3 長時間序列檢驗結(jié)果
本文使用“試驗2019”數(shù)據(jù)集,進(jìn)行長時間序列的全國短時強(qiáng)降水預(yù)報試驗,并給出同時間段08:00 起報的GRAPES_3 km短時強(qiáng)降水預(yù)報檢驗結(jié)果。在GRAPES_3 km檢驗時,先將GRAPES_3 km的格點(diǎn)預(yù)報轉(zhuǎn)換到探空站點(diǎn)上,再使用2.1節(jié)的方法進(jìn)行預(yù)報檢驗,具體方法:①首先在每一格點(diǎn)上,取GRAPES_3 km 1~12 h的小時降水量的最大值,得到未來12 h內(nèi)最大的小時降水量預(yù)報場;②統(tǒng)計探空站周邊2°×2°范圍內(nèi),最大小時降水量預(yù)報超過20 mm的格點(diǎn)數(shù),當(dāng)格點(diǎn)數(shù)不低于2時,則記錄為一次短時強(qiáng)降水預(yù)報;③使用2.1節(jié)中的方法,進(jìn)行預(yù)報檢驗。
以某一日某個站的探空觀測記錄為1站次,則在 “試驗2019”檢驗集中共得到14389站次數(shù)據(jù),其中發(fā)生短時強(qiáng)降水事件2579站次,表6給出預(yù)測模型和GRAPES_3 km模式的2019年檢驗集檢驗結(jié)果。其中,預(yù)測模型命中短時強(qiáng)降水事件1693站次,命中率為0.66,空報短時強(qiáng)降水事件1004站次,空報率為0.37, TS評分為0.47。GRAPES_3 km,命中1806站次,命中率為0.7,空報2040站次,空報率為0.53,TS評分為0.39。通過對比可以發(fā)現(xiàn),預(yù)測模型雖然命中數(shù)少113站次,但是空報少1036站次,TS評分較GRAPES_3 km提高0.08,總體上看,預(yù)測模型的短時強(qiáng)降水預(yù)報能力更強(qiáng)。
圖3 2019年6月21—24日08:00 12 h短時強(qiáng)降水預(yù)報和實況對比(a)6月21日,(b)6月22日,(c)6月23日,(d)6月24日Fig.3 Comparison between observation and 12 h forecast at 0800 BT from 21 Jun to 24 Jun in 2019(a)21 Jun,(b)22 Jun,(c)23 Jun,(d)24 Jun
表6 2019年檢驗集長檢驗結(jié)果Table 6 Quantitative validation of prediction model on 2019 dataset
本文介紹一種基于集成決策樹的短時強(qiáng)降水預(yù)報模型。該模型以08:00探空觀測和常用對流參數(shù)為特征,預(yù)報未來12 h短時強(qiáng)降水事件。在此基礎(chǔ)上,提出一種面向高影響天氣的模型優(yōu)化思路,即通過分段損失函數(shù)調(diào)整模型“寧空勿漏”的預(yù)報傾向,在控制空報率不超過一定閾值的基礎(chǔ)上,最大程度提升模型的預(yù)報命中率和TS評分。通過區(qū)域中心探空站的權(quán)重敏感性試驗、損失函數(shù)對比試驗,以及全國探空站的短時強(qiáng)降水預(yù)報試驗,得到以下結(jié)論:
1) 使用分段權(quán)重MSE作為模型的損失函數(shù),通過權(quán)重系數(shù)的調(diào)整,可以有效引導(dǎo)模型向傾向預(yù)測發(fā)生(positive)或傾向預(yù)測不發(fā)生(negative)的方向優(yōu)化,進(jìn)而使最終預(yù)測模型獲得一定預(yù)報傾向。
2) 減小wTP會明顯減少模型預(yù)測的命中數(shù)和空報數(shù),模型有“寧漏勿空”傾向;減小wFN會明顯增加模型預(yù)測的命中數(shù)和空報數(shù),模型有“寧空勿漏”傾向;wTN和wFP對預(yù)測模型影響較小。
3) 通過7個區(qū)域中心探空站共21組試驗數(shù)據(jù)驗證,改進(jìn)后的模型和常規(guī)模型相比,TS評分提高0.05~0.1,命中率提高0.10以上,空報率提高0.05~0.1,表現(xiàn)出明顯的“寧空勿漏”預(yù)報傾向,預(yù)測模型的實際預(yù)報能力得到明顯提升,且優(yōu)化方案表現(xiàn)出一定的泛化能力。
4) 全國短時強(qiáng)降水預(yù)報試驗的獨(dú)立檢驗表明:改進(jìn)后的預(yù)報模型在2019年獨(dú)立檢驗集上,命中率為0.66,空報率為0.37,TS評分為0.47,該模型具備一定的短時強(qiáng)降水天氣預(yù)報能力。
本文的預(yù)報試驗存在以下局限性:08:00探空無法準(zhǔn)確描述午后大氣的垂直結(jié)構(gòu),導(dǎo)致預(yù)報試驗本身存在一定的不確定性;通過多組試驗發(fā)現(xiàn),不同試驗組構(gòu)建模型的特征重要性差異較大,即便在同一站同一組數(shù)據(jù)中,使用不同模型參數(shù)可能得到大相徑庭的特征,所以如何使用模型反推驗證短時強(qiáng)降水機(jī)制還有待進(jìn)一步研究。此外,本文方法所給出的短時強(qiáng)降水預(yù)報,具有范圍大、預(yù)報時間長等特點(diǎn)。在實際預(yù)報中,還需要預(yù)報員利用雷達(dá)、衛(wèi)星、閃電、自動站等多源數(shù)據(jù)進(jìn)一步分析,以得到更為精準(zhǔn)的預(yù)報落區(qū)。
在今后工作中,可從原始數(shù)據(jù)上繼續(xù)優(yōu)化模型,如使用14:00加密探空數(shù)據(jù)構(gòu)建模型;或基于模式探空構(gòu)建模型,形成格點(diǎn)化的預(yù)報產(chǎn)品;也可以考慮建立模型預(yù)測的事件發(fā)生概率值和實際短時強(qiáng)降水發(fā)生概率的映射關(guān)系,得到格點(diǎn)化的概率產(chǎn)品。
致 謝:感謝國家氣象中心鄭永光研究員和關(guān)良助理工程師提供短時強(qiáng)降水站點(diǎn)數(shù)據(jù)集。