亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

集成學習和動態(tài)融合算法在福建省短時強降水預報中的應用*

2024-02-06 02:57:58陳錦鵬黃奕丹程晶晶1楊德南2

氣象 2024年1期

關(guān)鍵詞：特征模型

陳錦鵬黃奕丹朱婧林輝程晶晶1, 楊德南2,

1 廈門市海峽氣象開放重點實驗室,廈門 361012 2 福建省災害天氣重點實驗室,福州 350001 3 福建省漳州市氣象局,漳州 363005 4 集美區(qū)氣象局,廈門 361021

提要：為了提高短時強降水預報準確性,在2019—2020年4—9月福建省逐時降水實況觀測資料與中國氣象局廣東快速更新同化數(shù)值預報系統(tǒng)(CMA-GD)模式預報產(chǎn)品的基礎(chǔ)上,應用LightGBM集成學習算法框架,建立以30 mm·h-1為閾值的逐時降水預報模型。通過特征處理、自助聚合及超參數(shù)搜索等技術(shù)對模型進行優(yōu)化,結(jié)合AUC、AUPR與傳統(tǒng)分類指標,設計了包括業(yè)務模擬測試在內(nèi)的多項試驗,通過對比各建模方案驗證了模型對于較長時效的短時強降水預報的適用性。結(jié)果表明:模式預報本身的命中率和空報率均較高,各建模方案具有不同程度的改善作用。自助聚合可以增強模型預測穩(wěn)定性,輕微不平衡子訓練集能降低模型預測空報率而取得更高的綜合評分,在驗證集中最佳TS評分可達17.5%;對分類信息增益貢獻最大的特征變量為K指數(shù),其次為500 hPa露點溫度和時間參數(shù)特征;試驗指標從優(yōu)到劣依次為:隨機交叉驗證、小時劃分的隨機交叉驗證、業(yè)務模擬測試,可見模型有效性主要來自相同或相鄰時刻的樣本信息;設計基于邏輯回歸的異質(zhì)模型動態(tài)融合方案以改善靜態(tài)同質(zhì)模型表現(xiàn),各項指標均有小幅提升,在命中率接近50%時削減空報樣本超過52萬個。

引言

短時強降水是福建汛期內(nèi)較常發(fā)生的強對流天氣之一,這種極端降水天氣主要由超級單體和中尺度對流系統(tǒng)(MCS)造成(章麗娜等,2014)。隨著高分辨率中尺度數(shù)值模式在短時臨近預報預警業(yè)務中的廣泛應用,對于短時強降水預報的客觀訂正技術(shù)需求也日益迫切。結(jié)合福建省業(yè)務標準,將小時雨強超過30 mm·h-1的降水事件定為短時強降水。從全年的逐時數(shù)據(jù)來看,短時強降水的樣本比例極低。盡管過去大多數(shù)研究是基于逐日降水資料開展的,但是逐時降水數(shù)據(jù)能反映出更加精細的特征(李德帥,2016)。另外,在降水事件時間尺度為 1 h 的情況下其非線性和隨機性特點將進一步放大,加大了預報訂正的難度。

與降水客觀預報訂正技術(shù)相關(guān)的研究工作逐年增多。唐健等(2018)實現(xiàn)了主客觀融合定量降水預報(QPF)平臺,其中包括多模式QPF集成技術(shù)與QPF預報場調(diào)整和訂正技術(shù)等,對預報業(yè)務起到了良好的支撐作用;唐冶等(2021)采用消空訂正方案對新疆區(qū)域數(shù)值天氣預報系統(tǒng)DOGRAFS的降水預報產(chǎn)品進行訂正,小幅提高了晴雨準確率和TS評分;張華龍等(2021)基于因子分析法構(gòu)建分期、分區(qū)短時強降水逐6 h格點概率預報模型,在汛期業(yè)務試驗中相對于模式預報提升較大,尤其對于容易漏報的暖區(qū)短時強降水具有明顯優(yōu)勢;張武龍等(2021)通過時間滯后集合預報方法構(gòu)建多個不同權(quán)重系數(shù)的集合成員進行逐小時降水預報,發(fā)現(xiàn)晴雨TS評分提升了10%左右,且有效減小了模式空報率;洪偉和鄭玉蘭(2018)在分析福建前汛期短時強降水發(fā)生背景下模式預報物理量分布特征的基礎(chǔ)上,建立基于閾值判定方法的短時強降水預報模型,對福建西部關(guān)鍵區(qū)的TS評分白天可達0.5、夜間約為0.3;危國飛等(2020)設計了全球模式與區(qū)域模式相結(jié)合的降水分級最優(yōu)化權(quán)重集成預報算法,24 h 累計降水預報TS評分比主觀預報高出0.9%～2.3%;趙淵明和漆梁波(2021)基于上游降水實況與模式預報的匹配程度,設計動態(tài)權(quán)重多模式短時臨近定量降水概率預報方法,有效提高定量降水概率預報的準確性;潘留杰等(2022)基于卡爾曼濾波方法動態(tài)匹配預報和觀測降水頻率進行降水預報訂正,發(fā)現(xiàn)能夠改善模式對小量級降水預報偏大、大量級降水預報偏小的現(xiàn)象。但總體上,精細到逐小時降水的客觀預報方法研究仍相對較少。

近年來,以神經(jīng)網(wǎng)絡為代表的機器學習方法逐漸展現(xiàn)出在強對流預測方面的潛力。金子琪等(2021)采用卷積神經(jīng)網(wǎng)絡算法構(gòu)建颮線識別模型,揭示了該算法能夠?qū)W習并識別颮線和非颮線回波的圖像特征;黃驕文等(2021)構(gòu)建基于深度學習網(wǎng)絡的降水相態(tài)判識模型,針對兩年數(shù)據(jù)以及一次大范圍雨雪天氣過程進行檢驗,判識準確率為98.2%,雨、雪的TS評分分別為97.4%和94.4%,較傳統(tǒng)指標閾值法的判識準確率有較大提高;張燁方等(2021)以卷積神經(jīng)網(wǎng)絡模型為基礎(chǔ),結(jié)合多個時間序列的雷達產(chǎn)品與閃電數(shù)據(jù)研發(fā)雷電臨近預報方法,與常規(guī)采用雷達、閃電閾值控制的雷電預警算法相比準確率有所提高;韓豐等(2021)以大氣層結(jié)和對流參數(shù)作為特征參數(shù),基于XGBoost集成學習方法建立短時強降水預報模型,同時使用分段權(quán)重損失函數(shù)進行模型調(diào)優(yōu),命中率為0.65、空報率為0.37、TS評分為0.47,表明模型對短時強降水天氣具有一定預報能力。

集成學習(ensemble learning)是機器學習領(lǐng)域最熱門的研究方向之一,基本思想是通過提升(boosting)、自助聚合(Bagging)和推疊(stacking)等方式將多個弱學習器進行組合以獲得比單一模型更好的表現(xiàn)和更小的誤差(余東昌等,2021),其中梯度提升決策樹(gradient boosting decision tree,GBDT)算法在分類、回歸、排序等問題上取得了優(yōu)異的性能,在學術(shù)界和工業(yè)界中被廣泛使用(江佳偉等,2019)。輕量梯度提升機(light gradient boosting machine,LightGBM)則是在GBDT的基礎(chǔ)上引入多項優(yōu)化技術(shù)進行改進和提升的一種算法框架,主要目的在于解決高維度大樣本數(shù)據(jù)運行耗時及可拓展性差的問題(劉新偉等,2021),具備內(nèi)存占用少、并行化學習和準確率較高的優(yōu)點。在幾乎相同的精度上,LightGBM可以使傳統(tǒng)GBDT的訓練過程加速20倍以上(Ke et al,2017),自2016年開源以來逐漸成為Kaggle等數(shù)據(jù)挖掘競賽中的奪冠熱門算法。

本研究應用LightGBM集成學習算法框架建立逐小時的短時強降水預報模型,在特征處理、自助聚合以及超參數(shù)搜索等模型優(yōu)化技術(shù)的基礎(chǔ)上,通過多項對比試驗對不同方案下的模型預測能力進行評估,并針對業(yè)務實踐中的應用難點設計了基于邏輯回歸的異質(zhì)模型動態(tài)融合方案,在一定程度上提高了長時效、精細化的短時強降水預報能力,為集成學習與模型融合方法在數(shù)值預報訂正中的應用提供了有益參考。

1 資料

1.1 實況資料

選取2019—2020年4—9月福建地區(qū)的逐小時自動站觀測數(shù)據(jù)作為實況資料,全省自動站數(shù)量約為2200個。2019年和2020年收集到的有效樣本數(shù)分別為4 491 604個和4 368 497個。其中,2019年作為建模所用的已知的訓練集和驗證集,而2020年作為未知的測試集,旨在最大限度模擬實際業(yè)務情況下模型的表現(xiàn)。以30 mm·h-1為閾值將實況資料劃分為正負類樣本,其中≥30 mm·h-1為正樣本,具體分布如表1。從樣本比例來看,實況資料具有極端不平衡的特點,短時強降水屬于極小概率事件,后續(xù)試驗將會對此問題進行探討。

表1 2019年和2020年的正負類樣本數(shù)量

1.2 預報資料

在中國氣象局廣東快速更新同化數(shù)值預報系統(tǒng)(CMA-GD)模式預報的基礎(chǔ)上開展訂正試驗。該模式預報產(chǎn)品的空間分辨率約為0.03°×0.03°,預報間隔為1 h,每日起報時次為08時和20時(北京時,下同)。以當日白天的短時強降水潛勢預報為例,由于計算耗時、傳輸延遲等因素,一般只能參考前日20時起報的CMA-GD模式產(chǎn)品。因此選擇2019年和2020年4—9月、預報時效為18～23 h(預報時段只涵蓋了下午至傍晚及后半夜)的預報產(chǎn)品,其預報變量主要有各等壓面層的溫度、位勢高度、相對濕度、露點溫度、水平風場、垂直速度、沙氏指數(shù)和K指數(shù)等。以觀測站點為中心,應用最鄰近16點平均插值計算對應于該站點的特征變量。如此得到的“點”特征稱為結(jié)構(gòu)化特征,便于集成學習模型訓練。另外,由于數(shù)值模式升級或氣候背景變化,2019年和2020年的數(shù)據(jù)分布規(guī)律可能會存在差異,稱為數(shù)據(jù)漂移,因此訂正模型需要具備一定的泛化能力以適應新的數(shù)據(jù)。

2 方法

2.1 LightGBM集成學習算法框架與建模思路

集成學習是指通過訓練與集成多個弱分類器來提高最終學習效果的一種技術(shù)(李勇等,2014),本研究具體采用LightGBM算法框架進行建模。LightGBM作為集成學習代表性算法之一,其基本原理是通過梯度下降法不斷擬合殘差(真實值與預測值的偏差)來迭代學習的決策樹,再將所有決策樹的單獨預測進行相加即得最終結(jié)果,因此可以由如下公式表示:

(1)

式中:X代表輸入特征變量,T代表決策樹,Θn為決策樹的超參數(shù)(如最大深度、葉子節(jié)點數(shù)等),N為決策樹的個數(shù)。LightGBM應用了兩種創(chuàng)新性采樣技術(shù):基于梯度的單側(cè)采樣(gradient-based one-side sampling)和互斥特征捆綁(exclusive feature bundling)。前者可以縮減用于計算信息增益的樣本數(shù)量,后者則能減少用于參與分裂點篩選計算的特征數(shù)量(任師攀和彭一寧,2020)。

在具體算法應用中,對于t時刻至t+1時刻的多個站點累計雨量P,依托LightGBM建模工具包來挖掘與t時刻模式預報的結(jié)構(gòu)化特征變量X之間的隱含關(guān)系,即假設存在P=f(X)+ε,其中ε代表預測誤差。這樣的建模思路不僅可以大幅增加樣本數(shù)據(jù)量,而且不會受到外推時效的制約,能夠在數(shù)值模式的基礎(chǔ)上進行較長時效的預報。

2.2 特征處理

對2019年特征變量進行標準化處理,再利用其均值和標準差對2020年特征變量做相同變換。由于短時強降水在不同的季節(jié)具有不同的日變化規(guī)律(付超等,2019),為了讓模型盡可能地捕捉到這種規(guī)律以增強待挖掘的映射關(guān)系,在原始特征的基礎(chǔ)上添加時間參數(shù)特征,具體包括距離當年1月1日的天數(shù)(日期參數(shù))和降水所在的時刻(時刻參數(shù))。

最后根據(jù)皮爾遜相關(guān)系數(shù)大小進行特征過濾。分析特征變量兩兩之間的相關(guān)系數(shù),以0.95為判斷閾值,選擇兩個強線性相關(guān)特征變量中的一個進行剔除,從而減少建模過程中的冗余數(shù)據(jù)與過擬合現(xiàn)象對模型的不利影響。

2.3 分層K折交叉驗證與自助聚合

數(shù)據(jù)采樣和模型訓練過程中均不可避免地存在隨機性。為了增加試驗結(jié)果的可信度以及提高樣本數(shù)據(jù)利用率,有關(guān)2019年數(shù)據(jù)的試驗中采用隨機分層4折交叉驗證:將數(shù)據(jù)集進行隨機采樣而劃分為4份,且保持每份子集中的正負樣本比例與全集基本一致,每次試驗取其中3份作為訓練集,剩余1份作為驗證集以跟蹤模型性能變化,最后取4次試驗結(jié)果的平均值進行分析。

針對逐小時降水樣本極端不平衡的問題,可以采用自助聚合(bootstrap aggregating,簡稱Bagging)方法緩解其不利影響。在訓練集中,對大數(shù)量負樣本隨機采樣N次,每次采樣數(shù)與正樣本數(shù)的比例為P,然后與同一份正樣本組成子訓練集,且通過調(diào)節(jié)N和P可在一定程度上提高樣本利用率與削弱樣本不平衡程度。相比于單純的平衡欠采樣,經(jīng)過Bagging處理后的數(shù)據(jù)利用率至少增加了(N-1)/2倍。基于N份子訓練集可訓練出N個超參數(shù)不同的同質(zhì)基模型,再對每個基模型的預測結(jié)果進行平均。

2.4 模型跟蹤指標

利用模型輸出的概率預測結(jié)果對逐時降水進行分類預報,會涉及到分類閾值的問題,傳統(tǒng)的檢驗指標(如TS評分、命中率POD和空報率FAR等)會隨分類閾值變化而變化。當閾值較低時,命中率提高,空報率也隨之增加,反之則都會降低,因此傳統(tǒng)的檢驗指標不利于實時跟蹤和評估模型性能隨訓練代數(shù)的變化。引入受試者工作特征曲線(receiver operating characteristic curve,ROC)曲線下面積(area under ROC curve,AUC)、精準率和召回率曲線(precision-recall curve,PR)曲線下面積(area under PR curve,AUPR)來解決該問題。ROC曲線和PR曲線均是指遍歷所有分類概率閾值后由相應坐標系中的散點所連成的曲線。其中,ROC曲線以偽陽性率(false positive rate,FPR)為橫坐標,以真陽性率(true positive rate,TPR)為縱坐標;而PR曲線是以召回率Recall為橫坐標,以精準率Precision為縱坐標(黃蘇琦,2020)。其中,TPR與召回率是一致的,等同于氣象業(yè)務檢驗中常用的命中率POD,而精準率與空報率之和為1。當AUC為0.5 時說明預測完全是隨機的;AUC在0.5以上才能說明模型具有正向預測價值;AUC和AUPR越接近1,則模型整體的預測效果越趨于完美。在正負樣本不平衡的分類問題中,PR曲線與ROC曲線的評價結(jié)果并不一致,PR曲線更能突出不同算法之間的性能差異(Davis and Goadrich,2006),其縱軸也更加貼近氣象業(yè)務檢驗習慣。

3 分析

3.1 模式預報檢驗

分別對2019年和2020年CMA-GD模式預報進行以30 mm·h-1為閾值的二分類檢驗。2020年的AUC為0.7577,高于2019年的0.7022;但從更具參考意義的AUPR來看,2019年的0.2354略高于2020年的0.2178。

傳統(tǒng)的分類檢驗指標與分類閾值密切相關(guān),從命中率、空報率、TS評分和FPR隨分類閾值變化(圖1)的角度來對比兩者表現(xiàn)。可以發(fā)現(xiàn),2019年和2020年模式預報的命中率變化曲線基本重合,但在分類閾值接近30 mm·h-1時后者仍保持在47%以上,略高于2019年;對于空報率和TS評分而言,2020年模式預報均顯著優(yōu)于2019年,側(cè)面反映了在極端不平衡數(shù)據(jù)中空報情況對TS評分影響很大;2019年模式預報的FPR略優(yōu)于2020年。整體來看模式對逐小時強降水預報仍不夠理想,業(yè)務應用存在困難。

圖1 2019年和2020年CMA-GD模式預報檢驗指標隨分類閾值的變化

3.2 基于LightGBM的建模方案與超參數(shù)優(yōu)化

在2019年數(shù)據(jù)集上訓練模型和調(diào)整超參數(shù)。通過隨機4折交叉驗證將2019年數(shù)據(jù)集劃分為75%的訓練集和25%的驗證集。驗證集作為模型未曾學習過的陌生數(shù)據(jù),跟蹤其指標變化能夠在一定程度上反映模型的過擬合程度,還可以為模型的超參數(shù)調(diào)優(yōu)提供必不可少的參考依據(jù)。

在訓練集的全部樣本數(shù)據(jù)直接用于建模的情況下,由于過度擬合極端不平衡數(shù)據(jù),模型性能變得極不穩(wěn)定,驗證集變化曲線大幅波動,即模型失效(圖略)。因此需應用Bagging方法進行處理,設定子模型數(shù)量為3個,采樣的正負樣本比例為1。不同的超參數(shù)組合對模型表現(xiàn)影響極大,最大深度和葉子節(jié)點數(shù)從小到大意味著模型擬合能力越來越強,但泛化能力可能下降。如圖2所示,Bagging采樣融合方法帶來的最大改變是模型在驗證集上的穩(wěn)定性大大增加,AUC與AUPR均隨著訓練次數(shù)增加而大致趨于收斂。同時注意到AUC和AUPR變化曲線均呈“V”形。當超參數(shù)較小時(圖2a,2b),前5代以內(nèi)的模型反而取得了較高的AUC和AUPR,這主要是因為此時模型擬合能力偏弱、泛化能力偏強而具有高命中率的特點導致的。隨著訓練代數(shù)的增加,模型擬合能力逐漸增強,AUC和AUPR也有所回調(diào),隱含了模型擬合能力與泛化能力相互制約的關(guān)系。

圖2 不同超參數(shù)的模型在驗證集上的AUC與AUPR

相比于模式預報在驗證集上的AUC為0.706,不同超參數(shù)組合的訂正模型在該項指標上均有顯著提升,且表現(xiàn)出隨著模型超參數(shù)增大而小幅增加的趨勢。另外,模式預報的AUPR為0.114,當最大深度和葉子節(jié)點數(shù)較大時模型的該項指標有所下滑,逐漸劣于數(shù)值模式。

為了進一步改善模型表現(xiàn),嘗試對Bagging采樣的樣本比例進行調(diào)節(jié)。以最大深度為8、葉子節(jié)點數(shù)為22的訂正模型為研究對象,當負類樣本數(shù)與正類樣本數(shù)之比P逐漸增大時,AUC與AUPR均有不同程度提高,AUPR尤其顯著(圖3)。當P=6時AUC最大值超過0.97,P=10時AUPR最大值超過0.2,且注意到此時模型還存在繼續(xù)訓練的潛力,表明了模型能夠從輕微不平衡訓練集中學習到比平衡訓練集更多的數(shù)據(jù)信息。

圖3 不同P值下輕微不平衡采樣的模型在驗證集上的AUC與AUPR

分析基于輕微不平衡與平衡采樣訓練集的建模方案在傳統(tǒng)分類指標上的差異。從圖4可以看到,平衡方案的優(yōu)勢在于高命中率,除此之外的其他指標在全部概率分類閾值上均劣于輕微不平衡方案。以P=10為例,當分類閾值達到0.8以上時,命中率快速下滑至30%左右,同時空報率也降低至約70%,TS評分則快速上升至超過17.5%,FPR則變化不大,整體保持在10%以下。由此可見,面對極端不平衡的數(shù)據(jù)集,提高預測TS評分的關(guān)鍵和難點在于降低空報率。

圖4 不同Bagging采樣比例的LightGBM模型預報檢驗指標對比

基于LightGBM的訂正模型在訓練完成后可從累計信息增益的角度統(tǒng)計特征重要性。信息增益g的公式如下:

g(D,A)=H(D)-H(D|A)

(2)

其中

(3)

式中:D和A分別表示待分類數(shù)據(jù)和分類條件,H表示信息熵,n為類別數(shù)(二分類中為2),p(xi)為該類別事件發(fā)生概率。對輕微不平衡模型而言,排序前十的特征變量如表2所示,最重要的特征變量為K指數(shù),且重要性遠遠大于之后的特征變量,可見K指數(shù)對于模型預測的指示意義最佳。其次為500 hPa露點溫度,第三和第四分別為自定義添加的時間特征——時刻參數(shù)和日期參數(shù),表明了日變化和年變化規(guī)律的挖掘?qū)τ谀Ｐ皖A測具有較大的幫助。另外,700 hPa以上經(jīng)向風、中高層位勢高度與850 hPa相對濕度也占據(jù)一定的重要性。

表2 模型特征重要性前十排序

3.3 訂正模型的有效性分析

上述建模與調(diào)參試驗中均無視數(shù)據(jù)集中存在的時間關(guān)系而進行隨機交叉驗證,為了進一步分析輕微不平衡模型的有效性來源以及在具有時間關(guān)系的業(yè)務模擬中的表現(xiàn),分別設計2019年小時劃分的交叉驗證試驗以及2020年測試集試驗,模型超參數(shù)設為:最大深度為8、葉子節(jié)點數(shù)為22、子模型數(shù)為3、負類與正類樣本之比為10。

同樣基于2019年數(shù)據(jù)集,小時隨機交叉驗證與3.2節(jié)中隨機交叉驗證的最大不同在于,模型無法從訓練集中學習到與驗證集中所屬同一小時的樣本數(shù)據(jù),從而避免了時間上的信息泄露。在這種情況下,模型預測能力明顯下降,尤其是AUPR最高僅為0.024,幾乎縮減了一個數(shù)量級(圖5a),此時最高TS評分只有3.671%,命中率下降至10.959%,空報率也升高至94.768%。不難發(fā)現(xiàn),同一小時內(nèi)的樣本信息對模型能力提升的貢獻極大,即便是相鄰時刻的樣本也難以彌補其作用。換言之,該試驗驗證了基于數(shù)值模式的逐時降水數(shù)據(jù)集具有時間敏感的特點,這會給模式后處理技術(shù)帶來很大的困難。

圖5 輕微不平衡采樣的模型在(a)2019年小時劃分的交叉驗證和(b)2020年測試集的AUC與AUPR

2020年測試集的條件更為苛刻,與訓練集之間基本不存在時間相關(guān)性,模型甚至無法獲取鄰近時刻的樣本信息。因此,模型的最高AUC和AUPR再度下降,分別僅有0.883和0.003,表明了模型從2019年數(shù)據(jù)集中學習到的映射關(guān)系只有很小一部分適用于2020年,再次驗證了模型有效性主要來自于相同或相鄰時刻的樣本信息。

3.4 異質(zhì)模型動態(tài)融合方案

從模擬實際業(yè)務的角度來講,盡管無法得到超出當前時刻的樣本信息,但可以將已發(fā)生的最新樣本信息用來更新模型,使模型逐漸適應新的數(shù)據(jù)分布。上述LightGBM模型在本質(zhì)上是基于決策樹的加性模型,導致很難將最新樣本信息引入其中。因此,選擇邏輯回歸(logistic regression,LR)算法作為次級模型以達到對初級靜態(tài)模型“再訂正”的目的。LR是一種相對簡單的分類算法,在具備非線性擬合能力的同時又可以避免在小樣本的情況下發(fā)生嚴重的過擬合。此外,僅把LightGBM模型的輸出概率作為次級模型的輸入特征,會存在變量過少、信息過于單調(diào)的問題。深度神經(jīng)網(wǎng)絡(deep neural net,DNN)模型作為目前受到廣泛應用的機器學習模型,可以提供不同的統(tǒng)計視角來作為信息補充(陳錦鵬等,2021)。

具體的異質(zhì)模型動態(tài)融合方案為:分別用2019年訓練集提前訓練好LightGBM模型和DNN模型,其中LightGBM模型超參數(shù)與3.3節(jié)中一致,DNN模型則采用3層全連接層結(jié)構(gòu)來匹配點特征的輸入,網(wǎng)絡層的連接順序為輸入層、64個神經(jīng)元的全連接層、32個神經(jīng)元的全連接層、16個神經(jīng)元的全連接層、失活比例為0.1的隨機失活層(用來減輕模型過擬合)以及實現(xiàn)概率歸一化的Softmax函數(shù)輸出層。在對2020年測試集的預測過程中,發(fā)現(xiàn)由于過擬合問題的存在,訓練代數(shù)越多反而會削弱泛化能力,故分別取第50代LightGBM模型和第10代DNN模型進行預測。另外在進行動態(tài)融合前,需要先判斷過去5 d的最新數(shù)據(jù)中正樣本數(shù)量是否充足,當正樣本數(shù)≥10時采用LR進行融合建模,正樣本數(shù)<10時只對輸出概率求平均。具體的流程示意圖如圖6所示。

圖6 異質(zhì)模型動態(tài)融合流程示意圖

對比試驗中包含了數(shù)值模式、LightGBM模型、DNN模型與LR融合模型共四種預測。在命中率方面(圖7a),模式預報表現(xiàn)較穩(wěn)定,區(qū)間大致為42%～90%;LightGBM模型和DNN模型均有隨閾值升高而快速下降的特點,實際應用中閾值設定不宜過高;LR融合模型的下降速率則表現(xiàn)出“先高后低”趨勢,分類閾值<0.4時命中率維持在90%以上,在0.4～0.6時則為快速下滑階段,之后與單模型趨于一致。在空報率方面(圖7b),三種訂正模型均低于模式預報,其中LightGBM模型和LR融合模型在高閾值情況下會出現(xiàn)反彈。TS評分來看(圖7c),LR融合模型在LightGBM模型和DNN模型的基礎(chǔ)上能夠小幅提升,分類閾值達0.78時可得最高TS評分為0.568%。三種訂正模型的FPR在分類閾值≥0.5時均優(yōu)于模式預報,其中LR融合模型的FPR變化趨勢與命中率相似。

圖7 不同模型預報檢驗指標隨分類閾值的變化

在逐小時強降水預報檢驗中,命中率尤為重要,為此需要分析在較高命中率的情況下各類方案的表現(xiàn)。通過調(diào)節(jié)分類閾值將四種預測的命中率控制在實際業(yè)務能夠接受的50%左右,便于對比其他指標。如表3所示,此時三種訂正模型對于模式的空報情況均有所改善,從而在不同程度上提高了TS評分。在空報數(shù)方面,LightGBM模型減少了約49.7萬個樣本,而LR融合模型在命中率提高了1.665% 的前提下減少了約52.4萬個樣本。在極端不平衡數(shù)據(jù)中空報數(shù)對TS評分影響極大,由于LR融合模型能夠有效降低空報數(shù),故TS評分為最優(yōu),對比模式預報提高了將近3倍,同時分類閾值也比較合理。

表3 不同模型在命中率約為50%時的對比

4 結(jié) 論

本文在逐時降水觀測資料與數(shù)值模式預報產(chǎn)品的基礎(chǔ)上開展短時強降水預報訂正試驗,應用LightGBM集成學習算法框架與多項模型優(yōu)化技術(shù)進行建模和訓練,通過對比不同建模方案在驗證集和測試集上的表現(xiàn),得到如下結(jié)論。

(1)CMA-GD模式在短時強降水預報方面具有較低AUC和較高AUPR的特點,從傳統(tǒng)指標來看命中率和空報率均較高,各類建模方案的訂正模型對此具有不同程度的改善作用。其中Bagging處理能夠增強模型預測穩(wěn)定性,而基于輕微不平衡子訓練集的模型在驗證集上表現(xiàn)最佳,主要優(yōu)勢在于顯著降低了預測空報率而取得更高的綜合評分,在驗證集中最佳TS評分可達17.5%。

(2)LightGBM模型具有良好的可解釋性,通過合理的特征處理可以進一步增強變量間的映射關(guān)系,對分類信息增益貢獻最大的特征變量為K指數(shù),其次是500 hPa露點溫度和自定義添加的時間參數(shù)特征。

(3)從隨機交叉驗證、根據(jù)小時劃分的隨機交叉驗證、業(yè)務模擬測試等三類時間相關(guān)性依次減弱的試驗來看,隨機交叉驗證的指標評分最高,而業(yè)務模擬測試為最低,驗證了LightGBM模型在短時強降水分類數(shù)據(jù)集上的有效性主要來自相同或相鄰時刻的樣本信息。

(4)在業(yè)務模擬測試中LightGBM模型略優(yōu)于3層全連接層架構(gòu)的DNN模型。針對實際預報業(yè)務中客觀存在的時間敏感性及數(shù)據(jù)漂移等問題,基于邏輯回歸的異質(zhì)模型動態(tài)融合方案能夠?qū)崟r學習來自不同統(tǒng)計視角的最新樣本信息而改善靜態(tài)同質(zhì)模型的表現(xiàn),融合模型在命中率、空報率和TS評分等指標上均有小幅提升,在命中率接近50%時削減空報樣本超過52萬個。