陳錦鵬 馮業(yè)榮 蒙偉光 文秋實 潘 寧 戴光豐
1 福建省災(zāi)害天氣重點實驗室,福州 350001 2 數(shù)據(jù)科學(xué)與統(tǒng)計重點實驗室,漳州 363005 3 福建省漳州市氣象局,漳州 363005 4 中國氣象局廣州熱帶海洋氣象研究所/廣東省區(qū)域數(shù)值天氣預(yù)報重點實驗室,廣州 510640 5 福建省氣象臺,福州 350001
提 要: 應(yīng)用2017—2018年5—9月福建省觀測資料對華南區(qū)域中尺度模式(GTRAMS-3 km-RUC)預(yù)報進(jìn)行站點檢驗,建立和訓(xùn)練基于卷積神經(jīng)網(wǎng)絡(luò)的逐時降水分級訂正模型,并與頻率匹配法進(jìn)行2017—2018年測試集的對比試驗和2019年數(shù)據(jù)集的模擬業(yè)務(wù)檢驗,探討了試驗過程中遇到的樣本不均衡、特征變量選取以及模型過擬合問題。結(jié)果表明:模式對于15 mm·h-1以上降水的預(yù)報能力弱,各訂正方法對原始預(yù)報均有不同程度的改進(jìn)作用。從評估指標(biāo)來看,基于卷積神經(jīng)網(wǎng)絡(luò)的訂正方法比頻率匹配法表現(xiàn)出優(yōu)勢,其中相關(guān)系數(shù)判別方案下的網(wǎng)絡(luò)模型對強(qiáng)降水預(yù)報的訂正效果顯著優(yōu)于其他方法;在輸入特征變量選取方面,應(yīng)用主成分分析方案的模型訓(xùn)練收斂速度比相關(guān)系數(shù)判別方案更快,最佳訓(xùn)練期有所提前,但也更早進(jìn)入嚴(yán)重的過擬合狀態(tài),而相關(guān)系數(shù)判別方案能夠使網(wǎng)絡(luò)模型的訓(xùn)練擁有更長的提升期以達(dá)到更具“潛力”的狀態(tài);基于卷積神經(jīng)網(wǎng)絡(luò)的訂正方法對減少分類降水預(yù)報的漏報率、晴雨和弱降水預(yù)報的空報率具有顯著作用,其優(yōu)化程度明顯超過頻率匹配法。
近幾年我國氣象部門大力開展智能網(wǎng)格預(yù)報業(yè)務(wù),要求24 h預(yù)報時間分辨率達(dá)到1 h。在智能網(wǎng)格預(yù)報中,高分辨率模式的主導(dǎo)地位更加突顯,模式性能的提升無疑決定了未來預(yù)報業(yè)務(wù)的主要發(fā)展方向。目前高分辨率模式仍存在諸多局限,主要來自于初始條件、邊界條件、物理過程、同化技術(shù)、模式適用性(漆梁波,2015)等方面,因此模式訂正技術(shù)的發(fā)展亦不可忽視。合理、客觀、定量的訂正方法是連接數(shù)值模式與精準(zhǔn)預(yù)報的橋梁,是深入挖掘數(shù)值預(yù)報潛力不可或缺的環(huán)節(jié),也是未來一段時間高分辨率模式應(yīng)用的關(guān)鍵。
目前,基于經(jīng)典統(tǒng)計學(xué)方法的溫度預(yù)報訂正技術(shù)已經(jīng)優(yōu)于預(yù)報員預(yù)報水平(吳啟樹等,2016),在較長時間的累積降水量預(yù)報方面也有所進(jìn)展,諸如頻率匹配法(李俊等,2014;2015)、評分最優(yōu)化訂正法(吳啟樹等,2017)等方法被廣泛使用。但是對于精細(xì)到逐小時的降水預(yù)報訂正方法研究仍然比較匱乏。歸根結(jié)底在于氣溫與降水兩種要素存在巨大差異,與氣溫演變所表現(xiàn)出的連續(xù)性和平穩(wěn)性不同,降水事件在時空分布上具有高度的非線性和隨機(jī)性,從逐小時的降水事件來看這種隨機(jī)性更加顯著,所以傳統(tǒng)的統(tǒng)計學(xué)方法對其訂正作用十分有限。近年來,人工智能逐漸在圖像識別、數(shù)據(jù)挖掘及醫(yī)療等諸多領(lǐng)域中得到了良好的結(jié)合與深入的應(yīng)用,甚至為部分行業(yè)帶來前所未有的變革,這對于現(xiàn)階段預(yù)報技術(shù)發(fā)展具有重要的啟發(fā)意義。氣象數(shù)據(jù)是名副其實的“大數(shù)據(jù)”,而人工智能的前沿技術(shù)——深度學(xué)習(xí)(deep learning,DL)是迄今為止處理大數(shù)據(jù)的最有效算法之一。相比其他機(jī)器學(xué)習(xí)算法,DL的優(yōu)勢在于學(xué)習(xí)能力進(jìn)一步增強(qiáng),對各類復(fù)雜問題的適應(yīng)性好,其數(shù)據(jù)驅(qū)動的特性尤其適用于對大數(shù)據(jù)包含的豐富信息進(jìn)行自動挖掘。如何將DL應(yīng)用于數(shù)值預(yù)報訂正將是我們必須思考的問題。
近年來,DL在氣象領(lǐng)域的結(jié)合應(yīng)用案例日益增多,并展現(xiàn)出了巨大的潛在價值與廣闊的應(yīng)用前景(許小峰,2018)。孫全德等(2019)將DL應(yīng)用于數(shù)值模式10 m風(fēng)速預(yù)報的訂正上,發(fā)現(xiàn)隨著預(yù)報時效的增加,訂正力度越來越大;Shi et al(2015;2017)將卷積長短期記憶(convolutional long-short term memory,LSTM)網(wǎng)絡(luò)模型應(yīng)用于臨近降水預(yù)報,相比于光流法展現(xiàn)出了更優(yōu)秀的預(yù)報能力,在此基礎(chǔ)上又進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),在預(yù)測效果基本不變的前提下減少了冗余參數(shù);針對雷達(dá)資料這種典型的時空結(jié)構(gòu)數(shù)據(jù),郭瀚陽等(2019)發(fā)現(xiàn)DL可以有效“學(xué)習(xí)”到雷達(dá)數(shù)據(jù)特征的內(nèi)在關(guān)聯(lián),明顯提高了強(qiáng)對流回波臨近預(yù)報準(zhǔn)確率;滕志偉(2017)根據(jù)LSTM對雷達(dá)回波外推問題的實踐,提出了一種基于LSTM的RET-RNN模型,并對RET-RNN模型的結(jié)構(gòu)和超參數(shù)進(jìn)行了優(yōu)化,該算法在外推時效較長時效果較好。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是DL中一種經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),其具有的局部連接、權(quán)值共享及池化操作等特性有效減少了冗余參數(shù),易于訓(xùn)練,魯棒性較強(qiáng)(周飛燕等,2017)。也由于這些優(yōu)越特性,基于經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的各類“升級版”網(wǎng)絡(luò)模型在多屆ImageNet大規(guī)模視覺識別挑戰(zhàn)競賽(imagenet large scale visual recognition challenge)中蟬聯(lián)冠軍,甚至超越了人類自身的識別水平。
然而,目前DL在氣象領(lǐng)域的應(yīng)用思路仍然集中在如何根據(jù)實況觀測資料推測預(yù)報對象未來的演變過程,DL與數(shù)值預(yù)報的融合應(yīng)用之先例相比甚少。能否在快速更新同化預(yù)報系統(tǒng)對未來幾個小時的環(huán)流形勢和環(huán)境條件預(yù)測的基礎(chǔ)上進(jìn)一步通過DL“推導(dǎo)”出相應(yīng)的降水狀況,是具有研究價值和實踐意義的問題,亦是本文的研究重點。天氣演變過程本質(zhì)上仍是物理演變過程,任何尺度上的物理機(jī)制都必須受到物理定律的約束,這方面正是DL所不擅長的。DL仍是一種統(tǒng)計意義上的技術(shù),只不過它的高度非線性變換能力賦予了它一定程度的“智能”,但在現(xiàn)階段仍難以勝任模擬物理動力過程的任務(wù)。合理運(yùn)用DL作為數(shù)值預(yù)報的“輔助”手段對其進(jìn)行后處理,意味著把DL不擅長的物理過程演變問題轉(zhuǎn)化為DL比較擅長的模式偏差訂正問題,是兩者取長補(bǔ)短的極佳結(jié)合點。本文應(yīng)用歷史觀測資料與數(shù)值預(yù)報產(chǎn)品,建立和訓(xùn)練了基于卷積神經(jīng)網(wǎng)絡(luò)的逐時降水分級訂正模型,并與頻率匹配法進(jìn)行2017—2018年測試集的對比試驗和2019年數(shù)據(jù)集的模擬業(yè)務(wù)檢驗以評估模型訂正效果,同時探討了試驗過程中遇到的樣本不均衡、特征變量選取以及模型過擬合問題,為DL在氣象領(lǐng)域的應(yīng)用和數(shù)值預(yù)報后處理技術(shù)的發(fā)展提供了新的思路。
本試驗主要針對福建省強(qiáng)降水頻發(fā)的主汛期,選取2017—2019年5—9月福建省內(nèi)自動站逐時雨量數(shù)據(jù)作為觀測資料。具體空間范圍為23.32°~28.51°N、115.68°~120.69°E,除省界邊緣的少數(shù)站點外,涵蓋了福建省內(nèi)約2 200個雨量站。其中,從逐時、逐站的角度對2017—2018年觀測資料進(jìn)行采樣以制作K折交叉驗證的試驗數(shù)據(jù)集,可得到約1 400萬站次的有效樣本;同樣對2019年觀測資料進(jìn)行采樣以制作用于模擬業(yè)務(wù)檢驗的數(shù)據(jù)集,約有736萬站次的有效樣本。根據(jù)業(yè)務(wù)實踐將逐時雨量分為四個等級,通過觀察樣本分布情況(表1)可以發(fā)現(xiàn),逐時雨量數(shù)據(jù)存在著嚴(yán)重的不均衡特征,中等以上降水屬于極小概率事件,所占比例大約只有0.3%,這也是在后續(xù)模型訓(xùn)練過程中必須處理的問題。
表1 2017—2018年不同降水等級樣本數(shù)量
采用華南區(qū)域中尺度模式系統(tǒng)(GRAPES Tropical Regional Modeling System,GTRAMS)提供的預(yù)報產(chǎn)品。該模式系統(tǒng)采用具有區(qū)域特點的三維參考大氣動力框架及高分辨率地形數(shù)據(jù)集,輔以快速更新的雷達(dá)資料云分析技術(shù),形成了一套區(qū)域內(nèi)的逐小時快速更新同化預(yù)報系統(tǒng)GTRAMS-3 km-RUC(徐道生等,2014),以下簡稱RUC。
選用2017—2019年5—9月的RUC歷史預(yù)報產(chǎn)品作為預(yù)報資料。RUC產(chǎn)品的水平空間分辨率為0.03°×0.03°,垂直方向上分為12層,預(yù)報間隔為1 h。RUC預(yù)報產(chǎn)品種類豐富,其中包括渦度、散度、假相當(dāng)位溫、水汽通量散度等19種物理量產(chǎn)品。值得一提的是,RUC在2019年5月進(jìn)行了一次較大調(diào)整,預(yù)報性能有所提升,但預(yù)報誤差的分布也相應(yīng)發(fā)生改變,因此應(yīng)用2019年RUC預(yù)報資料進(jìn)行模擬業(yè)務(wù)檢驗更能考驗各訂正方案的穩(wěn)定性和適應(yīng)性。
空間上,將RUC逐時降水預(yù)報的格點場通過最鄰近法插值至觀測站點;考慮到實際業(yè)務(wù)中存在的計算延遲,預(yù)報時效為3 h的模式資料具有較大的實際應(yīng)用價值,故重點選取預(yù)報時效為3 h的模式預(yù)報進(jìn)行分級檢驗。檢驗指標(biāo)包括TS評分(TS)、ETS評分(ETS)、漏報率(PO)、空報率(FAR)、偏差(Bias),各指標(biāo)公式如下:
(1)
(2)
(3)
(4)
(5)
式中:NA為對應(yīng)降水等級預(yù)報正確的站數(shù),NB為漏報站數(shù),NC為空報站數(shù),ND為其余降水等級預(yù)報正確的站數(shù)。
由圖1可見,在2017—2018年5—9月RUC對于站點的逐時降水預(yù)報能力隨著降水量增大而急劇減弱。晴雨和弱降水預(yù)報的TS評分與ETS評分相對較高,而超過15 mm·h-1時均降至0.02以下;對于15 mm·h-1以上降水預(yù)報的漏報率和空報率均超過0.9。從偏差來看,晴雨預(yù)報存在干偏差,而各降水等級的預(yù)報卻存在明顯的濕偏差,尤其是15 mm·h-1以上降水的偏差達(dá)到2.2以上。從站點檢驗的角度來看,RUC對于中等以上降水預(yù)報基本失去參考意義。
從圖2觀察評估指標(biāo)的月變化規(guī)律,發(fā)現(xiàn)RUC在各月的預(yù)報能力變化幅度較大。晴雨和弱降水的TS評分在6月達(dá)到最高,9月為最低;而從ETS評分來看,卻是在8月表現(xiàn)最優(yōu),其余月份的差異相對較??;中等以上降水的TS評分和ETS評分均是在7月相對高一些。從圖2c和2d對比發(fā)現(xiàn),晴雨預(yù)報的漏報率在所有月均高于空報率,而弱降水則相反;整體來看,9月的漏報和空報情況最為嚴(yán)重。造成這種月變化規(guī)律的主要原因可能是RUC對不同性質(zhì)降水過程的預(yù)報能力存在明顯的差異。
另外也以相同方法分別檢驗了預(yù)報時效為6、9和12 h的RUC降水預(yù)報(圖略),發(fā)現(xiàn)在TS、ETS、PO、FAR四項指標(biāo)上的各分類預(yù)報相對水平分布均與預(yù)報時效3 h一致,差別在于隨著預(yù)報時效的延長,這四項指標(biāo)的絕對水平均呈現(xiàn)不同程度的轉(zhuǎn)差趨勢,如預(yù)報時效12 h的晴雨預(yù)報TS和ETS分別下降至0.15和0.08。在15 mm·h-1以上降水預(yù)報的Bias則發(fā)生了較大變化,原先的顯著濕偏差隨著預(yù)報時效延長而迅速減小,預(yù)報時效12 h的中等降水和強(qiáng)降水預(yù)報Bias已分別降至1.31和1.10,甚至略低于同時效的弱降水預(yù)報Bias。
圖1 RUC逐時降水預(yù)報評估指標(biāo)概況
圖2 TS評分(a),ETS評分(b),漏報率(c)和空報率(d)的月變化
總之,盡管RUC預(yù)報具有較高的時空分辨率,但降水預(yù)報效果仍然不夠理想,尤其是針對15 mm·h-1以上量級的降水預(yù)報能力較差,需要合理的客觀解釋應(yīng)用方法加以訂正。
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)一般由輸入層、卷積層、池化層、全連接層及輸出層構(gòu)成。在卷積層中,卷積核是一個權(quán)值矩陣(如對于二維平面而言可為3×3的矩陣),它以固定順序逐步滑動作用于原始輸入矩陣,然后生成一個新矩陣,即新矩陣的元素為:
(6)
式中:x為原始矩陣中的元素,s為新矩陣的元素,w為卷積核的權(quán)重,m、n分別為卷積核的列數(shù)、行數(shù)。卷積層通過卷積操作和激活處理(如ELU、RELU函數(shù))提取特征,底層的卷積層用于提取低級特征,更高層的卷積層通過組合低級特征而提取出更高級的特征。為了讓模型具備一定的泛化能力,緊跟在卷積層之后加入池化層,通過取最大值或平均值的方式來進(jìn)一步降低分辨率,這種操作可以使卷積神經(jīng)網(wǎng)絡(luò)的識別獲得平移不變性。通過多次卷積層和池化層的計算之后,中間變量進(jìn)入全連接層,全連接層可以整合具有類別區(qū)分性的高維信息,然后輸出最終的結(jié)果。
模式預(yù)報的物理量格點場與普通的圖像數(shù)據(jù)具有許多相似之處:物理量的水平空間分布如同圖像的像素矩陣,物理量的種類與層次則可類比于圖像數(shù)據(jù)中的“通道”概念。訂正模型試圖借助卷積神經(jīng)網(wǎng)絡(luò)在識別領(lǐng)域的巨大優(yōu)勢以挖掘物理量場與逐時雨量等級之間可能存在的映射關(guān)系。然而,若將預(yù)報范圍內(nèi)的全部網(wǎng)格數(shù)據(jù)直接用于模型輸入,則對于同一時刻的不同站點而言,其輸入變量均不變,難以得到有意義的輸出結(jié)果。為此需要構(gòu)建屬于單個站點“特有”的輸入變量,采樣方案為:以站點為中心,截取固定范圍的矩形區(qū)域內(nèi)的格點數(shù)據(jù)作為輸入變量,即認(rèn)為“局部”的物理量場與該站點的逐時雨量之間存在對應(yīng)關(guān)系。這種從站點角度進(jìn)行建模的優(yōu)勢在于不僅使自變量與因變量的對應(yīng)關(guān)系變得更加清晰明朗,而且能夠利用的數(shù)據(jù)量大幅增加,十分利于提升模型的學(xué)習(xí)效果。
3.2.1 數(shù)據(jù)預(yù)處理
根據(jù)時空對應(yīng)關(guān)系將觀測資料與模式預(yù)報資料制作成數(shù)據(jù)集??臻g上,以預(yù)測站點為中心截取出邊長約為45 km的矩形網(wǎng)格作為輸入變量;時間上,選取預(yù)報時效為3 h的預(yù)報產(chǎn)品作為對應(yīng)的預(yù)報資料。
一般而言,圖像矩陣在輸入模型之前需要進(jìn)行標(biāo)準(zhǔn)化或歸一化處理,物理量數(shù)據(jù)包含各種不同量綱的物理量,所以同樣需要類似的預(yù)處理。但物理數(shù)據(jù)不同于圖像像素值存在著明確的上下限,而且不僅物理數(shù)據(jù)的空間分布是關(guān)鍵信息,其數(shù)值的相對高低對模型輸出亦有至關(guān)重要的影響。為了較好地保留物理量場的空間分布以及數(shù)值區(qū)間的信息,采用先標(biāo)準(zhǔn)化后縮放計算的預(yù)處理方案:先計算出每種物理量場的空間平均值M,再對均值序列進(jìn)行標(biāo)準(zhǔn)化處理,將標(biāo)準(zhǔn)化值與原先的空間平均值M之比作為縮放系數(shù),最后將每個原始樣本與對應(yīng)的縮放系數(shù)相乘即得到比較合適的新樣本數(shù)據(jù)。即對于每個樣本中的物理量矩陣X作如下變換:
(7)
3.2.2 特征變量選取
模式生成的預(yù)報產(chǎn)品種類豐富,部分還涉及不同的高度層次,如果不加以篩選而將所有物理量作為輸入特征變量,則由于物理量之間并非相互獨(dú)立以及對模型輸出的敏感性差,很可能導(dǎo)致訂正效果大打折扣。這里采用兩種特征變量選取方案進(jìn)行對比試驗,分別是相關(guān)系數(shù)判別(correlation coefficient discrimination,CCD)和主成分分析(principal component analysis,PCA)。前者根據(jù)物理量與小時雨量的相關(guān)系數(shù)絕對值大小進(jìn)行挑選,以0.15為閾值從45個不同種類、不同層次的物理量中挑選出22個作為特征變量,該閾值已通過α=0.01的顯著性水平檢驗,結(jié)果如表2所示。后一種方案則是在預(yù)處理后對所有物理量進(jìn)行主成分分析,由于輸入特征變量的數(shù)目對模型訓(xùn)練存在影響,為了便于和前一種方案對比,也從45個主成分中挑選前22個主分量作為特征變量,這22個主分量的總解釋方差比例已經(jīng)超過了97%,可見PCA的特征降維作用十分明顯,具體方案為:先對訓(xùn)練集中每個樣本的場均值進(jìn)行標(biāo)準(zhǔn)化處理,然后對標(biāo)準(zhǔn)化的場均值所組成的新序列進(jìn)行主成分分析,獲取的主分量變換系數(shù)將應(yīng)用于對應(yīng)樣本的逐個格點上(經(jīng)過如3.2.1節(jié)的預(yù)處理之后),從而構(gòu)造出濃縮了絕大部分舊變量變化信息的新變量。
表2 相關(guān)系數(shù)絕對值≥0.15的物理量
3.2.3 K折交叉驗證下的數(shù)據(jù)集劃分
深度學(xué)習(xí)建模的核心在于訓(xùn)練過程,訓(xùn)練數(shù)據(jù)分布狀況的好壞將會直接影響模型最終的學(xué)習(xí)效果。為了削弱這種數(shù)據(jù)隨機(jī)性所導(dǎo)致的模型不穩(wěn)定性,應(yīng)用K折交叉驗證方案將2017—2018年5—9月樣本數(shù)據(jù)劃分為8份,每份數(shù)據(jù)中的各等級降水樣本比例均與總體保持相同。每次建模使用其中的7份作為訓(xùn)練集,剩余1份作為測試集,最后將8次試驗的平均結(jié)果作為評估指標(biāo)。為了避免數(shù)據(jù)不均衡問題導(dǎo)致模型訓(xùn)練出現(xiàn)“一邊倒”的情況,采用隨機(jī)欠采樣方案使訓(xùn)練集樣本分布保持平衡,即以強(qiáng)降水類的樣本數(shù)為參考標(biāo)準(zhǔn),從其他類中隨機(jī)抽取相近數(shù)目的樣本加入,缺點是其他類的數(shù)據(jù)利用率降低。另外,為了最大限度地利用現(xiàn)有數(shù)據(jù)集,從測試集中隨機(jī)抽取80%的樣本作為驗證集,該做法不會影響試驗的客觀性,驗證集的加入可以方便地跟蹤模型在每一代訓(xùn)練階段后其擬合能力和泛化能力的變化趨勢。最終每次試驗所用的數(shù)據(jù)集數(shù)量分布如表3所示。
另外,應(yīng)用2019年5—9月觀測數(shù)據(jù)與相應(yīng)的RUC預(yù)報資料制作用于模擬業(yè)務(wù)檢驗的數(shù)據(jù)集。2019年數(shù)據(jù)集包含了19 566個中等降水樣本和5 323個強(qiáng)降水樣本,另外分別隨機(jī)抽取了50 000個無降水和50 000個弱降水的樣本加入,樣本總數(shù)共計為124 889個。該數(shù)據(jù)集體現(xiàn)了氣象數(shù)據(jù)所具有的時間關(guān)聯(lián)特征,能夠為基于前兩年數(shù)據(jù)訓(xùn)練而得到的訂正模型提供比較真實的模擬測試條件。
表3 K折交叉驗證下的2017—2018年數(shù)據(jù)集樣本數(shù)(單位:個)
3.2.4 模型設(shè)計
試驗設(shè)計的訂正模型符合經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)(圖3),可訓(xùn)練的總參數(shù)量在81萬個左右。第一層卷積層的卷積核尺寸設(shè)為1×1,主要目的在于使相對“平滑”的物理量場的空間分布信息更加突顯,其余卷積層均采用3×3的卷積核。同時,考慮到截取的“局部”物理量場空間范圍并不是太大,所以只在最終的卷積層之后才加入池化層,避免過度壓縮導(dǎo)致丟失大部分信息。為了進(jìn)一步加快收斂速度和減輕過擬合的影響,模型中加入批規(guī)范化層(Ioffe and Szegedy,2015)和隨機(jī)失活層(Liang and Liu,2015)。最后由Softmax函數(shù)(Wang et al,2018)進(jìn)行各個雨量等級的概率分布回歸,挑選出最大概率的降水等級作為模型輸出結(jié)果。模型訓(xùn)練的損失函數(shù)設(shè)為多分類交叉熵(cross-entropy,CE)(Kline and Berardi,2005),其公式為:
(8)
式中:oi為觀測值,fi為預(yù)報值。交叉熵是度量兩個概率分布間的差異性信息的指標(biāo),其保持高梯度狀態(tài)的特性可以使模型的收斂速度基本不會受到影響。
圖3 預(yù)報訂正模型的卷積神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
分別應(yīng)用CCD和PCA兩種特征變量選取方案對基于卷積神經(jīng)網(wǎng)絡(luò)的相同模型進(jìn)行50次迭代訓(xùn)練,以8次交叉驗證試驗的平均TS評分作為跟蹤指標(biāo)觀察模型在訓(xùn)練過程中的性能變化趨勢。如圖4 所示,兩者在訓(xùn)練集上的TS評分和交叉熵變化均表現(xiàn)出“S”型曲線特征,總體趨勢無顯著差異。開始訓(xùn)練時模型的識別能力類似于模式的原始預(yù)報,與降水強(qiáng)度成反比,第25代訓(xùn)練以后,模型在訓(xùn)練集上的TS評分均超過了0.4,交叉熵降至0.6以下,反映了模型的擬合能力隨著訓(xùn)練過程而顯著改善。隨著迭代數(shù)繼續(xù)增加,模型不斷加速收斂,對訓(xùn)練集中各個等級降水識別能力的差異性逐漸減小。最終TS評分達(dá)到0.8以上時收斂速度放緩,達(dá)到了理想的水平。在訓(xùn)練集上兩個方案的最大差異在于PCA方案的訓(xùn)練指標(biāo)改善速度更快,后期能夠達(dá)到的極限水平也略高一些,這意味著PCA方案確實起到了壓縮特征變量信息的作用,挑選出來的主分量可使模型的擬合能力進(jìn)一步增強(qiáng)。
另一方面,模型在驗證集上表現(xiàn)出較大反差(圖5)。模型對于陌生數(shù)據(jù)的識別能力在前15代中快速提升,之后根據(jù)降水等級表現(xiàn)出不同的變化趨勢。無降水和弱降水的過擬合問題相對于中等降水和強(qiáng)降水更加嚴(yán)重,其評估指標(biāo)在20代之后隨著模型泛化能力轉(zhuǎn)差呈現(xiàn)下滑的趨勢。模型對中等降水的識別能力也在20代之后逼近極限,處于小幅振蕩狀態(tài),對強(qiáng)降水的識別能力則一直緩慢提升。綜合來看,本試驗中訂正模型對應(yīng)的最佳訓(xùn)練期應(yīng)在20代之前,20代之后的訓(xùn)練過程對于模型泛化能力的改善可能產(chǎn)生負(fù)作用。作為對比,同樣計算得出RUC原始預(yù)報在8次驗證試驗中的平均TS評分,無降水、弱降水、中等降水、強(qiáng)降水分別為0.428、0.260、0.050、0.013,可見雖然模型出現(xiàn)過擬合現(xiàn)象,但是對RUC原始預(yù)報仍存在顯著的改善作用,尤其對于中等降水和強(qiáng)降水的預(yù)報。另外,模型對中等降水和強(qiáng)降水的“學(xué)習(xí)”效果均優(yōu)于另外兩個等級,兩者第20代的TS評分相比第1代分別提升了35%和36%左右。
進(jìn)一步對比兩種特征變量提取方案帶來的差異。PCA方案在訓(xùn)練集上的收斂速度更快,從第10代起各項指標(biāo)已明顯超越了CCD方案,但也更早進(jìn)入過擬合狀態(tài),40代之后模型嚴(yán)重的過擬合狀態(tài)導(dǎo)致各項指標(biāo)已難以繼續(xù)提升。驗證集上看,前期PCA方案下的TS評分在弱降水和強(qiáng)降水情況下優(yōu)于CCD方案,但隨著訓(xùn)練代數(shù)增加反而變得與CCD方案持平或者更差,其原因可能是PCA方案下的模型更早(20代前后)進(jìn)入嚴(yán)重的過擬合狀態(tài),這也意味著更早進(jìn)入“負(fù)效果”的訓(xùn)練階段;相反地,CCD方案的模型學(xué)習(xí)能力卻還在不斷增強(qiáng),后續(xù)達(dá)到了更具“潛力”的狀態(tài)。不可忽視的是,驗證集樣本數(shù)量小于測試集和訓(xùn)練集,產(chǎn)生的隨機(jī)性也會相對更大一些。
為了評估模型的訂正效果,在2017—2018年測試集上對比RUC原始預(yù)報以及頻率匹配法(frequency matching,F(xiàn)M)、CCD方案下的模型(以下簡稱CNN-CCD)和PCA方案下的模型(以下簡稱CNN-PCA)這三種不同的訂正方案。其中,F(xiàn)M的滑動統(tǒng)計窗口設(shè)為10 d。另外,根據(jù)CNN-CCD和CNN-PCA在驗證集上的表現(xiàn),分別選取第20代和第14代模型作為最佳訓(xùn)練期進(jìn)行對比檢驗。
通過圖6a和6b可以看到,雖然基于卷積神經(jīng)網(wǎng)絡(luò)的訂正模型出現(xiàn)過擬合問題,但仍然對RUC原始預(yù)報帶來了一定程度的提升,尤其在晴雨、弱降水和強(qiáng)降水預(yù)報下訂正效果更加顯著,CNN-CCD在這三種情況下的TS評分分別為0.697、0.528和0.060,其相對于原始預(yù)報的技巧評分分別達(dá)到了0.160、0.052和0.051,比FM分別高出了0.137、0.066和0.046,其針對30 mm·h-1以上的降水提升幅度最大。CNN-CCD與CNN-PCA的差異主要體現(xiàn)在強(qiáng)降水樣本上,CNN-PCA對強(qiáng)降水等級的預(yù)報無明顯改善作用。FM對RUC原始預(yù)報亦有微弱的改善作用,但是總體不如CNN-CCD與CNN-PCA。另外,無論哪種方案對中等降水等級的訂正效果均為最差,甚至不如RUC原始預(yù)報,原因可能有二:RUC本身對于中等降水事件的預(yù)報能力已經(jīng)足夠優(yōu)秀,可訂正空間有限;中等降水對應(yīng)的物理特征不夠突出,難以和弱降水或強(qiáng)降水相互區(qū)分,導(dǎo)致“學(xué)習(xí)”難度大。
從漏報率和空報率分析不同方案的誤差訂正來源:CNN-CCD和CNN-PCA均能大幅減少中等降水預(yù)報的漏報率,但晴雨預(yù)報的漏報率卻不降反升。另外,CNN-CCD大幅削減了強(qiáng)降水的漏報率,其削減率可達(dá)原始預(yù)報的56.8%,而CNN-PCA則在弱降水漏報率上表現(xiàn)最優(yōu)。由圖6d可見,CNN-CCD和CNN-PCA均無法改善中等以上降水的空報率,但能夠顯著改善晴雨和弱降水的空報率。相比而言,頻率匹配法對漏報率和空報率的削減幅度亦不如另外兩種方案。總體來講,CNN-CCD和CNN-PCA可以取得更加理想的訂正效果,特別是CNN-CCD對強(qiáng)降水等級預(yù)報的訂正十分有效。
圖4 CCD(a)與PCA(b)方案下訓(xùn)練集的TS評分與交叉熵
圖5 驗證集上不同降水等級的TS評分(a)無降水,(b)弱降水,(c)中等降水,(d)強(qiáng)降水
為了更加真實地對比不同訂正方案在實際業(yè)務(wù)應(yīng)用中的表現(xiàn)差異,制作了2019年數(shù)據(jù)集進(jìn)行檢驗。RUC在2019年5月進(jìn)行了性能升級,進(jìn)一步加大了不同方案的適應(yīng)難度,能夠更好地模擬完全陌生的實際業(yè)務(wù)數(shù)據(jù)環(huán)境。
首先從圖7觀察到不同訂正方案在2019年數(shù)據(jù)集上的表現(xiàn)差異不同于2017—2018年的測試集,主要原因是模式調(diào)整帶來的誤差分布變化,但仍然可以發(fā)現(xiàn)CNN-CCD和CNN-PCA在TS評分和ETS評分上基本超過了FM。從TS評分上看,CNN-CCD和CNN-PCA在晴雨預(yù)報和弱降水預(yù)報上差異不大,均超過了0.68的水平,而在中等降水和強(qiáng)降水上表現(xiàn)卻截然相反,中等降水來講CNN-PCA更優(yōu),這也是兩個測試集之間具有較大差異之處;而在強(qiáng)降水上則是CNN-CCD顯著超過CNN-PCA和FM,甚至達(dá)到了0.2以上。ETS評分的趨勢與TS評分基本一致。
圖6 不同訂正方案在2017—2018年測試集上的評估指標(biāo)(a)TS評分,(b)ETS評分,(c)漏報率,(d)空報率
圖7 同圖6,但為2019年數(shù)據(jù)集
另外,圖7c的漏報率對比體現(xiàn)了CNN-PCA在分類訂正方面更勝一籌,尤其是在弱降水和強(qiáng)降水預(yù)報上對漏報率的改善效果十分突出,但晴雨預(yù)報的漏報率反而最高??請舐史矫?,CNN-CCD和CNN-PCA的訂正作用均主要體現(xiàn)在晴雨預(yù)報和弱降水預(yù)報上,中等降水和強(qiáng)降水的空報率削減幅度較不明顯。通過在2019年測試集上的進(jìn)一步檢驗可以看到,CNN-CCD和CNN-PCA對未知數(shù)據(jù)的穩(wěn)定性和適應(yīng)性均優(yōu)于傳統(tǒng)的統(tǒng)計方法,具備較高的實際業(yè)務(wù)應(yīng)用價值。
本文從站點的角度檢驗了RUC在福建省5—9月的逐時降水預(yù)報性能,建立和訓(xùn)練了基于卷積神經(jīng)網(wǎng)絡(luò)的逐時降水分級訂正模型,應(yīng)用CCD和PCA兩種不同方案提取模式預(yù)報物理量作為輸入特征變量分別在2017—2018年的K折交叉驗證測試集和2019年的模擬業(yè)務(wù)數(shù)據(jù)集上進(jìn)行訂正試驗,并與頻率匹配法對比分析訂正效果。試驗結(jié)果表明:
(1)RUC的晴雨預(yù)報存在干偏差,其分類降水預(yù)報卻存在濕偏差,對于15 mm·h-1以上降水的預(yù)報能力弱。從TS評分上看,各訂正方案對RUC原始預(yù)報均有不同程度的改進(jìn)作用,但頻率匹配法對弱降水預(yù)報反而起到負(fù)的訂正作用。傳統(tǒng)的頻率匹配法直接從頻率統(tǒng)計的角度改善模式降水預(yù)報的系統(tǒng)性誤差,CNN-CCD與CNN-PCA則能夠通過模式對環(huán)境條件的預(yù)報信息推測出降水分類結(jié)論,兩者原理截然不同。從各類評估指標(biāo)來看CNN-CCD與CNN-PCA對原始預(yù)報的提升幅度更加突出,尤其對晴雨和弱降水的改善效果更加理想,其中CNN-CCD對30 mm·h-1降水預(yù)報的訂正十分有效。
(2)在模型的輸入特征變量選取方面,PCA方案下訓(xùn)練時的收斂速度較快,最佳訓(xùn)練期有所提前,但也更早進(jìn)入嚴(yán)重的過擬合狀態(tài),這也意味著更早進(jìn)入“負(fù)效果”的訓(xùn)練階段。相反,CNN-CCD在訓(xùn)練過程中表現(xiàn)出了較長的提升期,從而在強(qiáng)降水預(yù)報方面達(dá)到了更具“潛力”的狀態(tài)。
(3)基于卷積神經(jīng)網(wǎng)絡(luò)的訂正方案對減少分類降水預(yù)報的漏報率、晴雨和弱降水預(yù)報的空報率具有顯著作用,優(yōu)化程度明顯超過頻率匹配法。
(4)試驗所設(shè)計的CNN-CCD對應(yīng)的最佳訓(xùn)練期在20代左右,CNN-PCA對應(yīng)的最佳訓(xùn)練期在14代左右。模型表現(xiàn)出來的過擬合問題反映了其擬合能力較強(qiáng)、泛化能力較差的缺陷,最主要原因可能是各類樣本可分性較差、訓(xùn)練樣本數(shù)量與模型容量不相適應(yīng)等,下一步將針對此問題繼續(xù)優(yōu)化和改進(jìn)。