陳錦鵬 馮業(yè)榮 蒙偉光 文秋實 潘 寧 戴光豐
1 福建省災害天氣重點實驗室,福州 350001 2 數據科學與統(tǒng)計重點實驗室,漳州 363005 3 福建省漳州市氣象局,漳州 363005 4 中國氣象局廣州熱帶海洋氣象研究所/廣東省區(qū)域數值天氣預報重點實驗室,廣州 510640 5 福建省氣象臺,福州 350001
提 要: 應用2017—2018年5—9月福建省觀測資料對華南區(qū)域中尺度模式(GTRAMS-3 km-RUC)預報進行站點檢驗,建立和訓練基于卷積神經網絡的逐時降水分級訂正模型,并與頻率匹配法進行2017—2018年測試集的對比試驗和2019年數據集的模擬業(yè)務檢驗,探討了試驗過程中遇到的樣本不均衡、特征變量選取以及模型過擬合問題。結果表明:模式對于15 mm·h-1以上降水的預報能力弱,各訂正方法對原始預報均有不同程度的改進作用。從評估指標來看,基于卷積神經網絡的訂正方法比頻率匹配法表現出優(yōu)勢,其中相關系數判別方案下的網絡模型對強降水預報的訂正效果顯著優(yōu)于其他方法;在輸入特征變量選取方面,應用主成分分析方案的模型訓練收斂速度比相關系數判別方案更快,最佳訓練期有所提前,但也更早進入嚴重的過擬合狀態(tài),而相關系數判別方案能夠使網絡模型的訓練擁有更長的提升期以達到更具“潛力”的狀態(tài);基于卷積神經網絡的訂正方法對減少分類降水預報的漏報率、晴雨和弱降水預報的空報率具有顯著作用,其優(yōu)化程度明顯超過頻率匹配法。
近幾年我國氣象部門大力開展智能網格預報業(yè)務,要求24 h預報時間分辨率達到1 h。在智能網格預報中,高分辨率模式的主導地位更加突顯,模式性能的提升無疑決定了未來預報業(yè)務的主要發(fā)展方向。目前高分辨率模式仍存在諸多局限,主要來自于初始條件、邊界條件、物理過程、同化技術、模式適用性(漆梁波,2015)等方面,因此模式訂正技術的發(fā)展亦不可忽視。合理、客觀、定量的訂正方法是連接數值模式與精準預報的橋梁,是深入挖掘數值預報潛力不可或缺的環(huán)節(jié),也是未來一段時間高分辨率模式應用的關鍵。
目前,基于經典統(tǒng)計學方法的溫度預報訂正技術已經優(yōu)于預報員預報水平(吳啟樹等,2016),在較長時間的累積降水量預報方面也有所進展,諸如頻率匹配法(李俊等,2014;2015)、評分最優(yōu)化訂正法(吳啟樹等,2017)等方法被廣泛使用。但是對于精細到逐小時的降水預報訂正方法研究仍然比較匱乏。歸根結底在于氣溫與降水兩種要素存在巨大差異,與氣溫演變所表現出的連續(xù)性和平穩(wěn)性不同,降水事件在時空分布上具有高度的非線性和隨機性,從逐小時的降水事件來看這種隨機性更加顯著,所以傳統(tǒng)的統(tǒng)計學方法對其訂正作用十分有限。近年來,人工智能逐漸在圖像識別、數據挖掘及醫(yī)療等諸多領域中得到了良好的結合與深入的應用,甚至為部分行業(yè)帶來前所未有的變革,這對于現階段預報技術發(fā)展具有重要的啟發(fā)意義。氣象數據是名副其實的“大數據”,而人工智能的前沿技術——深度學習(deep learning,DL)是迄今為止處理大數據的最有效算法之一。相比其他機器學習算法,DL的優(yōu)勢在于學習能力進一步增強,對各類復雜問題的適應性好,其數據驅動的特性尤其適用于對大數據包含的豐富信息進行自動挖掘。如何將DL應用于數值預報訂正將是我們必須思考的問題。
近年來,DL在氣象領域的結合應用案例日益增多,并展現出了巨大的潛在價值與廣闊的應用前景(許小峰,2018)。孫全德等(2019)將DL應用于數值模式10 m風速預報的訂正上,發(fā)現隨著預報時效的增加,訂正力度越來越大;Shi et al(2015;2017)將卷積長短期記憶(convolutional long-short term memory,LSTM)網絡模型應用于臨近降水預報,相比于光流法展現出了更優(yōu)秀的預報能力,在此基礎上又進行了網絡結構的改進,在預測效果基本不變的前提下減少了冗余參數;針對雷達資料這種典型的時空結構數據,郭瀚陽等(2019)發(fā)現DL可以有效“學習”到雷達數據特征的內在關聯(lián),明顯提高了強對流回波臨近預報準確率;滕志偉(2017)根據LSTM對雷達回波外推問題的實踐,提出了一種基于LSTM的RET-RNN模型,并對RET-RNN模型的結構和超參數進行了優(yōu)化,該算法在外推時效較長時效果較好。卷積神經網絡(convolutional neural network,CNN)是DL中一種經典的網絡結構,其具有的局部連接、權值共享及池化操作等特性有效減少了冗余參數,易于訓練,魯棒性較強(周飛燕等,2017)。也由于這些優(yōu)越特性,基于經典卷積神經網絡LeNet-5的各類“升級版”網絡模型在多屆ImageNet大規(guī)模視覺識別挑戰(zhàn)競賽(imagenet large scale visual recognition challenge)中蟬聯(lián)冠軍,甚至超越了人類自身的識別水平。
然而,目前DL在氣象領域的應用思路仍然集中在如何根據實況觀測資料推測預報對象未來的演變過程,DL與數值預報的融合應用之先例相比甚少。能否在快速更新同化預報系統(tǒng)對未來幾個小時的環(huán)流形勢和環(huán)境條件預測的基礎上進一步通過DL“推導”出相應的降水狀況,是具有研究價值和實踐意義的問題,亦是本文的研究重點。天氣演變過程本質上仍是物理演變過程,任何尺度上的物理機制都必須受到物理定律的約束,這方面正是DL所不擅長的。DL仍是一種統(tǒng)計意義上的技術,只不過它的高度非線性變換能力賦予了它一定程度的“智能”,但在現階段仍難以勝任模擬物理動力過程的任務。合理運用DL作為數值預報的“輔助”手段對其進行后處理,意味著把DL不擅長的物理過程演變問題轉化為DL比較擅長的模式偏差訂正問題,是兩者取長補短的極佳結合點。本文應用歷史觀測資料與數值預報產品,建立和訓練了基于卷積神經網絡的逐時降水分級訂正模型,并與頻率匹配法進行2017—2018年測試集的對比試驗和2019年數據集的模擬業(yè)務檢驗以評估模型訂正效果,同時探討了試驗過程中遇到的樣本不均衡、特征變量選取以及模型過擬合問題,為DL在氣象領域的應用和數值預報后處理技術的發(fā)展提供了新的思路。
本試驗主要針對福建省強降水頻發(fā)的主汛期,選取2017—2019年5—9月福建省內自動站逐時雨量數據作為觀測資料。具體空間范圍為23.32°~28.51°N、115.68°~120.69°E,除省界邊緣的少數站點外,涵蓋了福建省內約2 200個雨量站。其中,從逐時、逐站的角度對2017—2018年觀測資料進行采樣以制作K折交叉驗證的試驗數據集,可得到約1 400萬站次的有效樣本;同樣對2019年觀測資料進行采樣以制作用于模擬業(yè)務檢驗的數據集,約有736萬站次的有效樣本。根據業(yè)務實踐將逐時雨量分為四個等級,通過觀察樣本分布情況(表1)可以發(fā)現,逐時雨量數據存在著嚴重的不均衡特征,中等以上降水屬于極小概率事件,所占比例大約只有0.3%,這也是在后續(xù)模型訓練過程中必須處理的問題。
表1 2017—2018年不同降水等級樣本數量
采用華南區(qū)域中尺度模式系統(tǒng)(GRAPES Tropical Regional Modeling System,GTRAMS)提供的預報產品。該模式系統(tǒng)采用具有區(qū)域特點的三維參考大氣動力框架及高分辨率地形數據集,輔以快速更新的雷達資料云分析技術,形成了一套區(qū)域內的逐小時快速更新同化預報系統(tǒng)GTRAMS-3 km-RUC(徐道生等,2014),以下簡稱RUC。
選用2017—2019年5—9月的RUC歷史預報產品作為預報資料。RUC產品的水平空間分辨率為0.03°×0.03°,垂直方向上分為12層,預報間隔為1 h。RUC預報產品種類豐富,其中包括渦度、散度、假相當位溫、水汽通量散度等19種物理量產品。值得一提的是,RUC在2019年5月進行了一次較大調整,預報性能有所提升,但預報誤差的分布也相應發(fā)生改變,因此應用2019年RUC預報資料進行模擬業(yè)務檢驗更能考驗各訂正方案的穩(wěn)定性和適應性。
空間上,將RUC逐時降水預報的格點場通過最鄰近法插值至觀測站點;考慮到實際業(yè)務中存在的計算延遲,預報時效為3 h的模式資料具有較大的實際應用價值,故重點選取預報時效為3 h的模式預報進行分級檢驗。檢驗指標包括TS評分(TS)、ETS評分(ETS)、漏報率(PO)、空報率(FAR)、偏差(Bias),各指標公式如下:
(1)
(2)
(3)
(4)
(5)
式中:NA為對應降水等級預報正確的站數,NB為漏報站數,NC為空報站數,ND為其余降水等級預報正確的站數。
由圖1可見,在2017—2018年5—9月RUC對于站點的逐時降水預報能力隨著降水量增大而急劇減弱。晴雨和弱降水預報的TS評分與ETS評分相對較高,而超過15 mm·h-1時均降至0.02以下;對于15 mm·h-1以上降水預報的漏報率和空報率均超過0.9。從偏差來看,晴雨預報存在干偏差,而各降水等級的預報卻存在明顯的濕偏差,尤其是15 mm·h-1以上降水的偏差達到2.2以上。從站點檢驗的角度來看,RUC對于中等以上降水預報基本失去參考意義。
從圖2觀察評估指標的月變化規(guī)律,發(fā)現RUC在各月的預報能力變化幅度較大。晴雨和弱降水的TS評分在6月達到最高,9月為最低;而從ETS評分來看,卻是在8月表現最優(yōu),其余月份的差異相對較??;中等以上降水的TS評分和ETS評分均是在7月相對高一些。從圖2c和2d對比發(fā)現,晴雨預報的漏報率在所有月均高于空報率,而弱降水則相反;整體來看,9月的漏報和空報情況最為嚴重。造成這種月變化規(guī)律的主要原因可能是RUC對不同性質降水過程的預報能力存在明顯的差異。
另外也以相同方法分別檢驗了預報時效為6、9和12 h的RUC降水預報(圖略),發(fā)現在TS、ETS、PO、FAR四項指標上的各分類預報相對水平分布均與預報時效3 h一致,差別在于隨著預報時效的延長,這四項指標的絕對水平均呈現不同程度的轉差趨勢,如預報時效12 h的晴雨預報TS和ETS分別下降至0.15和0.08。在15 mm·h-1以上降水預報的Bias則發(fā)生了較大變化,原先的顯著濕偏差隨著預報時效延長而迅速減小,預報時效12 h的中等降水和強降水預報Bias已分別降至1.31和1.10,甚至略低于同時效的弱降水預報Bias。
圖1 RUC逐時降水預報評估指標概況
圖2 TS評分(a),ETS評分(b),漏報率(c)和空報率(d)的月變化
總之,盡管RUC預報具有較高的時空分辨率,但降水預報效果仍然不夠理想,尤其是針對15 mm·h-1以上量級的降水預報能力較差,需要合理的客觀解釋應用方法加以訂正。
卷積神經網絡的基本結構一般由輸入層、卷積層、池化層、全連接層及輸出層構成。在卷積層中,卷積核是一個權值矩陣(如對于二維平面而言可為3×3的矩陣),它以固定順序逐步滑動作用于原始輸入矩陣,然后生成一個新矩陣,即新矩陣的元素為:
(6)
式中:x為原始矩陣中的元素,s為新矩陣的元素,w為卷積核的權重,m、n分別為卷積核的列數、行數。卷積層通過卷積操作和激活處理(如ELU、RELU函數)提取特征,底層的卷積層用于提取低級特征,更高層的卷積層通過組合低級特征而提取出更高級的特征。為了讓模型具備一定的泛化能力,緊跟在卷積層之后加入池化層,通過取最大值或平均值的方式來進一步降低分辨率,這種操作可以使卷積神經網絡的識別獲得平移不變性。通過多次卷積層和池化層的計算之后,中間變量進入全連接層,全連接層可以整合具有類別區(qū)分性的高維信息,然后輸出最終的結果。
模式預報的物理量格點場與普通的圖像數據具有許多相似之處:物理量的水平空間分布如同圖像的像素矩陣,物理量的種類與層次則可類比于圖像數據中的“通道”概念。訂正模型試圖借助卷積神經網絡在識別領域的巨大優(yōu)勢以挖掘物理量場與逐時雨量等級之間可能存在的映射關系。然而,若將預報范圍內的全部網格數據直接用于模型輸入,則對于同一時刻的不同站點而言,其輸入變量均不變,難以得到有意義的輸出結果。為此需要構建屬于單個站點“特有”的輸入變量,采樣方案為:以站點為中心,截取固定范圍的矩形區(qū)域內的格點數據作為輸入變量,即認為“局部”的物理量場與該站點的逐時雨量之間存在對應關系。這種從站點角度進行建模的優(yōu)勢在于不僅使自變量與因變量的對應關系變得更加清晰明朗,而且能夠利用的數據量大幅增加,十分利于提升模型的學習效果。
3.2.1 數據預處理
根據時空對應關系將觀測資料與模式預報資料制作成數據集??臻g上,以預測站點為中心截取出邊長約為45 km的矩形網格作為輸入變量;時間上,選取預報時效為3 h的預報產品作為對應的預報資料。
一般而言,圖像矩陣在輸入模型之前需要進行標準化或歸一化處理,物理量數據包含各種不同量綱的物理量,所以同樣需要類似的預處理。但物理數據不同于圖像像素值存在著明確的上下限,而且不僅物理數據的空間分布是關鍵信息,其數值的相對高低對模型輸出亦有至關重要的影響。為了較好地保留物理量場的空間分布以及數值區(qū)間的信息,采用先標準化后縮放計算的預處理方案:先計算出每種物理量場的空間平均值M,再對均值序列進行標準化處理,將標準化值與原先的空間平均值M之比作為縮放系數,最后將每個原始樣本與對應的縮放系數相乘即得到比較合適的新樣本數據。即對于每個樣本中的物理量矩陣X作如下變換:
(7)
3.2.2 特征變量選取
模式生成的預報產品種類豐富,部分還涉及不同的高度層次,如果不加以篩選而將所有物理量作為輸入特征變量,則由于物理量之間并非相互獨立以及對模型輸出的敏感性差,很可能導致訂正效果大打折扣。這里采用兩種特征變量選取方案進行對比試驗,分別是相關系數判別(correlation coefficient discrimination,CCD)和主成分分析(principal component analysis,PCA)。前者根據物理量與小時雨量的相關系數絕對值大小進行挑選,以0.15為閾值從45個不同種類、不同層次的物理量中挑選出22個作為特征變量,該閾值已通過α=0.01的顯著性水平檢驗,結果如表2所示。后一種方案則是在預處理后對所有物理量進行主成分分析,由于輸入特征變量的數目對模型訓練存在影響,為了便于和前一種方案對比,也從45個主成分中挑選前22個主分量作為特征變量,這22個主分量的總解釋方差比例已經超過了97%,可見PCA的特征降維作用十分明顯,具體方案為:先對訓練集中每個樣本的場均值進行標準化處理,然后對標準化的場均值所組成的新序列進行主成分分析,獲取的主分量變換系數將應用于對應樣本的逐個格點上(經過如3.2.1節(jié)的預處理之后),從而構造出濃縮了絕大部分舊變量變化信息的新變量。
表2 相關系數絕對值≥0.15的物理量
3.2.3 K折交叉驗證下的數據集劃分
深度學習建模的核心在于訓練過程,訓練數據分布狀況的好壞將會直接影響模型最終的學習效果。為了削弱這種數據隨機性所導致的模型不穩(wěn)定性,應用K折交叉驗證方案將2017—2018年5—9月樣本數據劃分為8份,每份數據中的各等級降水樣本比例均與總體保持相同。每次建模使用其中的7份作為訓練集,剩余1份作為測試集,最后將8次試驗的平均結果作為評估指標。為了避免數據不均衡問題導致模型訓練出現“一邊倒”的情況,采用隨機欠采樣方案使訓練集樣本分布保持平衡,即以強降水類的樣本數為參考標準,從其他類中隨機抽取相近數目的樣本加入,缺點是其他類的數據利用率降低。另外,為了最大限度地利用現有數據集,從測試集中隨機抽取80%的樣本作為驗證集,該做法不會影響試驗的客觀性,驗證集的加入可以方便地跟蹤模型在每一代訓練階段后其擬合能力和泛化能力的變化趨勢。最終每次試驗所用的數據集數量分布如表3所示。
另外,應用2019年5—9月觀測數據與相應的RUC預報資料制作用于模擬業(yè)務檢驗的數據集。2019年數據集包含了19 566個中等降水樣本和5 323個強降水樣本,另外分別隨機抽取了50 000個無降水和50 000個弱降水的樣本加入,樣本總數共計為124 889個。該數據集體現了氣象數據所具有的時間關聯(lián)特征,能夠為基于前兩年數據訓練而得到的訂正模型提供比較真實的模擬測試條件。
表3 K折交叉驗證下的2017—2018年數據集樣本數(單位:個)
3.2.4 模型設計
試驗設計的訂正模型符合經典卷積神經網絡的拓撲結構(圖3),可訓練的總參數量在81萬個左右。第一層卷積層的卷積核尺寸設為1×1,主要目的在于使相對“平滑”的物理量場的空間分布信息更加突顯,其余卷積層均采用3×3的卷積核。同時,考慮到截取的“局部”物理量場空間范圍并不是太大,所以只在最終的卷積層之后才加入池化層,避免過度壓縮導致丟失大部分信息。為了進一步加快收斂速度和減輕過擬合的影響,模型中加入批規(guī)范化層(Ioffe and Szegedy,2015)和隨機失活層(Liang and Liu,2015)。最后由Softmax函數(Wang et al,2018)進行各個雨量等級的概率分布回歸,挑選出最大概率的降水等級作為模型輸出結果。模型訓練的損失函數設為多分類交叉熵(cross-entropy,CE)(Kline and Berardi,2005),其公式為:
(8)
式中:oi為觀測值,fi為預報值。交叉熵是度量兩個概率分布間的差異性信息的指標,其保持高梯度狀態(tài)的特性可以使模型的收斂速度基本不會受到影響。
圖3 預報訂正模型的卷積神經網絡拓撲結構
分別應用CCD和PCA兩種特征變量選取方案對基于卷積神經網絡的相同模型進行50次迭代訓練,以8次交叉驗證試驗的平均TS評分作為跟蹤指標觀察模型在訓練過程中的性能變化趨勢。如圖4 所示,兩者在訓練集上的TS評分和交叉熵變化均表現出“S”型曲線特征,總體趨勢無顯著差異。開始訓練時模型的識別能力類似于模式的原始預報,與降水強度成反比,第25代訓練以后,模型在訓練集上的TS評分均超過了0.4,交叉熵降至0.6以下,反映了模型的擬合能力隨著訓練過程而顯著改善。隨著迭代數繼續(xù)增加,模型不斷加速收斂,對訓練集中各個等級降水識別能力的差異性逐漸減小。最終TS評分達到0.8以上時收斂速度放緩,達到了理想的水平。在訓練集上兩個方案的最大差異在于PCA方案的訓練指標改善速度更快,后期能夠達到的極限水平也略高一些,這意味著PCA方案確實起到了壓縮特征變量信息的作用,挑選出來的主分量可使模型的擬合能力進一步增強。
另一方面,模型在驗證集上表現出較大反差(圖5)。模型對于陌生數據的識別能力在前15代中快速提升,之后根據降水等級表現出不同的變化趨勢。無降水和弱降水的過擬合問題相對于中等降水和強降水更加嚴重,其評估指標在20代之后隨著模型泛化能力轉差呈現下滑的趨勢。模型對中等降水的識別能力也在20代之后逼近極限,處于小幅振蕩狀態(tài),對強降水的識別能力則一直緩慢提升。綜合來看,本試驗中訂正模型對應的最佳訓練期應在20代之前,20代之后的訓練過程對于模型泛化能力的改善可能產生負作用。作為對比,同樣計算得出RUC原始預報在8次驗證試驗中的平均TS評分,無降水、弱降水、中等降水、強降水分別為0.428、0.260、0.050、0.013,可見雖然模型出現過擬合現象,但是對RUC原始預報仍存在顯著的改善作用,尤其對于中等降水和強降水的預報。另外,模型對中等降水和強降水的“學習”效果均優(yōu)于另外兩個等級,兩者第20代的TS評分相比第1代分別提升了35%和36%左右。
進一步對比兩種特征變量提取方案帶來的差異。PCA方案在訓練集上的收斂速度更快,從第10代起各項指標已明顯超越了CCD方案,但也更早進入過擬合狀態(tài),40代之后模型嚴重的過擬合狀態(tài)導致各項指標已難以繼續(xù)提升。驗證集上看,前期PCA方案下的TS評分在弱降水和強降水情況下優(yōu)于CCD方案,但隨著訓練代數增加反而變得與CCD方案持平或者更差,其原因可能是PCA方案下的模型更早(20代前后)進入嚴重的過擬合狀態(tài),這也意味著更早進入“負效果”的訓練階段;相反地,CCD方案的模型學習能力卻還在不斷增強,后續(xù)達到了更具“潛力”的狀態(tài)。不可忽視的是,驗證集樣本數量小于測試集和訓練集,產生的隨機性也會相對更大一些。
為了評估模型的訂正效果,在2017—2018年測試集上對比RUC原始預報以及頻率匹配法(frequency matching,FM)、CCD方案下的模型(以下簡稱CNN-CCD)和PCA方案下的模型(以下簡稱CNN-PCA)這三種不同的訂正方案。其中,FM的滑動統(tǒng)計窗口設為10 d。另外,根據CNN-CCD和CNN-PCA在驗證集上的表現,分別選取第20代和第14代模型作為最佳訓練期進行對比檢驗。
通過圖6a和6b可以看到,雖然基于卷積神經網絡的訂正模型出現過擬合問題,但仍然對RUC原始預報帶來了一定程度的提升,尤其在晴雨、弱降水和強降水預報下訂正效果更加顯著,CNN-CCD在這三種情況下的TS評分分別為0.697、0.528和0.060,其相對于原始預報的技巧評分分別達到了0.160、0.052和0.051,比FM分別高出了0.137、0.066和0.046,其針對30 mm·h-1以上的降水提升幅度最大。CNN-CCD與CNN-PCA的差異主要體現在強降水樣本上,CNN-PCA對強降水等級的預報無明顯改善作用。FM對RUC原始預報亦有微弱的改善作用,但是總體不如CNN-CCD與CNN-PCA。另外,無論哪種方案對中等降水等級的訂正效果均為最差,甚至不如RUC原始預報,原因可能有二:RUC本身對于中等降水事件的預報能力已經足夠優(yōu)秀,可訂正空間有限;中等降水對應的物理特征不夠突出,難以和弱降水或強降水相互區(qū)分,導致“學習”難度大。
從漏報率和空報率分析不同方案的誤差訂正來源:CNN-CCD和CNN-PCA均能大幅減少中等降水預報的漏報率,但晴雨預報的漏報率卻不降反升。另外,CNN-CCD大幅削減了強降水的漏報率,其削減率可達原始預報的56.8%,而CNN-PCA則在弱降水漏報率上表現最優(yōu)。由圖6d可見,CNN-CCD和CNN-PCA均無法改善中等以上降水的空報率,但能夠顯著改善晴雨和弱降水的空報率。相比而言,頻率匹配法對漏報率和空報率的削減幅度亦不如另外兩種方案??傮w來講,CNN-CCD和CNN-PCA可以取得更加理想的訂正效果,特別是CNN-CCD對強降水等級預報的訂正十分有效。
圖4 CCD(a)與PCA(b)方案下訓練集的TS評分與交叉熵
圖5 驗證集上不同降水等級的TS評分(a)無降水,(b)弱降水,(c)中等降水,(d)強降水
為了更加真實地對比不同訂正方案在實際業(yè)務應用中的表現差異,制作了2019年數據集進行檢驗。RUC在2019年5月進行了性能升級,進一步加大了不同方案的適應難度,能夠更好地模擬完全陌生的實際業(yè)務數據環(huán)境。
首先從圖7觀察到不同訂正方案在2019年數據集上的表現差異不同于2017—2018年的測試集,主要原因是模式調整帶來的誤差分布變化,但仍然可以發(fā)現CNN-CCD和CNN-PCA在TS評分和ETS評分上基本超過了FM。從TS評分上看,CNN-CCD和CNN-PCA在晴雨預報和弱降水預報上差異不大,均超過了0.68的水平,而在中等降水和強降水上表現卻截然相反,中等降水來講CNN-PCA更優(yōu),這也是兩個測試集之間具有較大差異之處;而在強降水上則是CNN-CCD顯著超過CNN-PCA和FM,甚至達到了0.2以上。ETS評分的趨勢與TS評分基本一致。
圖6 不同訂正方案在2017—2018年測試集上的評估指標(a)TS評分,(b)ETS評分,(c)漏報率,(d)空報率
圖7 同圖6,但為2019年數據集
另外,圖7c的漏報率對比體現了CNN-PCA在分類訂正方面更勝一籌,尤其是在弱降水和強降水預報上對漏報率的改善效果十分突出,但晴雨預報的漏報率反而最高??請舐史矫?,CNN-CCD和CNN-PCA的訂正作用均主要體現在晴雨預報和弱降水預報上,中等降水和強降水的空報率削減幅度較不明顯。通過在2019年測試集上的進一步檢驗可以看到,CNN-CCD和CNN-PCA對未知數據的穩(wěn)定性和適應性均優(yōu)于傳統(tǒng)的統(tǒng)計方法,具備較高的實際業(yè)務應用價值。
本文從站點的角度檢驗了RUC在福建省5—9月的逐時降水預報性能,建立和訓練了基于卷積神經網絡的逐時降水分級訂正模型,應用CCD和PCA兩種不同方案提取模式預報物理量作為輸入特征變量分別在2017—2018年的K折交叉驗證測試集和2019年的模擬業(yè)務數據集上進行訂正試驗,并與頻率匹配法對比分析訂正效果。試驗結果表明:
(1)RUC的晴雨預報存在干偏差,其分類降水預報卻存在濕偏差,對于15 mm·h-1以上降水的預報能力弱。從TS評分上看,各訂正方案對RUC原始預報均有不同程度的改進作用,但頻率匹配法對弱降水預報反而起到負的訂正作用。傳統(tǒng)的頻率匹配法直接從頻率統(tǒng)計的角度改善模式降水預報的系統(tǒng)性誤差,CNN-CCD與CNN-PCA則能夠通過模式對環(huán)境條件的預報信息推測出降水分類結論,兩者原理截然不同。從各類評估指標來看CNN-CCD與CNN-PCA對原始預報的提升幅度更加突出,尤其對晴雨和弱降水的改善效果更加理想,其中CNN-CCD對30 mm·h-1降水預報的訂正十分有效。
(2)在模型的輸入特征變量選取方面,PCA方案下訓練時的收斂速度較快,最佳訓練期有所提前,但也更早進入嚴重的過擬合狀態(tài),這也意味著更早進入“負效果”的訓練階段。相反,CNN-CCD在訓練過程中表現出了較長的提升期,從而在強降水預報方面達到了更具“潛力”的狀態(tài)。
(3)基于卷積神經網絡的訂正方案對減少分類降水預報的漏報率、晴雨和弱降水預報的空報率具有顯著作用,優(yōu)化程度明顯超過頻率匹配法。
(4)試驗所設計的CNN-CCD對應的最佳訓練期在20代左右,CNN-PCA對應的最佳訓練期在14代左右。模型表現出來的過擬合問題反映了其擬合能力較強、泛化能力較差的缺陷,最主要原因可能是各類樣本可分性較差、訓練樣本數量與模型容量不相適應等,下一步將針對此問題繼續(xù)優(yōu)化和改進。