蔣 薇 劉蕓蕓 陳 鵬 張志薇
1.江蘇省氣候中心,南京,210041 2.國家氣候中心,中國氣象局氣候研究開放實驗室,北京,100081 3.江蘇省氣象信息中心,南京,210041 4.江蘇省氣象科學研究所,南京,210041
中國東部地區(qū)受東亞季風活動影響,是洪澇災害較為嚴重的地區(qū)之一(黃榮輝等,2003;Ding,et al,2021)。因此,針對東部地區(qū)夏季降水預測的研究一直是氣候研究的重要課題之一(丁一匯等,1997;Fan,et al,2008;魏鳳英等,2010)。準確的降水預測是洪澇防治和防災、減災的關鍵(馮強等,2001)。
影響中國東部夏季旱澇的物理過程和影響因子眾多,諸如東亞季風、西北太平洋副熱帶高壓、中高緯度大氣模態(tài)、ENSO循環(huán)、西太平洋熱力狀況等(高輝等,2003;張慶云等,2007;梁萍等,2008;朱蒙等,2014;李秀真等,2018;劉蕓蕓等,2009,2020)。此外,由于預測因子之間存在復雜的相互聯(lián)系,使得夏季降水預測面臨巨大的挑戰(zhàn)(彭京備等,2006;楊杰等,2012;杜良敏等,2016)。近年來中國夏季降水預測準確率為60%—70%,而長江流域只有50%左右(李維京等,2013)。江蘇省地處中國東部地區(qū),位于長江、淮河下游,河湖縱橫,水網(wǎng)密布,洪澇災害不容忽視,例如1991年夏季江淮流域暴雨、1998年長江全流域特大洪水、2003和2007年淮河流域洪澇災害、2016年長江中下游地區(qū)區(qū)域性暴雨等事件,都造成了人員傷亡和巨大經(jīng)濟損失。因此,提高對江蘇夏季旱澇的預測能力意義重大。
進入21世紀以來,機器學習方法在諸多領域得到了越來越多的應用,涌現(xiàn)出了大量研究成果(Gers,et al,2000;Ranzato,et al,2007;LeCun,et al,2015)。其中,由多層感知機基礎上發(fā)展而來的人工神經(jīng)網(wǎng)絡(ANN)成為機器學習領域發(fā)展最快的一個分支,在此基礎上發(fā)展出了遞歸神經(jīng)網(wǎng)絡(RNN)、卷積神經(jīng)網(wǎng)絡(CNN)和深度神經(jīng)網(wǎng)絡(DNN)等適應于不同應用場景的神經(jīng)網(wǎng)絡方法。與傳統(tǒng)的統(tǒng)計方法相比,神經(jīng)網(wǎng)絡模型由于結(jié)構(gòu)復雜,訓練數(shù)據(jù)量大,往往能夠通過機器學習獲取更加復雜的時間、空間甚至是物理特征,因此被廣泛應用于政府決策、工業(yè)生產(chǎn)、金融預測、科學研究等領域,且取得了不錯的效果(Tompson,et al,2014;Yan,et al,2018)。
數(shù)據(jù)和算法是氣象預報、預測的核心。隨著觀測手段及預報、預測業(yè)務的發(fā)展,氣象數(shù)據(jù)的覆蓋范圍廣、時間頻次高,為利用機器學習算法提升氣象預報、預測水平提供了有力的數(shù)據(jù)基礎和技術支撐。另外,天氣、氣候系統(tǒng)是典型的非線性復雜系統(tǒng),預報、預測涉及的要素多,關系復雜。傳統(tǒng)的預測方法存在一定的局限性,其中天氣學方法主要依賴于預報員的主觀經(jīng)驗,而統(tǒng)計學方法則沒有充分利用已知的物理規(guī)律,二者都很難實現(xiàn)真正意義上的非線性預報(任宏利等,2007)。20世紀90年代,已有相關研究工作(孫照渤等,1998)嘗試將人工神經(jīng)網(wǎng)絡應用于夏季降水預報中。近十幾年來,機器學習技術在氣象預報領域得到了越來越多地應用,已有一些學者(孫軍波等,2010;孫照渤等,2013;孔令 彬 等,2014;李 文 娟 等,2018;Kamani,et al,2018;Haberlie,et al,2019;孫全德等,2019;任萍等,2020;周康輝等,2021)將機器學習應用于短時臨近預報和天氣模式的預報訂正中,研究表明利用機器學習方法和觀測、預測數(shù)據(jù)可以實現(xiàn)有效信息的提取,實現(xiàn)更準確的天氣預報。也有一些研究(李智才等,2006;Kisi,et al,2012;Ho,et al,2014;苗春生等,2017;Reichstein,et al,2019;沈皓俊等,2020)在極端氣候事件、環(huán)流異常、全球溫度變化等方面進行了探討?;跈C器學習方法,利用多因子建模開展對中國汛期區(qū)域降水的預測,近年來也已取得了一些突破性進展。例如,Wei等(2020)用決策樹方法嘗試構(gòu)建了中國汛期降水預測模型;Tong等(2019)發(fā)展了一套遞歸隨機森林方法,從中國氣象局國家氣候中心發(fā)布的88個環(huán)流因子中選取出影響華北降水異常的決定性因子;Gao等(2019)運用多元Logistic回歸的方法建立了中國東部降水的客觀預測模型。這些研究成果無疑為進一步提升季節(jié)預測準確率提供了一個新的研究方向。
深度神經(jīng)網(wǎng)絡模型可以嘗試從樣本量較小的氣候數(shù)據(jù)中發(fā)現(xiàn)和學習復雜非線性特征(Tompson,et al,2014;Yan,et al,2018)。本研究利用江蘇省67個國家級氣象觀測站降水資料和氣候指數(shù)數(shù)據(jù)集,基于深度神經(jīng)網(wǎng)絡模型對江蘇省夏季降水開展季節(jié)預測試驗,構(gòu)建夏季降水預測模型,并與傳統(tǒng)統(tǒng)計方法和多種機器學習算法的預測效果進行對比。在此基礎上,通過對深度神經(jīng)網(wǎng)絡模型的網(wǎng)絡層數(shù)、神經(jīng)元數(shù)量以及學習率等超參數(shù)進一步對比優(yōu)化(Wistuba,et al,2015),從而獲得最優(yōu)超參數(shù)方案。最后,對比分析不同預測因子組合的預測結(jié)果,討論影響深度神經(jīng)網(wǎng)絡模型預測結(jié)果的因素。本研究嘗試將深度學習方法與氣候預測業(yè)務融合,為氣候預測提供一種新思路,推動氣候預測業(yè)務智能化發(fā)展。
降水觀測資料是由江蘇省氣象信息中心提供的全省70個國家級氣象觀測站(圖1)1961—2019年夏季(6—8月)降水數(shù)據(jù),經(jīng)過質(zhì)量控制剔除存在缺測的站點,實際使用站點為67個。本研究中氣候態(tài)為1981—2010年30 a的平均值,這里關注夏季降水異常分布,預測對象和建模時使用的是各站的降水距平百分率。
圖1 江蘇省70個國家級氣象觀測站分布Fig.1 Distribution of 70 national observation stations in Jiangsu province
此外,選取了由中國國家氣候中心以及美國國家海洋和大氣管理局(NOAA)發(fā)布的共130項氣候指數(shù)數(shù)據(jù)集作為預測因子(王啟光等,2011),起始時間為1961年1月至2019年3月。將其分為88項大氣環(huán)流指數(shù)、26項海溫指數(shù)和16項積雪、海冰等陸面因子氣候指數(shù)(楊杰等,2012;沈皓俊等,2020)。數(shù)據(jù)取自http://cmdp.ncc-cma.net/Monitoring/cn_index_130.php。所有因子均分別經(jīng)過歸一化處理后再輸入模型進行建模和預測。歸一化公式如下,其中X表示任一預測因子矩陣,X'為歸一化處理后得到的新矩陣。
所有方案中的因子都應用于模型訓練,模型在訓練過程中迭代更新網(wǎng)絡權重的過程,包含了傳統(tǒng)預測方法中根據(jù)權重、相關性篩選預測因子的過程,通過模型的迭代訓練和更新,根據(jù)因子對預測誤差的貢獻,動態(tài)更新各個因子的權重,其中重要的因子權重較大,而不重要的因子會得到非常低的權重。
2.2.1 深度神經(jīng)網(wǎng)絡
深度神經(jīng)網(wǎng)絡是在感知機基礎上發(fā)展出來的一種具有多個隱含層的人工神經(jīng)網(wǎng)絡(Schmidhuber,2015)。深度神經(jīng)網(wǎng)絡內(nèi)部的神經(jīng)網(wǎng)絡層可以分為3類:輸入層、隱藏層和輸出層,第一層是輸入層,最后一層是輸出層,中間的都是隱藏層。數(shù)據(jù)經(jīng)輸入層進入網(wǎng)絡,其維度由實際輸入數(shù)據(jù)的維度決定,經(jīng)過各層向后流動,最后到達輸出層輸出。
網(wǎng)絡中間有n個隱藏層,每層含有若干個神經(jīng)元,層與層之間是全連接的,如第i層的任意一個神經(jīng)元一定與第i+1層的任意一個神經(jīng)元相連,對于每個神經(jīng)元之間的局部模型來說,計算包含線性變換和激活函數(shù)兩部分,激活函數(shù)是用來加入非線性因素,解決線性模型所不能解決的問題。不同網(wǎng)絡層之間是由激活函數(shù)來模擬神經(jīng)元對激勵的響應,通過選擇不同的激活函數(shù)以及動態(tài)阻斷前后層神經(jīng)元之間的連接,可以使模型更好地學習到數(shù)據(jù)的非線性特征,避免出現(xiàn)過擬合的情況。常用的激活函數(shù)有雙曲正切函數(shù)、線性整流函數(shù)、泄露線性整流函數(shù)等,文中使用的是線性整流函數(shù),其優(yōu)勢在于可以解決梯度消失問題,還能加快收斂速度提高學習速度(Krizhevsky,et al,2012)。
深度神經(jīng)網(wǎng)絡的訓練過程包含前向傳播算法和后向傳播算法2個步驟:第1步是前向傳播算法,進行一系列線性運算和激活運算,從輸入層開始,一層層向后計算,一直到輸出層,得到輸出結(jié)果。第2步后向傳播算法,選擇一個損失函數(shù),也就是誤差評定標準,度量訓練樣本計算出的輸出和真實的訓練樣本輸出之間的損失,對這個損失函數(shù)進行優(yōu)化求最小化的極值過程中,后向不斷對一系列線性系數(shù)w和偏倚向量b進行更新,直到達到預期效果。
2.2.2 其他預測方法
此外,還使用輕量級梯度提升機(Light GBM)、隨機森林(RF)、支持向量機(SVM)等機器學習方法和線性回歸(LR)方法,比較不同的客觀預測方法對江蘇省夏季降水的預測能力。
輕量級梯度提升機是2017年8月微軟公司開源的一個實現(xiàn)梯度提升決策樹算法的框架(Ke,et al,2017),能夠解決樣本量大、數(shù)據(jù)維度高時占用內(nèi)存大、耗費時間長等問題,通過訓練回歸決策樹對樣本數(shù)據(jù)進行學習并做出合理的預測。
隨機森林是由Breiman(2001)和Adele Cutler提出的機器學習算法,通過隨機生成多棵決策樹對樣本進行分類回歸,在降低過度擬合情況的前提下實現(xiàn)預測。其優(yōu)勢體現(xiàn)在可以將高維度數(shù)據(jù)轉(zhuǎn)化為多個變量輸入并且確定最重要的變量,達到降低數(shù)據(jù)維度的目的。
支持向量機開始提出是為了解決分類問題(Cortes,et al,1995),經(jīng)過推廣可以將之應用到求解回歸問題中(Drucker,et al,1997)。利用統(tǒng)計理論中的結(jié)構(gòu)風險最小化原則在非線性問題上具有一定的優(yōu)勢,但訓練出來的模型往往存在泛化能力差的缺陷,所以需要集成其他算法對模型進行進一步優(yōu)化。
線性回歸是傳統(tǒng)氣候預測中應用最為廣泛的統(tǒng)計方法(魏鳳英,2007),其具體做法是將變量逐個引入,以保證最后得到的解釋變量集是最優(yōu)的。
2.2.3 評價指標
均方根誤差(RMSE)和平均絕對誤差(MAE)是機器學習常見的回歸評價指標(門曉磊等,2019),其誤差值越小代表模型預測技巧越高。這里主要參考這兩個指標來判斷不同的機器學習方法對預報對象的適用性。氣候趨勢預測評分(PS)、距平符號一致率(SC)和距平相關系數(shù)(ACC)是中國氣候預測業(yè)務中常用的預測準確率評價指標(陳桂英等,1998),主要用于對江蘇省夏季降水預測結(jié)果的評估。
此外,采用交叉檢驗和獨立樣本檢驗(吳洪寶等,2005)兩種方式來評估模型的預測技巧。為了避免模型過擬合,提高模型泛化能力,增強模型的實際業(yè)務應用能力,本研究將1961—2014年作為訓練時段,2015—2019年作為預測時段,檢驗模型的實際預測能力。
從江蘇省夏季降水的標準化距平序列(圖2)可以看到,1961—2019年江蘇省夏季降水總體呈現(xiàn)上升趨勢,且表現(xiàn)出明顯的階段性變化。20世紀60年代至80年代前期為少雨期;80年代后期至90年代前期夏季降水增多,進入相對多雨期;90年代中后期夏季降水減少;從90年代末至21世紀以來,夏季降水再次顯著增加,進入多雨期。此外,2015—2019年江蘇省夏季降水階段性特征顯著,2015—2016年為顯著多雨年,2017—2019年則是相對少雨年。近年來,江蘇省夏季降水極端性也較強,2015年蘇南地區(qū)降水量較常年偏多7成,僅次于1991和1999年,夏季前期6—7月江蘇省梅雨量偏多,盛夏期間7—8月先后受到“燦鴻”“蘇迪羅”和“天鵝”3個臺風影響,風大雨強;2016年夏季“暴力梅”致全省江河湖堤全線超警,梅雨期降水量為430.8 mm,較常年偏多1倍;2017年夏季降水量顯著偏少,區(qū)域性暴雨日數(shù)為1961年以來最少。因此,將2015—2019年作為本研究的預測時段,具有較好的代表性。
圖2 1961—2019年江蘇省夏季平均降水量標準化距平序列 (黑色線為5 a滑動平均)Fig.2 Time series of normalized anomaly of summer precipitation in Jiangsu province from 1961 to 2019(the black line is the 5 a moving average)
預測因子的選取是建立預測模型非常重要的部分,因子選擇是否合適對預測模型的結(jié)果有很大影響。這里考慮將130項指數(shù)在當年1、2月和前一年3—12月的所有因子作為預測前兆信號使用,共130×12=1560個因子。對因子進行初步篩選,把缺測較多的因子去掉,參加建模的共1153個因子。因子中既包含了因子的年際變化尺度,也包含冬春季因子變化對后期的跨季節(jié)影響。考慮到因子的物理意義,將其分為3組,即大氣環(huán)流因子組、海溫因子組和積雪等其他因子組。對比試驗中,在因子組合上考慮了5種方案,方案1—3是單獨考慮大氣環(huán)流因子、海溫因子和積雪等其他因子,方案4是包括所有預測因子,方案5將前3種方案融合后的動態(tài)權重集合(表1),5種方案的計算流程如圖3所示。方案5是將方案1—3的模型作為基礎模型,將3個方案產(chǎn)生的預測結(jié)果作為方案5的預測因子,進行訓練,構(gòu)建預測模型,最終得到動態(tài)的加權模型,加權模型能夠在一定程度上降低預測誤差。
圖3 5種因子方案與計算流程示意Fig.3 Schematic diagram of five factor schemes and calculation process
表1 5種方案的因子選擇組合Table 1 Five different schemes of factor selection and combination
使用深度神經(jīng)網(wǎng)絡、輕量級梯度提升機、隨機森林、支持向量機和線性回歸等多種預測方法預測江蘇省夏季降水,對比不同模型的學習和泛化能力,選出最優(yōu)模型。利用上述5種方法和方案4預測江蘇省夏季降水距平百分率,將1961—2014年作為訓練時段,2015—2019年作為預測時段。表2為預測的誤差分析結(jié)果,綜合考慮平均絕對誤差和均方根誤差兩個指標,深度神經(jīng)網(wǎng)絡模型較其他方法有一定的優(yōu)勢,故選擇深度神經(jīng)網(wǎng)絡模型做進一步的預測試驗。
表2 不同方法得到的江蘇省夏季降水預測誤差分析Table 2 Error analysis of summer precipitation prediction in Jiangsu province obtained by different methods
由于不同站點的實際地形、氣候特征存在差異,針對江蘇省67個國家級氣象觀測站分別搭建深度神經(jīng)網(wǎng)絡模型,并對每個模型的參數(shù)進行調(diào)優(yōu),需要調(diào)優(yōu)的參數(shù)如表3所示。深度神經(jīng)網(wǎng)絡模型是基于PyTorch框架進行建模,其中隱含層節(jié)點數(shù)對應了每層提取的數(shù)據(jù)特征,節(jié)點數(shù)過少無法提取到足夠多的數(shù)據(jù)特征,節(jié)點數(shù)過多會出現(xiàn)數(shù)據(jù)過擬合的現(xiàn)象,此處隱含層節(jié)點參數(shù)設為10、20、50和100共4種。神經(jīng)網(wǎng)絡層數(shù)為5—10層,通過對比不同層數(shù)模型的訓練效果,確定最優(yōu)隱含層數(shù)。訓練批次是模型的訓練迭代次數(shù),學習率決定了模型梯度更新的快慢,本研究學習率的初始值在訓練中設為0.01,隨著模型訓練迭代學習率逐漸減少至0.0001,這樣可以保證訓練前期模型較快收斂到最優(yōu)值附近,訓練后期又能夠更精確地找到全局最優(yōu)解。此外,激活函數(shù)能夠使模型更好地學習到數(shù)據(jù)的非線性特征,經(jīng)過對比參數(shù)方案中的3種激活函數(shù)發(fā)現(xiàn),線性整流函數(shù)(Rectified Linear Unit,簡稱ReLU)在實際預測中能夠起到更好的效果。為了避免數(shù)據(jù)出現(xiàn)過擬合,在模型訓練中采用十折交叉驗證,每個訓練批次中都將1961—2014年的逐年數(shù)據(jù)隨機分成10份,每一份數(shù)量不需要完全相同。輪流將其中9份作為訓練數(shù)據(jù)、1份作為驗證數(shù)據(jù),循環(huán)進行10次后,針對每年數(shù)據(jù)都有10個驗證結(jié)果,計算10個驗證結(jié)果的誤差平均作為該訓練批次的交叉驗證誤差,在訓練達200個批次時取驗證誤差最小的作為最優(yōu)模型。
表3 深度神經(jīng)網(wǎng)絡參數(shù)Table 3 DNN network parameters
利用參數(shù)調(diào)優(yōu)后的深度神經(jīng)網(wǎng)絡模型預測1961—2019年的江蘇省67個國家級氣象觀測站夏季降水距平百分率,并與觀測結(jié)果進行對比。圖4給出了1961—2014年訓練時段江蘇區(qū)域平均夏季降水距平百分率的觀測與預測結(jié)果的對比。方案1—5模擬的夏季降水與觀測值的年際變化幾乎一致,兩者相關系數(shù)都在0.99以上,達到0.001的顯著性水平。而2015—2019年預測時段,方案1—5模擬的夏季降水與觀測值存在一些差異。下面將定量化評估預測時段的預測效果。
圖4 1961—2014 年江蘇區(qū)域平均夏季降水的觀測(藍色柱狀)與訓練期模擬結(jié)果(黑線)的逐年變化(a.方案 1,b.方案 2,c.方案 3,d.方案 4,e.方案 5)Fig.4 Time series of observed(blue bars)and predicted(black lines)summer precipitation in Jiangsu province from 1961 to 2014 (a.Scheme 1,b.Scheme 2,c.Scheme 3,d.Scheme 4,e.Scheme 5)
首先對5種方案的訓練時段和預測時段分別進行評分。5種方案在訓練時段的交叉預報檢驗結(jié)果都具有很好的評分(表4),PS評分為97.0—99.2,距平符號一致率為0.93—0.98,距平相關系數(shù)評分為0.95—0.99。但預測時段的獨立樣本預報檢驗結(jié)果存在較大差異(表4和圖5)。在方案1中,只使用大氣環(huán)流因子,其5 a回報的PS評分為77.7、符號一致率為0.64,距平相關系數(shù)達0.34,總體效果不錯。方案2只使用海溫因子,方案3使用積雪等其他因子,盡管這兩個方案建模在訓練期的交叉檢驗結(jié)果僅比方案1稍差,但獨立樣本檢驗結(jié)果不太理想,方案2的5 a平均距平相關系數(shù)為負值。方案4是考慮了大氣、海溫、積雪等所有因子,訓練期的交叉預報檢驗結(jié)果評分較方案1有所提升,但獨立樣本檢驗的結(jié)果不如方案1。方案5是方案1—3的動態(tài)權重集合,包含了所有預測因子和不同因子方案的信息,具有集合的思想,建模的交叉預報檢驗結(jié)果有明顯提升,且獨立樣本檢驗結(jié)果也較為穩(wěn)定,PS評分為76.4,距平符號一致率為0.62,距平相關系數(shù)的5 a均值達到了0.35,逐年的交叉預報檢驗結(jié)果僅有1 年為負值,表明其預測結(jié)果相對穩(wěn)定,預測結(jié)論有較好的參考價值。
圖5 5種方案對江蘇省夏季降水2015—2019 年的獨立樣本預報檢驗評分(a.方案 1,b.方案 2,c.方案 3,d.方案 4,e.方案 5)Fig.5 Independent forecast verification for summer precipitation in Jiangsu province during 2015—2019 through five different schemes(a.Scheme 1,b.Scheme 2,c.Scheme 3,d.Scheme 4,e.Scheme 5)
表4 5種方案的交叉檢驗和獨立預測檢驗Table 4 Cross-validation and independent forecast verification for five schemes
進一步對方案5的逐年空間預報結(jié)果與觀測進行對比分析。在2015—2019年預測時段,2015年(圖6a)和2019年(圖6c)的江蘇夏季降水空間分布類型有顯著差異:2015年降水以偏多為主,主雨帶位于蘇南地區(qū),而2019年降水則以整體偏少為主。對比這兩年的預測結(jié)果(圖6b、d)可以看到,預測的空間型與實況基本相符。此外,2015年預報偏多2成以上的區(qū)域與實況較為一致,2019年偏少2成以上的區(qū)域也有所體現(xiàn),可見預測結(jié)果對偏多或者偏少的異常量級把握也較好,在一定程度上能夠預測出降水的極端性。說明深度神經(jīng)網(wǎng)絡結(jié)合動態(tài)權重集合方案的預報模型對江蘇省夏季降水具備較好的預測能力。
圖6 2015 (a、b) 和2019 (c、d) 年觀測的 (a、c) 和方案5預測的 (b、d) 江蘇夏季降水距平百分率 (%) 分布Fig.6 Distributions of observed (a,c) and predicted (b,d) summer precipitation anomaly percentage (%) in Jiangsu province under Scheme 5 in 2015 (a,b) and 2019 (c,d),respectively
江蘇夏季降水根據(jù)時空演變特征可以從南至北劃分為蘇南、江淮和淮北3個區(qū)域(呂軍等,2006)。圖7給出了蘇南地區(qū)(30.5°—32.0°N,118.5°—122.0°E)、江淮地區(qū)(32.0°—33.5°N,118.0°—121.0°E)和淮北地區(qū)(33.5°—35.0°N,116.5°—120.5°E)3個區(qū)域的降水預測與觀測實況的對比。降水預測結(jié)果成功地再現(xiàn)了2015—2019年蘇南夏季降水逐年減少的變化特征,降水距平同號率為1,5 a預測值和觀測值的趨勢都呈現(xiàn)出一致偏多或偏少,其中2019年預測值與觀測值最為接近(圖7a)。預測(圖7b)也很好地呈現(xiàn)出2015—2019年江淮地區(qū)夏季降水的下降趨勢,降水距平百分率的同號率為0.8,其中2016和2017年預測和實況最接近,尤其在2016年,二者幾乎相等?;幢钡貐^(qū)降水預測結(jié)果(圖7c)和實況在前2年存在一些差異,后3年較為一致,降水距平同號率為0.6,其中2018年預測與實況趨于一致。由前面的分析可知2018年江蘇全省預測效果不理想,從分區(qū)域預測和實況對比來看,主要是由于江淮地區(qū)預測與觀測趨勢相反,而蘇南和淮北地區(qū)均把握住了偏少的趨勢??梢?,深度神經(jīng)網(wǎng)絡結(jié)合動態(tài)權重集合因子的預報方案能夠較好地預測江蘇夏季降水,預測技巧存在一定區(qū)域差異,對江蘇中部和南部的預測技巧更高,獨立樣本檢驗期5 a評分江淮地區(qū)的PS為78.4,距平相關系數(shù)為0.39;蘇南地區(qū)的PS為74.9,距平符號一致率為0.34。表明模型對江蘇中南部地區(qū)夏季降水具有更高的預測能力和業(yè)務應用價值。
圖7 2015—2019 年江蘇省不同區(qū)域(a.蘇南地區(qū),b.江淮之間地區(qū),c.淮北地區(qū))夏季降水的深度神經(jīng)網(wǎng)絡動態(tài)權重集合方案預測結(jié)果與觀測實況的對比Fig.7 Comparison of the observed and predicted summer precipitation in different regions of Jiangsu province(a.South Jiangsu,b.Central Jiangsu,c.North Jiangsu)under DNN dynamic weight set scheme from 2015 to 2019
深度學習在氣象中的應用目前還處于初級階段,這種數(shù)據(jù)驅(qū)動的方式有可能發(fā)現(xiàn)過去未知的規(guī)律和內(nèi)在聯(lián)系,從而推動氣象領域的新認識(Reichstein,et al,2019)??山忉屝砸恢笔侨斯ど窠?jīng)網(wǎng)絡發(fā)展的重大方向,受制于模型的復雜性以及人們對模型可解釋性的認知,深度神經(jīng)網(wǎng)絡目前還很難像傳統(tǒng)的統(tǒng)計方法或氣候模式一樣找到相對直觀的物理機理解釋。這里,試圖通過對比試驗來初步討論不同因子方案對預測結(jié)果的影響。
圖8是預測時段使用不同因子方案的深度神經(jīng)網(wǎng)絡預測結(jié)果與江蘇區(qū)域平均夏季降水實況的對比。與觀測實況相比,深度神經(jīng)網(wǎng)絡方法整體預測性能在2015、2016、2019年較好,大部分方案把握住了降水偏多或偏少的異常趨勢,2015年方案1、2、4、5和2016年方案1、4、5都預測出偏多2成以上,偏多異常預測正確,2019年方案1、4、5都預測出偏少2成以內(nèi),其中方案5與實況完全一致,而2017、2018年預測效果不太理想。比較不同方案發(fā)現(xiàn),大氣環(huán)流因子、所有因子和動態(tài)權重集合的方案都能較好地模擬出江蘇夏季降水的趨勢變化特征,動態(tài)權重集合方案與實況更為接近、更加穩(wěn)定,而海溫因子和積雪等其他因子的方案模擬能力年際差異較大,在特定年份表現(xiàn)出技巧,方案2在2015、2016年與觀測值接近,可能與這兩年處于超強厄爾尼諾背景有關;方案3在2018、2019年與觀測值接近,可能與這兩年高原積雪異常信號較為明顯有關(2017/2018年冬季高原積雪偏少,2018/2019年冬季積雪則異常偏多)。說明海溫和積雪等其他因子在異常信號顯著時對江蘇夏季降水預測也有正貢獻。
圖8 2015—2019年逐年江蘇區(qū)域平均夏季降水實況與不同因子方案深度神經(jīng)網(wǎng)絡預測結(jié)果對比Fig.8 Comparison between real-time average summer precipitation in Jiangsu from 2015 to 2019 and predictions of different schemes with DNN
表5給出了2015—2019年深度神經(jīng)網(wǎng)絡結(jié)合不同方案的預測結(jié)果與觀測的誤差指標對比??傮w來看,方案2和方案3預測結(jié)果的誤差較大,方案1、4、5誤差較小,從誤差分析結(jié)果來看方案5最佳。誤差指標對比的結(jié)果同樣是大氣環(huán)流因子、所有因子和動態(tài)權重集合的方案效果較好,動態(tài)權重集合方案的誤差最小。綜上所述,大氣環(huán)流因子對江蘇夏季降水預測有主要貢獻,海溫因子和積雪等其他因子的貢獻在不同年份存在差異,動態(tài)權重集合方案預測效果最好。
表5 2015—2019年不同因子方案深度神經(jīng)網(wǎng)絡預測江蘇夏季降水與觀測的誤差指標對比Table 5 Comparison of error index between different DNN schemes for summer precipitation predictions and observations in Jiangsu province
利用1961—2019年江蘇省67個國家級氣象觀測站降水量和氣候指數(shù)數(shù)據(jù)集等資料,選取大氣環(huán)流、海溫和積雪等先兆信號的不同組合作為預測因子方案,使用深度神經(jīng)網(wǎng)絡、輕量級梯度提升機、隨機森林、支持向量機和線性回歸等方法建立預測模型,開展江蘇省夏季降水的預測試驗,對預測效果進行對比分析,并探討了不同預測因子方案對江蘇省夏季降水預測結(jié)果的潛在影響。具體結(jié)論如下:
(1)1961—2019年江蘇省夏季降水總體呈現(xiàn)上升趨勢,且表現(xiàn)出明顯的階段性變化,近5年中2015—2016年為顯著多雨年,2017—2019年為相對少雨年。對比分析深度神經(jīng)網(wǎng)絡、輕量級梯度提升機、隨機森林、支持向量機和線性回歸等預測模型對江蘇省夏季降水的預測結(jié)果誤差特征,發(fā)現(xiàn)利用深度神經(jīng)網(wǎng)絡模型對江蘇省夏季降水預測具有一定優(yōu)勢。
(2)不同因子方案的深度神經(jīng)網(wǎng)絡預測結(jié)果在訓練時段(1961—2014年)的交叉預報檢驗結(jié)果都有很好的表現(xiàn),但從預測時段(2015—2019年)的獨立樣本預報檢驗結(jié)果來看,動態(tài)權重集合的方案預測效果最好,深度神經(jīng)網(wǎng)絡結(jié)合動態(tài)權重集合因子方案能夠較好地預測江蘇夏季降水,獨立樣本檢驗PS評分為76.4,距平符號一致率為0.62,距平相關系數(shù)的5 a均值達到了0.35,其預測結(jié)果較為穩(wěn)定。預測技巧還存在區(qū)域差異,對江蘇中南部的預測技巧更高,具有業(yè)務應用價值。
(3)不同預測因子組合方案的預測結(jié)果對比分析表明,就單類型因子方案而言,大氣環(huán)流因子方案優(yōu)于海溫因子和積雪等其他因子方案,對江蘇夏季降水預測有主要貢獻,海溫因子和積雪等其他因子的貢獻在不同年份存在差異;所有因子方案優(yōu)于大氣環(huán)流因子方案,說明海溫因子和積雪等其他因子在特定年份有正貢獻;將所有因子和方案信息進行動態(tài)權重集合的方案預測效果最好,說明深度神經(jīng)網(wǎng)絡模型結(jié)合動態(tài)權重集合方案有助于提升季節(jié)預測準確性。
本研究針對汛期降水預測這一重點與難點,使用深度神經(jīng)網(wǎng)絡方法建立預測模型,有效提升了預測的準確性,為汛期降水預測提供了一種可能的參考。在對比不同預測因子方案時發(fā)現(xiàn),單獨使用海溫因子的方案預測效果不佳,且大氣環(huán)流因子總體優(yōu)于海溫和積雪陸面因子,這可能一方面是海溫因子僅考慮了某幾個區(qū)域平均指數(shù),而海溫對大氣和降水的影響需要綜合考慮海溫的不同發(fā)展階段和空間分布型;另一方面這里的分析主要針對江蘇夏季降水,預報對象區(qū)域范圍較小,關鍵大氣環(huán)流因子對局地降水的關系和表征性更為直接,而熱帶海溫異常信號對較小區(qū)域范圍的降水異常的關系不一定顯著。但也需要指出,本研究的結(jié)果是初步的,而深度學習的可解釋性范疇仍是計算機領域的熱點問題,如何更有效地解釋深度神經(jīng)網(wǎng)絡方法預測降水的物理機制仍有待于進一步探索。
本研究使用近幾十年的觀測數(shù)據(jù)建模,但實際上與機器學習方法建模所需要的大量數(shù)據(jù)樣本相比還存在較大差距,會增加模型獲得穩(wěn)定有效特征的難度,同時數(shù)據(jù)樣本不夠還會導致出現(xiàn)過擬合問題。為了避免模型出現(xiàn)過擬合,在模型訓練中采用了隨機失活和十折交叉驗證兩種優(yōu)化方法,隨機失活即在訓練過程中隨機將部分隱含層節(jié)點的權重歸零,十折交叉驗證通過重復運用隨機產(chǎn)生的子樣本進行訓練和驗證,能夠很大程度上避免數(shù)據(jù)過擬合的問題。但由于氣候數(shù)據(jù)樣本有限,如何在提高擬合精度的同時避免過擬合確實是個難題,這也是機器學習在氣候領域應用遇到的瓶頸之一。Tong等(2019)曾提出通過對多種(88個)可能因子基于傳統(tǒng)氣候?qū)W分析先分類,再通過遞歸式隨機森林的方法進行建模,通過特征工程從原始數(shù)據(jù)中挖掘、構(gòu)造更加有效的特征數(shù)據(jù),有助于減小過擬合問題,提升模型的預測精度。這也為下一步工作提供了思路,在深度神經(jīng)網(wǎng)絡的訓練和應用中可以通過數(shù)據(jù)的特征提取、構(gòu)造更多有效特征來減少樣本量不足的問題,提升模型預測效果。