陳 鶴 蔡榮輝 陳靜靜 傅承浩 周 莉 陳 龍
1 湖南省氣象臺,長沙 410118
2 氣象防災減災湖南省重點實驗室,長沙 410118
提 要: 基于2017—2019年歐洲中期天氣預報中心的全球預報系統(tǒng)(ECMWF-IFS),結合對應時間段站點觀測實況,采用深度學習方法建立了多層全連接神經(jīng)網(wǎng)絡模型(簡稱DL模型),對未來84 h的地面氣溫進行訂正預報。使用湖南省2020年全年的預報結果進行對比檢驗評估,得到以下結論:從空間分布來看,DL模型平均均方根誤差(RMSE)在大部分地區(qū)為1.5~2.0℃(全省平均RMSE為1.78℃),其對ECMWF-IFS模式的訂正效果明顯,尤其是在高海拔地區(qū),改善率隨著預報站點海拔的增加而上升;數(shù)值預報的RMSE有明顯的日變化特征,每日午后誤差最大,DL模型的改善幅度也最大,日出前時效誤差最小,改善率在不同海拔高度有不同的日變化特征;DL模型每個月相對ECMWF-IFS的平均RMSE都有明顯的訂正效果,其中10月、11月RMSE改善率最高,12月最低;從2020年年底一次寒潮過程的日最高、最低及逐3 h氣溫檢驗效果來看,DL模型對ECMWF-IFS的系統(tǒng)誤差有明顯的訂正效果,在單站的曲線上,也能看出DL模型更接近觀測實況。評估結果表明:模型可以顯著地減小ECMWF-IFS的預報誤差,其輸出結果基本滿足日常預報業(yè)務的需求。
現(xiàn)代天氣預報在數(shù)值預報模型的支持下,正在快速發(fā)展,但由于資料同化方法、地理分辨率的限制,數(shù)值模式的應用仍有較大的提升空間。早期國際上常用模式輸出統(tǒng)計(MOS)等技術,使用數(shù)值預報與觀測數(shù)據(jù),通過線性回歸方法推導預報方程,評估表明,MOS方法在最高氣溫等要素預報中能顯著減小數(shù)值預報的誤差,是有效的客觀預報技術(Glahn and Lowry,1972),美國國家氣象局將其進行了業(yè)務化(Klein and Glahn,1974)。大氣本身是非線性的動力系統(tǒng),其對初始條件非常敏感,增加初始條件的擾動,生成多成員的集合預報方法,也能有效的優(yōu)化單模型的預報結果(Leutbecher and Palmer,2008)。根據(jù)我國氣象部門智能網(wǎng)格預報發(fā)展要求,現(xiàn)已在全國范圍推行逐3 h精細化網(wǎng)格預報業(yè)務。針對數(shù)值預報的氣溫訂正,已有較多試驗性的研究:智協(xié)飛等(2009)分別利用固定訓練期超級集合和滑動訓練期超級集合方法對北半球中緯度地面氣溫進行預報試驗,發(fā)現(xiàn)均有效降低了預報誤差,滑動訓練期效果更優(yōu);李佰平和智協(xié)飛(2012)分別利用一元線性回歸、多元線性回歸、單時效消除偏差和多時效消除偏差平均等訂正方法,對ECMWF-IFS的2 m氣溫預報結果進行訂正,能有效地減小地面氣溫多個時效預報的誤差;王敏等(2012)采用非齊次高斯回歸技術對國家氣象中心區(qū)域集合預報系統(tǒng)的2 m溫度預報結果進行校準,預報可靠性和預報技巧均顯著提高;王婧等(2015)采用平均法、雙權重平均法、滑動平均法和滑動雙權重平均法對GRAPES_RAFS系統(tǒng)2 m溫度預報產品進行偏差訂正,結果表明大部分地區(qū)的平均誤差、均方根誤差都有顯著降低;馮慧敏等(2016)利用多模式集合平均、消除偏差集合平均、加權消除偏差集合及多模式超級集合方法,對地面逐3 h氣溫進行多模式集成預報試驗,結果表明集成方案對預報效果有不同程度的改善。近幾年,基于模式輸出統(tǒng)計方法(吳啟樹等,2016)、滑動雙權重平均訂正法和空間誤差逐步訂正法綜合訂正技術(薛諶彬等,2019)對ECMWF-IFS逐日最高/最低氣溫進行訂正,較好地改善了站點溫度的預報質量并應用于業(yè)務系統(tǒng)中;曾曉青等(2019)使用溫度格點多源融合產品和ECMWF-IFS的2 m溫度預報場,采用簡單誤差訂正、誤差回歸訂正等8種方案,進行訂正預報試驗,對格點、站點的檢驗結果表明,多種方案都對3~24 h(預報時間間隔3 h)預報有明顯的訂正作用;王丹等(2019)使用遞減平均法和一元線性回歸法對ECMWF-IFS的定時最高(低)氣溫預報誤差進行訂正,訂正后的預報質量有提升,但在較長預報時效不太理想,部分地區(qū)訂正技巧為負;郝翠等(2019)采用最優(yōu)集合預報方法對北京市各站1~7 d的日最高氣溫和日最低氣溫進行訂正,結果表明滑動訓練期、優(yōu)化變量權重兩種方案能改善模式固有偏差,其結果優(yōu)于或與預報員主觀預報相當,但在某些局地天氣影響下不如主觀預報;王在文等(2019)使用相似集合方法對北京快速更新循環(huán)數(shù)值預報系統(tǒng)的地面要素開展訂正試驗,并將其與支持向量機的訂正效果進行了對比,在有效減小氣溫預報誤差的同時,其計算資源要求更低;盛春巖等(2020)使用氣溫偏差訂正和準對稱混合滑動訓練期MOS方法集成訂正ECMWF-IFS的氣溫預報,取得較好的效果,但也發(fā)現(xiàn)從第3天開始客觀方法高溫準確率有明顯下降趨勢;尹珊等(2020) 應用滑動平均誤差訂正方法和歷史偏差訂正方法,對ECMWF-IFS延伸期2 m溫度預報進行誤差訂正,兩種方法在全年各月都有正訂正技巧,其中1—3月效果最明顯,但無法訂正模式對變溫時間的預報誤差;任萍等(2020)分別基于機器學習方法XGBoost、等權重平均方法、線性回歸方法且考慮地形因子影響,構建出多種模型,對北京地區(qū)快速循環(huán)同化數(shù)值預報系統(tǒng)輸出的結果進行訂正,在包括氣溫在內的多要素上XGBoost表現(xiàn)最優(yōu)。
深度學習(deep learning,DL)方法是處理氣象大數(shù)據(jù)的前沿技術。雖然受到一些客觀因素的制約,現(xiàn)階段DL技術無法完全學習到大氣運動的物理規(guī)律,但累積的數(shù)值模式歷史預報數(shù)據(jù),可處理成為一項有效的數(shù)據(jù)集輸入到DL模型中。當前,從注重數(shù)理原理解釋到注重動力熱力方程求解與人工智能方法相結合,已經(jīng)取得了重大進展(許小峰,2018)。圖像處理單元(GPU)計算技術對比傳統(tǒng)中央處理單元(CPU)具有更高效率,給更大規(guī)模、更深層次的數(shù)據(jù)挖掘提供了可能,因此,基于深度學習方法的氣溫訂正技術相比傳統(tǒng)MOS方法,能從數(shù)值預報中挖掘出更多時間、空間相關信息。
目前,有學者使用DL方法對數(shù)值預報結果進行改進。在氣溫預報的應用上,Li et al(2019)基于模式輸出機器學習(MOML)方案,將已有的機器學習回歸算法應用到處理后的訓練集、測試集中,結果比ECMWF-IFS模式結果和MOS方法更好,尤其是冬季更明顯。陳昱文等(2020)基于TIGGE的ECMWF-IFS資料,建立深度學習模型,并對部分站點進行氣溫誤差訂正,結果表明機器學習在數(shù)值模式預報結果訂正中具有較大的應用潛力。門曉磊等(2019)使用基于嶺回歸、隨機森林和深度學習的3種后處理模型,應用多模式預報結果進行逐日氣溫預報,對比了多種模型的訂正效果,發(fā)現(xiàn)DL方法在空間分布上效果最好。Han et al(2021)基于U-Net(為生物醫(yī)學圖像分割而開發(fā)的卷積神經(jīng)網(wǎng)絡)提出深度學習模型CU-Net,對ECMWF-IFS的2 m溫度、2 m相對濕度、10 m風的24~240 h預報進行格點訂正,在多個檢驗指標上都取得了更優(yōu)的結果,并指出深度學習方法具有從NWP海量數(shù)據(jù)中直接進行學習從而構建NWP偏差特征的能力。在第二屆AI Challenger全球挑戰(zhàn)賽中,使用基于時間序列分析、梯度提升樹、深度概率預測等AI模型構建的多組集合預報方法,相比之前的相似集合預報方法,顯著提高了2 m氣溫的預報水平(嵇磊等,2019)。
由于對數(shù)據(jù)獲取、模型運行的穩(wěn)定性要求高等原因,大多數(shù)深度學習預報方法僅停留在試驗階段(大多數(shù)預報為逐日最高/最低氣溫預報),有的標簽、驗證數(shù)據(jù)使用了一日2次的模式分析場(或者再分析場)而并非實際觀測數(shù)據(jù),或者使用較為稀疏的氣象站,代表性不足,真正建立預報模型并應用到智能網(wǎng)格預報業(yè)務且取得較好效果的先例較少。從2016—2018年國家級網(wǎng)格指導預報、省市級訂正反饋網(wǎng)格預報的氣溫要素檢驗來看,國家級網(wǎng)格統(tǒng)計預報模型建立后,預報誤差呈現(xiàn)出數(shù)值模式、國家級、省市訂正逐級減小的趨勢,體現(xiàn)出智能預報的巨大優(yōu)勢(韋青等,2020)。湖南省位于江南地區(qū)西部,地形上東、南、西三面環(huán)山,北部海拔稍低,東北部洞庭湖地區(qū)為其最主要的南下冷空氣輸入路徑。目前針對湖南地區(qū)的氣溫預報,較少進行系統(tǒng)的評估,更無有效的客觀訂正方法,從日常預報業(yè)務檢驗看,ECMWF-IFS等數(shù)值預報對湖南的氣溫預報結果存在明顯的誤差。例如,在湖南西部的雪峰山、西北部的武陵山及南部的南嶺部分地區(qū),數(shù)值預報平均偏差3℃以上,部分海拔超過800 m的站點平均偏差4℃以上,東部部分低海拔地區(qū)也出現(xiàn)了3℃以上的偏差。誤差并非簡單隨海拔變化而線性增長,它受到下墊面、坡向,以及各個層次溫度平流等多個氣象要素的共同影響,無法使用簡單的消除偏差方法去除。本文以改善湖南全省逐3 h氣溫預報為目標,建立了精細化氣溫預報流程,并使用氣象站觀測資料進行結果驗證與評估。
本研究使用湖南省氣象信息中心通過CMACast接收保存的北半球區(qū)域ECMWF-IFS高分辨率數(shù)值預報模式產品進行訓練,模式地面層分辨率為0.125°×0.125°,氣壓層分辨率為0.25°×0.25°,選取了地面層所有預報要素,以及19個氣壓層的氣溫、高度、濕度、風場等要素;訓練期為2017年1月1日至2019年12月31日,將2020年1月1日至12月31日的數(shù)據(jù)作為測試集進行預報評估分析,模式每日00時和12時(世界時,下同)起報?;谥? h精細化氣象要素預報工作的需要,本文選擇了0~84 h,一共27個預報時效的要素預報數(shù)據(jù)。使用湖南省全境421個氣象站(包含國家站和骨干站)逐3 h(分別為00、03、06、09、12、15、18、21時)氣溫觀測數(shù)據(jù),數(shù)據(jù)來源為湖南省氣象信息中心CIMISS系統(tǒng),數(shù)據(jù)總長度為2017年1月1日至2020年12月31日,其中將2020年的數(shù)據(jù)作為測試集進行評估與對比分析。
本文設計了一種適用于氣象要素預測訂正的深度學習模型,模型使用了多層全連接神經(jīng)網(wǎng)絡模型對數(shù)值預報氣溫訂正函數(shù)進行擬合。
多層全連接網(wǎng)絡模型是一種經(jīng)典的神經(jīng)網(wǎng)絡模型,具有輸入層、隱藏層和輸出層三種結構。其中輸入層和輸出層有且只有一層神經(jīng)元結構,隱藏層可以根據(jù)計算量的接受程度設計為多層神經(jīng)元結構。相鄰層之間的神經(jīng)元全部相互連接,并在每個連接上賦予一個計算權重。每層神經(jīng)元(除輸入層)的輸入均為上一層神經(jīng)元的輸入,每個神經(jīng)元的輸出均為上層各神經(jīng)元的值與相應連接權重的相乘后再相加,并經(jīng)過激活函數(shù)計算之后形成的值。經(jīng)過前期試驗,考慮到計算強度和過擬合問題,最終全連接結構使用了4個隱藏層,分別設置了256、128、64和32個神經(jīng)元,全連接網(wǎng)絡結構示意圖(圖1)中,Hij為第i個隱藏層的第j個神經(jīng)元;輸入數(shù)據(jù)為某時刻經(jīng)過篩選的各個氣象要素的值xi,輸出為各個氣象要素的綜合提取特征y。為避免神經(jīng)元死亡的問題,本文在初始試驗階段控制、調整了學習率。模型中使用了Dropout技術,在神經(jīng)網(wǎng)絡中丟棄部分隱藏神經(jīng)元(圖1中表現(xiàn)為虛線圓),能夠避免在訓練數(shù)據(jù)上產生復雜的相互適應。為了模擬天氣運動的復雜多樣,激活函數(shù)一般采用非線性函數(shù),本文使用的是線性整流函數(shù)(ReLU),ReLU具有收斂速度快、效率高、能克服梯度消失等優(yōu)點。在激活函數(shù)ReLU示意圖(圖2)中,x軸為上一層神經(jīng)網(wǎng)絡的輸入量,進行變換后,y軸為輸出的下一層神經(jīng)元或者神經(jīng)網(wǎng)絡最終結果。
圖1 全連接網(wǎng)絡結構示意圖
圖2 激活函數(shù)ReLU示意圖
由于天氣的演變過程復雜多變,所以模型的選擇應該重點考慮提取各個氣象要素的時序特征。同時天氣預報具有時效性,影響天氣變化的氣象要素多種多樣,所以模型也要考慮輸入數(shù)據(jù)集的大小以及網(wǎng)絡訓練的時間成本問題。常見的模式后處理方法在對站點要素進行訂正預報時,采用單點、多層、多種氣象要素因子進行建模?;谶@個思路,本文使用全連接神經(jīng)網(wǎng)絡建立了站點的氣溫預報模型(下文簡稱為DL模型),從而減少網(wǎng)絡訓練時間,以達到快速高效的預報訂正效果。在建立模型時,分別按單站、區(qū)域建立了多類預報模型,以測試集的訂正效果自動優(yōu)選誤差低的模型,盡量避免站點因為樣本量過少而出現(xiàn)過擬合。
本文從數(shù)值模式訓練集中提取了高空多層的位勢高度、比濕、溫度、風場等要素和地面單層的氣溫、降水等要素。先使用最近格點法插值到421個目標站點,再對數(shù)據(jù)集進行篩查、清洗等相關預處理,使用氣象觀測閾值過濾或替換奇異值。最終進行標準化處理:使用Z-score算法對數(shù)據(jù)集進行縮放,公式如下:
(1)
式中:x為需被標準化的原始數(shù)據(jù)值,u為氣象要素的總體數(shù)據(jù)均值,σ是總體數(shù)據(jù)的標準差。
然后將數(shù)據(jù)歸一處理到0~1,公式如下:
(2)
式中:Xmax為樣本數(shù)據(jù)的最大值,Xmin為樣本數(shù)據(jù)的最小值。
本文中使用的每個樣本包含因子198個(實際訓練中有經(jīng)過調整和篩選),2017—2019年數(shù)據(jù)集共有樣本22 457 196個,使用經(jīng)過篩查、清洗后的數(shù)據(jù)進行建模,其中86%的數(shù)據(jù)作為訓練集,14%的數(shù)據(jù)作為驗證集;以收集到的2020年實際預報業(yè)務數(shù)據(jù)作為測試集。分配如表1所示。
表1 建立氣溫預報模型使用的數(shù)據(jù)集樣本數(shù)(單位:個)
均方根誤差(RMSE)是回歸問題的常用性能指標,不僅可以作為深度學習模型中的損失函數(shù),還可以明確地指示訂正效果優(yōu)劣,公式如下:
(3)
式中:NF為預報總站數(shù),i為預報站標識,F(xiàn)i為第i站預報值,Oi為第i站觀測值。
改善率I是訂正前后的均方根誤差的差值相對原預報均方根誤差的比值,公式如下:
(4)
式中:RMSEEC、RMSEDL分別為ECMWF-IFS、DL模型的均方根誤差。
從2020年1月1日開始業(yè)務數(shù)據(jù)輸出站點預報訂正數(shù)據(jù),同時與同期ECMWF-IFS輸出的2 m氣溫(使用最近格點插值到421個站點)進行對比分析。本文重點分析氣溫的均方根誤差以及訂正預報的改善率(訂正前后均方根誤差的差值與訂正前的均方根誤差之比)。由于業(yè)務需要,使用B-樣條基函數(shù)插值得到逐3 h預報產品,并制作了逐日的最高、最低氣溫。
0~84 h 的ECMWF-IFS原始預報的全省平均RMSE為2.16℃(圖3a)。結合湖南省地形可以看出,西北部的武陵山區(qū)、西南部的東北—西南向的雪峰山脈周邊、南部的南嶺山脈及大部分海拔超過400 m區(qū)域,平均RMSE在2.0℃以上,海拔100 m以下大部分地區(qū)為1.5~2.0℃。
DL模型訂正后的全省平均RMSE為1.78℃,從全省地理分布上看,誤差值分布較為均勻,大部分地區(qū)為1.5~2.0℃,少量高海拔地區(qū)及個別平原地區(qū)站點達到2.0℃以上(圖3b)。
從所有訂正時效(0~84 h)進行的均方根誤差統(tǒng)計上來看,全省范圍均方根誤差平均減小了15.6%。結合地形分析改善率的空間分布(圖3c),改善最明顯的地區(qū)位于湖南省西部和南部山區(qū),部分高海拔地區(qū)達到20%~30%,湘西南(雪峰山地區(qū))、湘西北(武陵山地區(qū))、南部(南嶺地區(qū))等山地站點的幅度最大,少數(shù)站點達到50%~70%;極少數(shù)站點(10個站)改善率為負,但控制在10%之內。由于數(shù)值預報初始場依賴各類觀測資料同化,而資料在復雜地形存在系統(tǒng)誤差等原因,導致數(shù)值預報對某些高海拔地區(qū)的預報存在偏差。
圖3 2020年湖南不同區(qū)域站點的氣溫(a,b)平均均方根誤差(彩色圓點)及其(c)改善率(彩色圓點)分布
經(jīng)統(tǒng)計發(fā)現(xiàn),隨海拔高度的增加,改善率有明顯的上升趨勢(表2):海拔400 m及以下站點共347個,占總站數(shù)的82.4%,平均改善率為13.5%,但也有10個站平均改善率為負(經(jīng)過深入查看,RMSE增大是因為8月、12月實時數(shù)據(jù)源切換出現(xiàn)了單位不一致的問題);海拔400~800 m的站點占總站數(shù)12.1%,平均改善率為19.4%;海拔1200 m以上大部分站點改善率達50%以上。改善率與海拔高度呈正相關,經(jīng)計算得到相關系數(shù)為0.560。改善率最高的3個站為大圍山站(72.6%,海拔為1378 m)、南岳站(69.6%,海拔為1265.9 m)、雪峰山站(67.8%,海拔為1420 m)。前文中已提到,誤差的變化并非隨海拔線性增長,海拔只是造成誤差的眾多因素之一,從誤差分布上也可清晰看到DL預報在東部平原地區(qū)也存在一些改善不明顯的站點。
表2 2020年湖南地區(qū)不同海拔高度站點的均方根誤差改善率
從00時和12時起報的結果(表3)綜合來看,氣溫預報的平均RMSE有明顯的日變化,每日06時對應的時效誤差達到最大(兩個起報時次平均誤差ECMWF-IFS為2.78℃,訂正后為2.27℃,減小了0.51℃),每日21時對應的時效誤差最小(兩個起報時次平均誤差ECMWF-IFS為1.79℃,訂正后為1.46℃,減小了0.33℃)。隨著預報時效的增加(圖4),每天對應時間的RMSE也在緩慢增加,在每日06時、09時,可以看到ECMWF-IFS預報的RMSE明顯偏高,而DL模型RMSE的訂正幅度也最大(達0.50℃左右);不同起報時間(00時和12時)的預報誤差也有不同,但日變化規(guī)律基本一致。
表3 2020年湖南地區(qū)不同起報時間的逐3 h氣溫預報與實況的均方根誤差(單位:℃)
圖4 2020年湖南地區(qū)不同起報時間的各預報時效的ECMWF-IFS與DL模型氣溫預報均方根誤差(a)00時起報,(b)12時起報
結合海拔高度與觀測時間(圖5),可以發(fā)現(xiàn)預報誤差基本遵從海拔越高、DL模型對數(shù)值預報的改善越明顯的規(guī)律,但在不同海拔上,改善率具有不同的日變化特征。其中:海拔1200 m以上改善率最高的是00、09、12、21時,平均達40%以上,800~1000 m則在日落以后改善幅度最高,800 m以下地區(qū)以每日午后(06時、09時)為主。
圖5 2020年湖南地區(qū)不同海拔高度、不同觀測時間的氣溫預報均方根誤差改善率
從所有站點的統(tǒng)計可以得出,每天06時和09時的誤差改善率最高,本文選取這兩個預報時間的誤差改善率,分析其地理分布。午后時段(圖6a),改善最明顯的是海拔200 m以上地區(qū),大部分誤差降低20%以上,傍晚(圖6b)改善率更高,很多午后改善不明顯的海拔100 m以下地區(qū)(東部平原為主),改善率達到20%以上。
圖6 2020年湖南地區(qū)不同海拔站點的氣溫預報平均均方根誤差改善率(彩色圓點)分布
在同年的不同月份,數(shù)值預報與DL模型的預報誤差也有變化(圖7):ECMWF-IFS只有6、9、12月平均RMSE<2℃,其他月份均>2℃,DL模型僅5月平均RMSE>2℃,其他月份均<2℃;ECMWF-IFS在4月的平均RMSE最高為2.48℃(DL訂正后為1.94℃),5月RMSE為2.38℃(DL訂正后為2.04℃),說明4月、5月預報難度較大。每個月,DL模式都有明顯的訂正效果,其中10月、11月(秋季)其對數(shù)值預報的改善率最高(超過23%),其次是3月、4月(春季,20%左右),12月最低(9%)。
圖7 2020年不同月份的ECMWF-IFS模式與DL模型訂正后的氣溫預報均方根誤差
從全年所有日期的全省所有站RMSE變化趨勢(圖略)來看,兩個產品的誤差變化趨勢基本一致。DL訂正方法在絕大部分時間對于ECMWF-IFS數(shù)值預報結果進行了有效改善,特別是在3、4、10、11月改善較為明顯。
2020年12月29日湖南省出現(xiàn)一次寒潮降溫天氣過程,此次過程為明顯的轉折天氣:冷空氣從湘東北洞庭湖地區(qū)南下影響全省,其中29日00時至30日00時,全省大部分地區(qū)24 h最高、最低氣溫相比前一日下降8~10℃,最低氣溫降至0℃左右。數(shù)值模式對降溫幅度有較好的體現(xiàn),但準確率不夠,而基于深度學習方法訂正后的預報,準確率有明顯的提升。
從此次過程統(tǒng)計上(表4)看,過程3 d全省站點高、低溫準確率(誤差2℃以內)和逐3 h均方根誤差都是DL模型占優(yōu)勢(除了第3天低溫準確率ECMWF-IFS表現(xiàn)稍好);其中:第2天、3天的高溫準確率,DL提高了近20個百分點,第1天低溫準確率,DL模型從49.0%提升至80.7%,優(yōu)勢非常明顯。
表4 2020年12月29日00時開始的湖南寒潮過程DL模型與ECMWF-IFS的氣溫預報評估
以第1天誤差分布(圖8)為例:ECMWF-IFS在湘西、湘東南地區(qū)(山地為主)部分站點高溫預報偏低2~3℃,DL模型在西部地區(qū)訂正較好,將大部分地區(qū)的偏差控制在±2℃以內,但在東南部山區(qū)的預報的訂正提升效果不明顯,在東北部平原地區(qū)甚至比ECMWF-IFS預報偏高;從低溫誤差分布上看,ECMWF-IFS在全省大部分地區(qū)預報偏低2℃,局地偏低3℃以上,DL模型將大部分地區(qū)的誤差控制在±2℃以內,效果較明顯。
圖8 2020年湖南地區(qū)站點(a,b)最高、(c,d)最低氣溫預報的偏差(彩色圓點)分布
DL訂正在減小系統(tǒng)性誤差的同時,因為受“學習到的經(jīng)驗”影響,對轉折天氣可能也有負向訂正,對其極端性考慮不夠(例如第2天降溫最顯著的東部平原地區(qū)氣溫預報偏高,第3天低溫準確率低于ECMWF-IFS)。此外,經(jīng)過分析同時段ECMWF集合預報的50個擾動成員,發(fā)現(xiàn)每個單獨站都存在理論上最優(yōu)成員,其對逐3 h氣溫、日高低溫的準確率接近100%,訂正方法對原始預報的改善幅度仍不及理想中的最優(yōu)集合成員(但不同條件下最優(yōu)成員的選取值得研究)。
岳陽國家基本氣象站位于湖南省東北部洞庭湖平原地區(qū),是冷空氣直接影響、降溫顯著的地區(qū)。從單站逐3 h預報、觀測時序中(圖9)可以看出,相對實況觀測(紅色折線),ECMWF-IFS(綠色折線)的預報偏低,特別是每天日出前的最低氣溫偏差明顯,大部分時次,DL模型(藍色)預報值比ECMWF-IFS更接近觀測值,改善幅度(黑色虛線)為正且大多在50%以上。也有個別時次DL模型誤差稍大,但也在可接受的范圍內。
圖9 2020年12月29日00時至2021年1月1日00時岳陽站逐3 h氣溫預報與觀測對比
此次過程,DL模型在逐3 h預報上,RMSE減少了0.2℃左右,說明逐3 h預報也是氣溫預報的難點。在實際業(yè)務應用中,預報員將偏差明顯的個別站點進行了手工訂正,起到了最終把關作用。
本文從站點預報實際應用的角度,評估了基于深度學習算法的氣溫訂正方法相對數(shù)值預報性能的改進,并簡要介紹了數(shù)據(jù)處理、訓練模型、評估檢驗到實際應用的方法。檢驗結果表明:
(1)從空間分布來看,DL模型預報的氣溫RMSE在大部分地區(qū)控制在2℃以下,其對ECMWF-IFS模式的訂正效果明顯,尤其是在湖南省西部和南部的雪峰山、武陵山、南嶺地區(qū)有顯著的改善,從海拔分布上看,改善率隨著預報站點海拔的增加而上升,特別是海拔1200 m以上的站點,改善率達到50%左右。
(2)模型預報的RMSE有明顯的日變化,每日06時、09時,ECMWF-IFS誤差最大(達2.7℃左右),DL模型對其訂正的幅度也最大(RMSE平均減小0.5℃),二者在每日21時對應的時效誤差最小,在不同海拔高度有不同的日變化特征。
(3)DL模型每個月相對ECMWF-IFS模式的平均RMSE都有明顯的訂正效果,二者在4月、5月(春季)誤差最大,其中10月、11月(秋季)RMSE改善率最高(超過23%),其次是3月、4月(春季,20%左右),12月最低(9%);DL訂正產品在5月的平均RMSE>2℃,其他月份<2℃。
(4)單次寒潮過程的檢驗效果表明,DL模型對ECMWF-IFS模式的系統(tǒng)誤差有明顯的訂正效果:降溫開始當天,日最低氣溫準確率提升30個百分點,第2天、第3天日最高氣溫準確率提升20個百分點,大部分時間的最低氣溫準確率也有明顯的改善,在逐3 h預報上,RMSE平均減小0.2℃;在單站的曲線上,也能看出DL模型比ECMWF-IFS預報更接近觀測實況。
湖南省氣象臺原有業(yè)務中使用的多模式最優(yōu)集成,并沒有針對數(shù)值模式帶來誤差的原因進行消除,其效果僅優(yōu)于單個數(shù)值模式,但在一些地區(qū)(特別是山地)存在較明顯的系統(tǒng)性誤差,需要人工逐站訂正。人工訂正往往基于經(jīng)驗,一般參考前1~3 d數(shù)值預報的氣溫要素預報,假定短時期內預報偏差固定不變,并直接減去固定的偏差,這種方式無法定量考慮多要素對氣溫預報的影響,容易受到干擾和誤導。
對比由他人發(fā)展的訂正方法(如滑動雙權重訂正方法等),本文中使用的方案更接近的是依據(jù)數(shù)值模式對當前天氣形勢場各要素的預報,來對不同下墊面不同地區(qū)的氣溫進行重新預報,而不是從原始預報值減去推導出的偏差值。在不同的地形, 氣溫預報偏差受海拔、氣壓、云量、風場、濕度等因素影響,基于多氣象因子的深度學習偏差訂正更具有物理意義。
本文中采用的深度學習訂正方法針對單站、單點建模,輸出站點預報,在實際業(yè)務中設計出使用站點預報對背景預報場進行誤差訂正的方案,可以直接輸出成各類服務產品,并作為第一優(yōu)選客觀預報源加入智能網(wǎng)格預報系統(tǒng)。在業(yè)務實踐中,此產品逐3 h準確率評分高于其他所有參考預報來源、每日業(yè)務檢驗的高低溫也高于其他來源。預報員大部分時間已不再進行手動訂正(手動訂正結果評分經(jīng)常低于客觀輸出結果),特別是在極端天氣高發(fā)時期,節(jié)省了大量的時間和精力,體現(xiàn)了研究型業(yè)務成果在實際工作中發(fā)揮的巨大作用。
研究初期,統(tǒng)計了本地ECMWF-IFS、CMA-GFS全球預報以及華東、華南等區(qū)域模式的氣溫預報準確率及均方根誤差,發(fā)現(xiàn)ECMWF-IFS綜合誤差最小,因此優(yōu)先采用其進行建模訓練。
因為時間關系,本文模型暫未就日最高/最低氣溫單獨建模,僅使用擬合日變化曲線計算高/低溫,未進行針對性評估(針對日最高/最低氣溫的預報模型也在研究、改進中),基于我國高分辨率區(qū)域數(shù)值預報、CLDAS氣溫分析場的逐小時智能網(wǎng)格預報模型也在研究中,但因數(shù)據(jù)量較大,每次建模需要較長時間。但隨著模型的逐步優(yōu)化、算力的提升,后期將得到更加精準的預報結果。