王海燕,田慶明,于亞楠,劉新雨
(甘肅省酒泉市氣象局,酒泉735000)
近年來隨著預報模式的深入研究,降水預報研究成果日益增多。路志英等(2018)構(gòu)建深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBNs)短時強降水模型,對于提高短時強降水預報的命中率、誤警率和臨界成功指數(shù),有較好的效果;熊潔等(2020)使用全球中期數(shù)值天氣預報模式(YinHe Global Spetral model,YHGS)針對華中一次暴雨預報進行研究,結(jié)果顯示YHGS 模式預報是可行的;何鄧新等(2020)利用變分方法估計全球/區(qū)域同化預報系統(tǒng)(Global-Regional Assimilation and Prediction System,GRAPES)的非系統(tǒng)性誤差,從而對預報做出修正;吳志鵬等(2020)對西南地區(qū)4次強降水過程進行模擬試驗,結(jié)果表明升尺度鄰域平均預報法一定程度上可降低強降水預報的不確定性。然而河西走廊地處西北干旱區(qū),涵蓋平原、戈壁、沙漠、冰川等復雜的地形(楊梅,2021),DBNs 短時強降水模型只預報未來0—3 h的短時臨近預報,河西地區(qū)多為系統(tǒng)性降水,DBNs 短時強降水模型在河西地區(qū)實用性較弱;YHGS 模式和升尺度鄰域平均預報方法,對于戈壁沙漠地形,在降水強度方面有過度預報的問題。
歐陽首承等(2005)針對突發(fā)性天氣的結(jié)構(gòu),提出V-3θ圖,其中V是探空資料中直接觀測的風向、風速信息,3θ分別為位溫(θ)、假相當位溫(θse)、飽和假相當位溫(θ*se),3θ在P-T(橫坐標為氣溫,縱坐標為氣壓)坐標圖上構(gòu)成3條曲線,作為每一個測站的V-3θ圖。青泉(2019)使用L 波段探空數(shù)據(jù)繪制V-3θ圖形,成功地分析了四川盆地24 次大范圍的暴雨天氣過程,證明了V-3θ圖在暴雨短期預報中的作用??梢?,正確識別V-3θ圖形,可以準確地預報暴雨。周林騰(2018)指出Keras方法可解決很多復雜的模式識別難題。它通過組合低層特征,形成更加抽象的高層表示屬性類別,最后發(fā)現(xiàn)數(shù)據(jù)的分布式特征。Keras方法更容易創(chuàng)建新模塊,允許可配置的模塊用最少的損耗自由組合在一起。鄭洋洋等(2019)基于Keras 方法建立長短時記憶網(wǎng)絡(luò)(Long Short Term Memory network,LSTM)模型,對太原市空氣質(zhì)量指數(shù)(AQI)進行仿真預測,此模型為大氣污染防治工作提供了科學合理的理論依據(jù);Daouda等(2019)利用Keras方法成功預測出西非地區(qū)水汽總量(TCWV)。
本文受歐陽首承等(2005)垂直方向信息差異構(gòu)成渦旋運動理念的啟發(fā),增添特征值,改變識別方式,衍生新的V-3θ圖,以此預測降水天氣,可提高中長期降水天氣預報效果。同時吸納Keras 方法建立LSTM 模型框架和多元回歸模型框架時實驗快速的優(yōu)點,使用Keras 方法建立河西走廊降水模型框架,實現(xiàn)降水預報的客觀定量化,最終得到格點降水預報,以此提高河西走廊降水預報質(zhì)量。
本文對傳統(tǒng)V-3θ圖進行了衍生,改變探空資料為一級資料,利用ECMWF預報資料作圖,可直接得到未來時刻的大氣垂直結(jié)構(gòu)圖像,改善傳統(tǒng)V-3θ圖在暴雨中期預報效果不顯著的問題。
河西走廊降水預報模型將位溫(θ)、假相當位溫(θse)、飽和假相當位溫(θ*se)、比濕和垂直速度五種廓線資料,量化為69個特征量,使原始V-3θ圖的圖形數(shù)字化,以此描述新V-3θ圖。此方法可降低原始V-3θ圖人為識別時候的主觀意識偏差,同時針對復雜的氣象資料,使用Keras 方法建立晴雨分類和降水量擬合預報模型框架,進行機器識別學習。由于傳統(tǒng)V-3θ圖的中風向和風速在機器學習中不易量化,尤其垂直方向風速變化小,風向變化大的樣本,為避免縮放時影響特征值的精確率,本文將風向、風速用垂直速度替代,同時特征值增加比濕,提高模型特征量多元性。
1.2.1 河西走廊降水預報模型資料簡介
使用的資料包括:(1)2018年4—9月(70°—110°E、30°—50°N) 范圍內(nèi)10 189 個自動站逐小時加密觀測雨量,并計算逐3 h累積雨量。(2)2018年4—9月水平分辨率為0.25°×0.25°、垂直分為10 層的ECMWF 預報資料,選取每日20∶00(北京時,下同)起報,未來75 h內(nèi)間隔3 h的氣壓、溫度、相對濕度、比濕和垂直速度5個物理量。(3)2018年4—9月(70°—110°E、30°—50°N)范圍內(nèi),水平分辨率為0.125°×0.125°的ECMWF 降水量預報資料,選取2019 年7 月15 日20∶00 起報,未來75 h內(nèi)間隔3 h的格點資料。
1.2.2 河西走廊降水預報模型降水標準
甘肅地域廣闊,河東地區(qū)與河西地區(qū)降水差別大。靳生理等(2012)提出河西地區(qū)降水少且分布不均勻,河西西部降水量多年平均值為84 mm,降水標準不同于國家級降水量等級。表1 是根據(jù)《甘肅省河西地區(qū)降雨等級》(DB62/T 1732-2008)得到的河西地區(qū)降水標準,降水時間段分為24 h 和12 h 兩種,降水強度分為11個等級,本文中河西走廊降水預報模型使用此標準。
表1 河西地區(qū)降水標準Table 1 Precipitation standard in Hexi area.
1.2.3 資料處理
圖1 給出數(shù)據(jù)資料處理流程框架圖,分為資料說明和樣本處理兩個環(huán)節(jié)。
圖1 數(shù)據(jù)資料處理流程框架圖Fig.1 The frame diagram of sample processing flow
(1)資料說明
將逐3 h 雨量作為樣本A,按晴雨分類,有降水為“雨天”,標記為“1”;無降水為“晴天”,標記為“0”。ECMWF 預報資料垂直分為100、200、300、400、500、600、700、850、925和1 000 hPa共10層的,利用各層氣壓、溫度和相對濕度3 個基本要素場,計算得到位溫(θ)、假相當位溫(θse)、飽和假相當位溫(θ*se),分別作為大氣熱力指標1、大氣熱力指標2 和大氣熱力指標3;計算各層假相當位溫和位溫的差值(θse-θ)作為大氣干濕度指標1;計算各層飽和假相當位溫和假相當位溫的差值(θ*se-θse)作為大氣干濕度指標2;計算850 hPa 與500 hPa 的位溫差(θ850-θ500)作為大氣穩(wěn)定度指標1;計算850 hPa 與500 hPa 的假相當位溫差(θse850-θse500)作為大氣穩(wěn)定度指標2;比濕采用模式輸出值,共10 個層次,作為大氣水汽指標;垂直速度采用模式輸出值,取100、200、500、700、850、925 和1 000 hPa 共7 個層次,作為大氣動力指標。利用大氣熱力指標1、2、3,大氣干濕度指標1、2,大氣穩(wěn)定度指標1、2,大氣水汽指標和大氣動力指標作為預報特征值,共計69個。此預報特征值作為樣本B,利用樣本B 使原始V-3θ圖形數(shù)字化。
(2)樣本處理
通過對訓練集進行歸一化處理,可有效提高了目標識別分類工作中的準確率。由于樣本B中,各特征值之間數(shù)值差異較大,為消除特征值之間的量綱影響,對特征值進行了歸一化處理(孫然,2018),計算公式如下
將特征值xi(i=1,2,3,…,69)按公式(1)進行計算,其中xmax為最大特征值,xmin為最小特征值,計算得到X′
i,使得特征值均映射到0~1 范圍內(nèi),處于同一數(shù)量級,作為樣本B1(3 136 596個數(shù)據(jù))。根據(jù)周志華(2016)提出的數(shù)據(jù)留出法,本文將樣本B1按3:1切分,數(shù)據(jù)隨機分為訓練集a和測試集b。使用訓練集a(2 351 682個數(shù)據(jù))建立河西走廊降水預報模型。由于樣本A 的晴天和雨天比例約為7:1,如果用訓練集a建立晴雨分類模型,會使分類結(jié)果趨于晴天,當模型應用到預報數(shù)據(jù)上時,模型輸出結(jié)果的準確性很差。楊子元(2021)提出利用下采樣方法,可以有效抵御干擾。針對以上問題,利用下采樣技術(shù),使晴天和雨天樣本數(shù)量相差變小,使樣本A 中“0”和“1”比例為1:1,記為樣本A1。
在樣本B1中篩選與樣本A1同時間序列的特征值,記為樣本B2。通過數(shù)據(jù)保留法,將樣本B2按3:1 切分,數(shù)據(jù)隨機分為訓練集a1和測試集b1,用訓練集a1(587 908 個數(shù)據(jù))生成模型,用測試集b1(195 966 個數(shù)據(jù))檢驗河西走廊降水預報模型的準確率。
將樣本A1中標記“1”樣本換回雨量,“0”樣本雨量記為0,作為樣本A2。
預報模型的建立可分為兩步,第一步是晴雨分類,通過對晴天和雨天進行分類,訓練特征值來構(gòu)造分類器(即分類模型),預測未來是否出現(xiàn)降水;第二步是降水量擬合,統(tǒng)計樣本中不同的特征值在不同的雨量下的概率,記憶各種最大概率的雨量相匹配的特征值,從而預測未來雨天時的降水量。
通過keras 方法(周林騰,2018)建立晴雨分類框架,采用二分類方法,使用訓練集a1(587 908個數(shù)據(jù))建立晴雨分類模型。本模型共設(shè)置3 層神經(jīng)網(wǎng)絡(luò),第一層為輸入層,設(shè)48層;第二層為隱含層,設(shè)24層;激活函數(shù)選用relu,第三層為輸出層。優(yōu)化器選用rmsprop(root mean square prop),監(jiān)控器的指標使用平均絕對誤差(MAE)。
交叉驗證用來估計泛化誤差,其中k折交叉被廣泛使用(楊柳和王鈺,2015)。晴雨分類模型使用k折交叉來驗證預報特征值的可靠性,其數(shù)據(jù)處理流程如圖2所示,將訓練集a1隨機平均劃分為10 個不相交的子集,其中一個子集做拆分集M;剩余的9個子集做拆分集N。拆分集M定義為測試集c,拆分集N定義為訓練集d,再將訓練集d 按保留法,劃分為訓練集e 和驗證集f,用訓練集e 訓練模型,驗證集f 驗證模型的有效性,計算10次模型的分類率,然后再平均,最后挑選最佳效果的模型。由于模型建立要求訓練集e大于驗證集f,驗證集f 大于測試集b1和測試集c,故訓練集e 和驗證集f樣本比例為4:1。將模型進行迭代,挑選模型合適的迭代次數(shù),其中迭代次數(shù)以等差數(shù)列的形式增加,公差為10,迭代至450 次結(jié)束,迭代過程中發(fā)現(xiàn)模型有欠擬合問題。高毅等(2019)提出折線平滑對多組數(shù)據(jù)隨時間的變化趨勢。對比每次迭代的趨勢發(fā)現(xiàn):迭代到200 次時,MAE 達到最低值,模型二分類錯誤率最低,指標更加可靠。
圖2 晴雨分類模型數(shù)據(jù)處理流程圖Fig.2 Data flow chart of sunny and rainy classification model
通過keras 方法(周林騰,2018)建立降水量擬合框架。由于晴雨分類為二分類模型,邏輯回歸方法可處理二分類問題,同時邏輯回歸增加正則化可以提升深度學習模型的識別精度,解決模型中過擬合現(xiàn)象(胡艷梅等,2021),所以降水量擬合模型使用邏輯回歸,加入正則化項。首先對訓練集a1標準化處理,得到訓練集a2,再將訓練集a2和樣本A2用邏輯回歸,建立降水量擬合模型,最終預測未來的降水量。利用公式(2)計算特征值數(shù)據(jù)xi,以及對應的樣本A2,得到公式(3),此方法可減少預測范圍,將預測值限定在[0,1]間;再通過y=1時分類,化簡為公式(4),避免訓練集a2分布不準確帶來的問題;使用極大似然估計公式(5),求解公式(6)得出參數(shù),從已知的結(jié)果推導最大概率的結(jié)果參數(shù),以此構(gòu)建邏輯回歸模型,用于預測未來雨天的降水量。
假設(shè)權(quán)重參數(shù)θ和函數(shù)公式(2)~(3),輸入訓練集a2中的特征值xi(i=1,2,3…69),使之為公式(4),機器自動枚舉參數(shù)的可能取值,將訓練樣本帶入,計算當y=1 時,公式(5)的概率,此時g(z)作為Sigmoid 函數(shù),選擇0.5 為閾值(0.5 處函數(shù)中心對稱),利用公式(6),m為樣本數(shù)(587 908),此時y為樣本A2,求對數(shù),得公式(7),對對數(shù)似然函數(shù)(公式(7))求極大值,作為權(quán)重參數(shù)θ。同時在公式(7)的基礎(chǔ)上,加入正則化項,減少樣本B歸一化處理后模型的誤差影響。分別使用正則L1和正則L2,進行超參數(shù)調(diào)優(yōu)。假設(shè)正則參數(shù)為a,對比L1 正則化和L2 正則化結(jié)果,發(fā)現(xiàn)特征值之間具有很好的關(guān)聯(lián)性,L1(0.9415214688342473)優(yōu)于L2(0.940421367831 123 8)。確定模型選用正則L1 方法。同時,將正則參數(shù)a以等差數(shù)列的形式增加,公差為10,至300 結(jié)束,發(fā)現(xiàn)在L1正則參數(shù)a為300時,誤差函數(shù)的值最小,故將正則參數(shù)固定為300。
用樣本B2中的測試集b1(195 966 個數(shù)據(jù))對預報模型進行檢驗,不同預報時段的樣本數(shù)量無明顯關(guān)系。分別使用TS、損失函數(shù)及均方根誤差三種檢驗方法,檢驗結(jié)果見表2。
河西走廊地區(qū)氣候干燥,酒泉市近30 a年平均降水量僅為83.8 mm,大雨及以上量級出現(xiàn)的頻率僅占3%,因此對大雨及以上量級進行分級閾值檢驗意義不大,同時河西走廊降水預報模型在晴雨分類上使用的是二分類方法,因此只對降水進行晴雨檢驗。TS(TS)檢驗方法(熊潔等,2020)由式(8)給出,檢驗結(jié)果數(shù)值越大模型準確率越高。
晴雨檢驗中,通過晴雨預報正確的站(次)數(shù)NA和空報的站(次)數(shù)NB以及漏報的站(次)數(shù)NC的比值,反映分類器對整個樣本的判定能力,直觀地判別出降水模型晴雨預報的準確率。從表2中可見,晴雨檢驗準確率均在0.78 上,其中42 h 之前準確率均在0.80 以上,其中12—18 h 準確率較高,表明該預報時段模型的晴雨預測值與天氣實況最為接近,42 h后準確率略有下降。
由于河西走廊降水預報模型在降水量擬合模型上使用的是邏輯回歸方法,因此損失函數(shù)檢驗在此基礎(chǔ)上進行。損失函數(shù)檢驗方法(黃晚晴,2021)由式(9)給出,檢驗結(jié)果數(shù)值越小模型預報效果越好。式(8)中,測試集b1為樣本x,a為樣本x預測為正類的概率,y為樣本x對應的實際降水量,正類為1,負類為0,n為預報時次的樣本數(shù),此方法可估量模型的預測值和降水真實值的差異程度。從表2 第四列中看出,預報時效21 h 之前,檢驗結(jié)果均小于0.4,說明預報時效21 h前降水模型預測的降水數(shù)據(jù)和真實數(shù)據(jù)分布很接近,此降水模型性能良;其中12—18 h,損失函數(shù)較小,此時段降水模型的預測值與真實值最為接近;之后隨著預報時效的推移,檢驗結(jié)果呈波動上升趨勢,說明預報時效21 h后,降水模型的預測值與真實值不一致程度呈波動逐漸增加,降水模型的預測值與真實值也對應降低。
表2 河西走廊強降水預報模式TS檢驗、損失函數(shù)檢驗和均方根誤差(RMSE)檢驗對比表Table 2 Comparison of precipitation forecast model in the Hexi Corridor(TS test,loss function of classification test, and RMSE test)
由于無法檢查測試集b1中的每個值,從而了解特征值是否異常,可利用均方根誤差(RMSE)對異常值敏感的特性,來反映河西走廊降水預報模型的穩(wěn)定性。RMSE(RMSE)檢驗方法(段子譽和姚振強,2021)由式(10)給出。
RMSE是預測值h(xi)與平均值yi偏差的平方和除以樣本數(shù)(m)后的平方根,數(shù)值越小表示模型預報水平差異越小,它描述的是一種離散程度。由于河西走廊2018年4—9 月期間3 h 降水量大于9.9 mm 的樣本過少,所以只進行降水量預報時次檢驗。用圖3 繪制表2 中RMSE檢驗結(jié)果,可以更加清晰地看到25個時次之間的差異,其中紅色柱所表示的白天誤差更小(平均值為0.5),而黑色柱所表示的夜間誤差平均值達到0.57,表明該模型對白天時段的預報效果比夜間更好。
圖3 RMSE檢驗圖(黑色柱預報時段為夜間,紅色柱預報時段為白天,黑色虛線和紅色虛線分別為夜間和白天的RMSE檢驗的平均值)Fig.3 Test diagram of root mean square error(The black bar indicates that the forecast period is at night,the red bar indicates that the forecast period is daytime,the black dotted line is the average value of root mean square error test at night,and the red dotted line is the average value of root mean square error test during the day)
從三種檢驗方法的結(jié)果綜合對比看,12—18 h 的預報結(jié)果相對最佳,白天預報結(jié)果總體優(yōu)于夜間。
圖4 給出甘肅省酒泉市2019 年7 月16 日20 時—17 日20 時日降水量。甘肅省酒泉市轄肅州區(qū)、玉門市、敦煌市、金塔縣、瓜州縣、肅北蒙古族自治縣、阿克塞哈薩克族自治縣共7個市、縣、區(qū),92個區(qū)域站,其中58 個區(qū)域站出現(xiàn)降水,包括小雨24 站、中雨12 站、大雨21 站,最大日降水量出現(xiàn)在肅北站(42.6 mm),達到暴雨量級。
圖4 甘肅省酒泉市2019年7月16日20時—17日20時日降水量圖(單位:mm,黑色點表示區(qū)域站位置)Fig.4 Map of administrative divisions and daily precipitation from 20∶00 BT 16 to 20∶00 BT 17 June 2019 in Jiuquan city(unit:mm,the locations of regional stations are black dot)
對比主要降水時段7月16日20時—17日08時間隔3 h的降水實況和模型預報值可知,模型準確預報出了降水開始時間(圖5a),雖然降水預報范圍較實際有所偏大,但預報的降水中心值(9.1 mm)與實況(7.9 mm)非常接近,且均位于肅北站;17日00—02時(圖5b),模型預報范圍與實況也較為一致,但預報的降水中心較實況偏北約150 km,降水中心值(14.5 mm)與實況(16.3 mm)很接近;17 日03—05 時(圖5c),模型預報范圍與實況基本重合,5 mm以上的降水區(qū)域兩者也非常接近;17日06—08 時(圖5d),降水區(qū)域和降水中心也都較為一致。由此可見,河西走廊降水預報模型較準確地預報出了這次降水過程的發(fā)生時間、主要降水時段、降水區(qū)域范圍及降水強度,尤其是肅北站16日20時—17日08時預報為30.2 mm,與實況相差僅為3.2 mm。
圖5 2019年7月16日20—23時(a)、17日00—02時(b)、17日03—05時(c)、17日06—08時(d)酒泉市逐3 h的降水實況與河西走廊模型預報對比圖(填色為降水實況,等值線為降水預報,單位:mm)Fig.5 Comparison between actual precipitation and the Hexi Corridor model prediction in Jiuquan city(a)from 20∶00 BT to 23∶00 BT on the 16,(b)from 00∶00 BT to 02∶00 BT on the 17,(c)from 03∶00 BT to 05∶00 BT on the 17,and(d)from 06∶00 BT to 08∶00 BT on the 17 June,2019(The shaded is precipitation actual,the contour line is precipitation forecast,unit:mm)
分別對比2019 年7 月15 日20 時的ECMWF 降水預報和河西走廊降水預報模型在酒泉市2019 年7 月16日20時—17日20時日降水量間隔3 h的預報(圖略),可以看出ECMWF降水預報比河西走廊降水預報模型的預報降水區(qū)域范圍偏大,降水時段偏長,降水強度偏強,降水中心與實況差距更大。總體上,河西走廊降水預報模型降水預報結(jié)果優(yōu)于ECMWF降水預報。
本文利用河西走廊地面逐小時降水資料及ECMWF預報資料,根據(jù)69個特征量對V-3θ圖進行描述,使用Keras方法構(gòu)建河西走廊降水預報模型框架,最終預測河西走廊降水量。用分類檢驗損失函數(shù)、晴雨檢驗、擬合檢驗均方根誤差和個例實況對河西走廊降水模型結(jié)果進行對比,得出以下結(jié)論:
(1)采用keras建立三層神經(jīng)網(wǎng)絡(luò)框架,使用k折交叉方法,通過折線平滑,建立最佳晴雨分類模型,確保模型對天氣的快速識別,迭代次數(shù)為200,降水預測結(jié)果達到最優(yōu)效果,最終使河西地區(qū)降水預報更加準確。
(2)采用邏輯回歸模型,挑選最佳的正則函數(shù)(L1)及正則參數(shù)(300),建立降水量擬合模型,使得在已有的數(shù)量級上取得更好的效果,降低模式的復雜性,減少特征值間誤差的影響,更準確地預報雨天情況下的降水量級。
(3)利用垂直方向信息差異構(gòu)成渦旋運動的理念,將傳統(tǒng)的V-3θ圖衍生為69 個特征量進行描述,使圖形數(shù)量化,以此降低人為主觀臆斷導致的降水偏差。垂直速度替換風向、風速,增加比濕,以此增加特征值的精確率和多元性。
(4)對比TS 檢驗、損失函數(shù)檢驗和均方根誤差檢驗三種方法的結(jié)果,河西走廊降水預報模型白天預報結(jié)果總體優(yōu)于夜間,12—18 h的預報結(jié)果相對最佳。
(5)通過對酒泉市一次強降水天氣過程的預報檢驗,河西走廊降水預報模型較準確地預報出了這次降水過程的發(fā)生時間、主要降水時段、降水區(qū)域范圍及降水中心強度,證實該模型對強降水天氣有較強的預報能力。
由于河西走廊降水預報模型的樣本僅使用2018年4—9 月,樣本數(shù)量過少,河西走廊降水預報模型晴雨檢驗略低于ECMWF降水預報,然而對比多次降水個例均發(fā)現(xiàn),ECMWF降水預報比河西走廊降水預報模型的預報降水區(qū)域范圍偏大,降水時段偏長,降水強度偏強。在未來的研究中,需要建立更大規(guī)模的樣本數(shù)據(jù)集,期待河西走廊降水預報模型取得更精確的預報。