張啟凡 王永忠 馬俊逸
(1.中國商飛民用飛機(jī)試飛中心 上海 201323)(2.中國民用航空飛行學(xué)院 廣漢 618300)
對流天氣是我國夏秋兩季多發(fā)的天氣現(xiàn)象,短期的強(qiáng)對流天氣受到地理?xiàng)l件等多種因素的影響,在預(yù)報上有很大的難度,且易產(chǎn)生各類氣象災(zāi)害[1]。針對降水量預(yù)測問題,研究人員提出了多種的預(yù)測方法。傳統(tǒng)降水量預(yù)測大多采用數(shù)值預(yù)報方法[2],張祥[3]等提出的加權(quán)型馬爾科夫模型,屈文崗[4]等基于滑動平均馬爾可夫預(yù)測模型。李文輝[5]等提出時間序列均生函數(shù)模型。陳程[6]提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和GRU得到了Conv GRU模型。Qing-hua Miao等[7]結(jié)合卷積和長時記憶神經(jīng)網(wǎng)絡(luò)改進(jìn)季風(fēng)降水預(yù)測。
諸多研究中鮮有用影響降水的氣象指數(shù)或因子對短時降水量進(jìn)行數(shù)值預(yù)測。本文從物理量參數(shù)回歸分析的思想出發(fā),選取并計算了影響降水的物理參數(shù)。綜合這些物理量參數(shù)利用多元線性回歸模型和擬合效果較好的BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)模型對短時降水量進(jìn)行預(yù)測并對得到的仿真結(jié)果進(jìn)行誤差分析,從而選取最優(yōu)的預(yù)測模型。
降水?dāng)?shù)據(jù)選用北京懷柔區(qū)2007年1月1日至2017年12月31日的地面逐日降水資料?;A(chǔ)物理量參數(shù)由美國國家環(huán)境預(yù)報中心(NCEP/NCAR)每天四次更新的(2.5°×2.5)再分析數(shù)據(jù)下載得到nc數(shù)據(jù)文件,本文使用Matlab中相關(guān)函數(shù)對其進(jìn)行讀取。在對nc文件中var數(shù)據(jù)進(jìn)行讀取之前需要將該地區(qū)的經(jīng)緯度坐標(biāo)做格點(diǎn)化處理方可進(jìn)行讀取從而獲取研究所需的基本物理變量。經(jīng)同化處理前的降水?dāng)?shù)據(jù)如表1所示,格點(diǎn)坐標(biāo)數(shù)據(jù)如表2所示。篩選2007~2017年間共計180組數(shù)據(jù)編入訓(xùn)練集。
表1 降水樣本示例(地球坐標(biāo))
表2 降水樣本示例(格點(diǎn)坐標(biāo))
多元回歸模型有三個主要特征:線性、方差齊性、殘差為正態(tài)分布[8]。在實(shí)際預(yù)測問題中通常很難判定一個變量是相關(guān)的,理想的模型需要盡可能低的殘差,又需要有盡可能少的變量。故在選擇變量時將盡可能減少待估計回歸系數(shù)的數(shù)量并參考因變量之間和因變量與自變量的物理關(guān)系。
結(jié)合降水產(chǎn)生過程的物理量方程,綜合考慮強(qiáng)降水產(chǎn)生的三個必要條件,充沛的水汽,大氣的動力和大氣穩(wěn)定度。選擇q、RH、|FH|、FZ、?p·六項(xiàng)物理量參數(shù)建立模型。
上述指數(shù)的相關(guān)計算公式如下:
通過Matlab編程讀取格點(diǎn)坐標(biāo)信息下的nc數(shù)據(jù)集中的變量參數(shù)并計算上述指數(shù),整理為模型的輸入數(shù)據(jù)集共180組,隨機(jī)選取30組作為測試集。
依據(jù)上述參數(shù)及數(shù)據(jù)建立多元回歸模型并進(jìn)行預(yù)測以及檢驗(yàn)分析,所得結(jié)果如表3所示。
表3 多重判定系數(shù)
R、R2,調(diào)整R2反映線性回歸方程擬合度,取值范圍為0至1,越接近1擬合度越好。
由F檢驗(yàn)的結(jié)果,sig=0.000<0.05表明支持原假設(shè),也就是線性回歸方程顯著。
由t檢驗(yàn)的系數(shù)得到回歸方程:
在得到回歸方程之后還需要考慮這些數(shù)據(jù)是否適合做回歸即它們之間是否存在線性關(guān)系。
圖1中橫坐標(biāo)為降水量的標(biāo)準(zhǔn)化預(yù)測值,縱軸代表實(shí)際降水量。圖中的數(shù)據(jù)點(diǎn)為使用線性回歸模型進(jìn)行預(yù)測得到的降水值。理想情況時,預(yù)測點(diǎn)均勻分布在圖中黑色直線兩端,所以可以看出該模型的精度不夠理想,由于數(shù)據(jù)中包含降水量為0的情況,所以選用MAE,MSE,RMSE對誤差做出評價。
圖1 線性回歸模型預(yù)測
表4 預(yù)測效果評價
上述指標(biāo)顯示多元線性回歸的預(yù)測結(jié)果誤差很大,因此降水量與六項(xiàng)物理量之間無明顯線性關(guān)系。
BP是一種為減小誤差使網(wǎng)絡(luò)的誤差平方和最?。?]而通過梯度下降的學(xué)習(xí)方式反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值從而達(dá)到目標(biāo)參數(shù)的多隱含層層前饋網(wǎng)絡(luò)[10]。
RBF神經(jīng)網(wǎng)絡(luò)是兩層前饋網(wǎng)絡(luò),其隱藏層不是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)層,隱層的功能是將輸入向量的非線性可分離集轉(zhuǎn)換為線性可分離集[11]。隱藏層的每一個神經(jīng)元需計算輸入數(shù)據(jù)到代表神經(jīng)元聚類中心的距離,找到RBF作為激勵函數(shù)的輸入與聚類中心的距離r。第二層是一個簡單的前饋層,網(wǎng)絡(luò)輸出由隱含層的輸出結(jié)果經(jīng)感知神經(jīng)元或ADALINE線性加權(quán)輸出[12]。最常用的徑向基函數(shù)是高斯核函數(shù),形式為
其中xc為核函數(shù)中心,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。
xk為第k個輸入樣本,cj為第j個中心點(diǎn),m為隱含層的結(jié)點(diǎn)數(shù),n是輸出的樣本數(shù)[14]??傻玫骄W(wǎng)絡(luò)的輸出為
4.3.1 模型參數(shù)設(shè)置
BP神經(jīng)網(wǎng)絡(luò)在預(yù)測時為3層網(wǎng)絡(luò),其中輸入層節(jié)點(diǎn)個數(shù)為自變量個數(shù),隱含層節(jié)點(diǎn)數(shù)為9,隱含層函數(shù)tansig[13],輸出層函數(shù)purelin[14~15],學(xué)習(xí)率設(shè)置為0.001,gaol為0.0001,最大迭代次數(shù)1000次。RBF神經(jīng)網(wǎng)絡(luò)在預(yù)測時隱含層節(jié)點(diǎn)數(shù)為30,隱含層為Gaussian核函數(shù)。
4.3.2 預(yù)測結(jié)果及評價
將6項(xiàng)物理量作為自BP,RBF經(jīng)神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真預(yù)測,得到結(jié)果如圖2~圖3。
圖2 BP神經(jīng)網(wǎng)絡(luò)仿真結(jié)果
圖3 RBF神經(jīng)網(wǎng)絡(luò)仿真結(jié)果
BP和RBF神經(jīng)網(wǎng)絡(luò)的擬合優(yōu)度都超過了90%,RBF的擬合優(yōu)度高達(dá)99.8%絕對誤差較小。采用MAE,MAPE,MSE,運(yùn)行時間指標(biāo)對兩者進(jìn)行評價對比,如表5所示。
表5 仿真效果評價
從各項(xiàng)評價指標(biāo)來看,RBF神經(jīng)網(wǎng)絡(luò)的誤差明顯小于BP神經(jīng)網(wǎng)絡(luò),由于RBF局部逼近可以簡化計算量所以其運(yùn)行時間也較短,是理想降水量的預(yù)測模型。
4.3.3 最優(yōu)模型的確定
為進(jìn)一步驗(yàn)證將6項(xiàng)物理量作為輸入的RBF神經(jīng)網(wǎng)絡(luò)模型是否為最優(yōu)模型,本文利用6項(xiàng)物理量建立自變量隨機(jī)選取的21個RBF神經(jīng)網(wǎng)絡(luò)仿真模型,運(yùn)行得到的結(jié)果如圖4~圖8所示。
圖4 21個模型的R2對比
圖5 21個模型MAE對比
圖6 21個模型MSE對比
圖7 21個模型RMSE對比
圖8 21個模型運(yùn)行時間對比
由上圖可以看出隨物理量參數(shù)的增加R2遞增,MAE、MSE、RMSE誤差減小,運(yùn)行時間t的趨勢不明顯。
選取擬合度大于95%的模型做進(jìn)一步比對得到表6。
表6 R2大于95%的模型預(yù)測效果評價
模型6的所有指標(biāo)均優(yōu)于模型5和模型11,驗(yàn)證了將6項(xiàng)物理量作為自變量的RBF神經(jīng)網(wǎng)絡(luò)模型為最優(yōu)模型,缺少任一變量都會導(dǎo)致信息的不完整性和準(zhǔn)確度的缺失。同時也驗(yàn)證了4.2節(jié)中自變量選取的合理性和準(zhǔn)確性。
本文在理論和數(shù)據(jù)表現(xiàn)上對短時降水進(jìn)行分析,分析了發(fā)生降水的三個物理?xiàng)l件及其對應(yīng)的物理量。使用多元線性回歸進(jìn)行回歸預(yù)測,發(fā)現(xiàn)其預(yù)測效果較差,物理量與降水量之間不存在明顯的線性關(guān)系。使用非線性模型前饋神經(jīng)網(wǎng)絡(luò)BP,RBF進(jìn)行預(yù)測,RBF表現(xiàn)出較高的準(zhǔn)確性。最終,為選取最優(yōu)模型建立了自變量隨機(jī)選取的21個RBF模型并比較其預(yù)測結(jié)果,得到最優(yōu)模型。本文提出的基于物理量選擇和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的短時降水量預(yù)測模型對短時降水量的預(yù)測在R2、MAE、MSE、RMSE、運(yùn)行時間上都具有最優(yōu)的預(yù)測精度。同時,短時降水量預(yù)測的復(fù)雜性還可以繼續(xù)深入的研究,且本文的模型中BP和RBF的隱含層數(shù)設(shè)置為單層,可以考慮設(shè)置多層進(jìn)行仿真或采用優(yōu)化算法對模型進(jìn)一步優(yōu)化,以此降低模型的預(yù)測誤差。