池欽,趙興旺,陳健
(安徽理工大學(xué) 空間信息與測(cè)繪工程學(xué)院,安徽 淮南 232001)
大氣可降水量(PWV)是監(jiān)控氣候變化的重要一環(huán).以全球衛(wèi)星導(dǎo)航系統(tǒng)(GNSS)技術(shù)為代表的水汽反演PWV 方法在時(shí)間、空間、速度上占有優(yōu)勢(shì),在氣象學(xué)領(lǐng)域中逐漸發(fā)揮作用[1].而降雨情況與PWV 的動(dòng)態(tài)特征變化關(guān)系,讓不少學(xué)者開(kāi)始利用機(jī)器學(xué)習(xí)模型對(duì)降雨進(jìn)行預(yù)報(bào).
降雨預(yù)報(bào)模型包括降雨信息錄入和氣象參數(shù)因子獲取、測(cè)試訓(xùn)練集規(guī)劃確定、降雨預(yù)報(bào)模型的選擇、模型參數(shù)的確定、降雨模型訓(xùn)練和建模結(jié)果分析等步驟[2].在獲取準(zhǔn)確的降雨信息和氣象參數(shù)因子等關(guān)鍵數(shù)據(jù)后,模型的選擇問(wèn)題是影響降雨預(yù)報(bào)結(jié)果的一個(gè)重要因素.適用的預(yù)報(bào)模型能夠模擬降雨與氣象參數(shù)因子的數(shù)據(jù)關(guān)系,利用線性或非線性函數(shù)構(gòu)建兩者之間的聯(lián)系,這種方法不需要再深入了解降雨發(fā)生背后的物理規(guī)律,只需要通過(guò)挖掘歷史數(shù)據(jù)(氣象參數(shù)、降水信息等)的變化規(guī)律[3].
機(jī)器學(xué)習(xí)模型在降雨預(yù)報(bào)中表現(xiàn)出了良好的效果[4-5].LIU 等[6]基于一種新的空間框架,將改進(jìn)的K近鄰(KNN)算法在遙感影像上分析了強(qiáng)降雨下影像的范圍.HUANG 等[7]利用改進(jìn)的KNN,在降雨數(shù)據(jù)分布不均勻的情況下,在降雨預(yù)報(bào)中取得了不錯(cuò)的效果.BOJANG 等[8]將奇異譜分析與最小二乘支持向量機(jī)和隨機(jī)森林(RF)結(jié)合,可用于月降雨量的研究.SHI 等[9]利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型引入衛(wèi)星遙感云圖以時(shí)間序列建立降雨預(yù)報(bào)模型,也取得不錯(cuò)的效果.然而,這些研究主要把機(jī)器學(xué)習(xí)算法應(yīng)用在遙感影像和雷達(dá)圖像.因此,另一批學(xué)者在GNSS PWV 與機(jī)器學(xué)習(xí)的融合應(yīng)用上進(jìn)行探索,嘗試?yán)肎NSS 解算出來(lái)的天頂對(duì)流層延遲(ZTD)通過(guò)機(jī)器學(xué)習(xí)算法建立降雨預(yù)報(bào)模型.周永江等[10]利用BP 神經(jīng)網(wǎng)絡(luò)融合氣象參數(shù)、PWV 和PM2.5 數(shù)據(jù)建立時(shí)間序列和回歸的霧霾預(yù)測(cè)模型,時(shí)效性達(dá)到3 h.劉洋等[11]利用反向傳播神經(jīng)網(wǎng)絡(luò)結(jié)合多種氣象參數(shù)和PWV 進(jìn)行短臨降雨預(yù)報(bào),比BP 神經(jīng)網(wǎng)絡(luò)擁有更好的性能,趙慶志等[12]利用最小二乘支持向量機(jī)(SVM)對(duì)短臨降雨進(jìn)行預(yù)測(cè),相對(duì)傳統(tǒng)降雨預(yù)測(cè)算法具有顯著提升.
為了驗(yàn)證機(jī)器學(xué)習(xí)算法在降雨預(yù)報(bào)中的可靠性能,本文在上述研究的基礎(chǔ)上,以幾種典型機(jī)器學(xué)習(xí)算法構(gòu)建短臨降雨預(yù)報(bào)模型,融合PWV 和氣象參數(shù)數(shù)據(jù),定量分析和比較這些機(jī)器學(xué)習(xí)算法在相同背景下的降雨預(yù)測(cè)性能,研究和評(píng)價(jià)模型的可行性.
GNSS 信號(hào)在傳播過(guò)程中會(huì)受到對(duì)流層延遲的干擾,利用對(duì)流層延遲不僅可以改進(jìn)GNSS 定位的精度,同時(shí)對(duì)水汽的研究有著重要作用.ZTD 可由斜路徑方向上的對(duì)流層延遲通過(guò)映射函數(shù)投影在天頂方向上得到.GAMIT 解算的對(duì)流層延遲與國(guó)際GNSS服務(wù)(IGS)提供的對(duì)流層延遲產(chǎn)品具有很好的一致性[13].本文使用IGS ZTD 產(chǎn)品代替GAMIT 處理的ZTD 延遲.
ZTD 由天頂對(duì)流層靜力延遲(ZHD)和天頂對(duì)流層濕延遲(ZWD)兩部分組成,前者是ZTD 中的主要成分,可以通過(guò)Saastamoinen 公式求得;后者通過(guò)ZTD 與ZHD 之間作差求得.PWV 與ZWD 之間的轉(zhuǎn)換系數(shù)(π)由Bevis 提出,通過(guò)ZWD 和π 的乘積可以得到PWV.綜上,PWV 的計(jì)算公式為
1.2.1 KNN 算法
KNN 算法是一種通過(guò)特征空間中的輸入樣本尋找k個(gè)距離最近鄰的樣本并依據(jù)所屬類(lèi)別投票表決的方法[14].距離的計(jì)算函數(shù)有歐幾里得距離、巴氏距離和馬氏距離等.常用的歐幾里得距離計(jì)算的是兩個(gè)點(diǎn)距離之間的平方差之和的平方根,計(jì)算公式為
式中,i表示點(diǎn)x和y的第i個(gè)坐標(biāo).通過(guò)KNN 算法對(duì)目標(biāo)進(jìn)行分類(lèi),輸出值是k個(gè)最近鄰樣本類(lèi)別中占比最大的一類(lèi).可以通過(guò)手動(dòng)設(shè)置或使用交叉驗(yàn)證結(jié)果較為準(zhǔn)確的k值.
1.2.2 隨機(jī)森林
隨機(jī)森林(RF)在Bagging 算法的基礎(chǔ)上,隨機(jī)選取部分特征向量組成CART (classification and regression tree)決策樹(shù),流程如圖1 所示,重復(fù)m次建立m個(gè)決策樹(shù)模型,通過(guò)多顆決策樹(shù)聯(lián)合對(duì)結(jié)果進(jìn)行預(yù)測(cè).
圖1 隨機(jī)森林示意圖
1.2.3 樸素貝葉斯分類(lèi)器
樸素貝葉斯分類(lèi)器(NBC)是貝葉斯分類(lèi)器中常用的模型之一.這種分類(lèi)器假設(shè)特征向量之間獨(dú)立,降低了運(yùn)算的邏輯性和復(fù)雜性.在特征向量為x的情況下,對(duì)目標(biāo)進(jìn)行歸類(lèi)時(shí),計(jì)算公式為
對(duì)于特征向量的屬性是連續(xù)性分布的二分類(lèi)問(wèn)題,計(jì)算出變量正態(tài)分布的均值和方差,可將公式轉(zhuǎn)換為
式中:Z表示歸歸一化因子;μj表示第j個(gè)特征向量的均值;σj表示第j個(gè)特征向量的標(biāo)準(zhǔn)差;y=+1 表示樣本歸為正類(lèi)的標(biāo)簽.
1.2.4 SVM
SVM 的目的通過(guò)尋找一個(gè)最具魯棒性的超平面來(lái)將樣本進(jìn)行分類(lèi).這個(gè)超平面讓不同的樣本類(lèi)別分布在平面兩側(cè),同時(shí)讓兩側(cè)距離決策邊界最近的樣本類(lèi)別有一個(gè)極大值.這個(gè)超平面用下面的式子表示:
式中:x為特征向量;w表示超平面的歸一化方向向量;b表示閾值.
SVM 可以利用核函數(shù)將原始特征向量映射到新空間.常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)和高斯核函數(shù)等.在本次實(shí)驗(yàn)中,使用了高斯核函數(shù)[15],如下式所示:
數(shù)據(jù)選取位于北京(BJFS)和武漢(WUH2) 2 個(gè)GNSS 測(cè)站,其中ZTD 數(shù)據(jù)來(lái)自IGS 提供的對(duì)流層延遲產(chǎn)品,PWV 由式(1)計(jì)算得到.氣象數(shù)據(jù)來(lái)自氣象網(wǎng)站rp5.ru,由英國(guó)氣象局制作并根據(jù)相關(guān)資質(zhì)發(fā)布在該網(wǎng)站上,提供的氣象數(shù)據(jù)有溫度(T)、氣壓(P)、相對(duì)濕度(U)、露點(diǎn)溫度(Td)、每3 h 降雨量.
降雨的發(fā)生往往伴隨著復(fù)雜參數(shù)的變化,研究降水形成過(guò)程中PWV 和多尺度氣象參數(shù)時(shí)間序列的周期性、敏感性等特征,挖掘降雨的形成機(jī)理是有必要的.圖2~3 分別為BJFS 站和WUH2 站降雨及相關(guān)其氣象參數(shù)的時(shí)間序列變化.由圖可知,降雨的發(fā)生與PWV 及其氣象參數(shù)的變化基本是一致的,有比較強(qiáng)的相關(guān)性.從全年的數(shù)據(jù)變化看,在PWV 的峰值到來(lái)時(shí),會(huì)伴隨著降雨的發(fā)生;結(jié)合氣象資料選擇降雨較為集中的180—210 天,在降雨發(fā)生前,通常伴隨著PWV、Td及U的上升,T的下降,P的陡峭上升;在降雨發(fā)生時(shí),通常伴隨著PWV、P、Td及U的下降,T的上升.
圖2 BJFS 站2020 年降雨量與PWV 關(guān)系以及7 月(年積日第180—210 天)降雨量與相關(guān)氣象參數(shù)關(guān)系
圖3 WHU2 站2020 年降雨量與PWV 關(guān)系以及7 月(年積日第180—210 天)降雨量與相關(guān)氣象參數(shù)關(guān)系
圖4 展示了區(qū)域短臨降雨的一般預(yù)報(bào)框架.
圖4 降雨預(yù)報(bào)模型流程
以BJFS 站2020 年的實(shí)驗(yàn)數(shù)據(jù)為例,首先對(duì)PWV 和氣象參數(shù)進(jìn)行歸一化處理.模型的參數(shù)對(duì)預(yù)報(bào)的精度起到重要作用,RF 模型的參數(shù)有樹(shù)的數(shù)目和深度,KNN 的參數(shù)有權(quán)重和距離,SVM 的參數(shù)有正則化參數(shù)和懲罰參數(shù),本文利用網(wǎng)格搜索法和交叉驗(yàn)證的方式來(lái)確定模型的最優(yōu)參數(shù).接著將預(yù)報(bào)因子(PWV、T、P、Td、U)與降雨情況作為數(shù)據(jù)集輸入模型中,分別隨機(jī)將數(shù)據(jù)集中的70%和80%作為訓(xùn)練集進(jìn)行模型訓(xùn)練,剩下的數(shù)據(jù)作為測(cè)試集進(jìn)行模型驗(yàn)證,得到BJFS 站2020 年的降雨預(yù)報(bào)模擬結(jié)果.WUH2 站的模擬實(shí)驗(yàn)流程與上述流程基本一致.
本文使用準(zhǔn)確性(Accuracy)、精確率(Precision)和假負(fù)率(FNR)來(lái)評(píng)價(jià)降雨預(yù)報(bào)模型的精度
式中:將降雨預(yù)報(bào)的分類(lèi)情況表示為混淆距陣,具體如表1 所示.TP 為實(shí)際情況降雨,預(yù)報(bào)情況為降雨的樣本數(shù);TN 為實(shí)際情況不降雨,預(yù)報(bào)情況為不降雨的樣本數(shù);FP 為實(shí)際情況不降雨,預(yù)報(bào)情況為降雨的樣本數(shù);FN 為實(shí)際情況降雨,預(yù)報(bào)情況為不降雨的樣本數(shù).
表1 降雨預(yù)報(bào)混淆矩陣
圖5~7 為BJFS 站和WUH2 站2020 年100 次的降雨模擬結(jié)果,由圖可見(jiàn),2 個(gè)測(cè)站的降雨預(yù)報(bào)模擬都有不錯(cuò)的效果.BJFS 站4 種模型不同百分比訓(xùn)練集準(zhǔn)確性的平均值均約為0.96,精確率的平均值約為80%,假負(fù)率的平均值約為21%;WUH2 站4 種模型不同百分比訓(xùn)練集準(zhǔn)確性的平均值約為0.92,精確率的平均值約為86%,假負(fù)率的平均值約為13%.而在4 種模型中,RF 的模型在準(zhǔn)確性和精確率上比其他3 種模型更優(yōu)一點(diǎn),SVM 的模型在假負(fù)率上比其他3 種模型更低一點(diǎn).
圖5 4 種預(yù)報(bào)模型的準(zhǔn)確性箱圖
傳統(tǒng)的閾值方法利用降雨前的PWV 的變化量和變化率進(jìn)行短臨降雨預(yù)報(bào)[16],表2 對(duì)BJFS 站和WUH2 站的PWV 變化量和變化率進(jìn)行分析并確定合適的閾值,模擬2 個(gè)測(cè)站的降雨預(yù)報(bào)效果.
表2 BJFS 站和WUH2 站降雨預(yù)報(bào)的統(tǒng)計(jì)結(jié)果
圖6 4 種預(yù)報(bào)模型的精確率箱圖
圖7 4 種預(yù)報(bào)模型的假負(fù)率箱圖
由表2 可以看出,選擇合適的PWV 變化量和變化率并利用閾值方法對(duì)降雨進(jìn)行預(yù)報(bào),其精確率和假負(fù)率約在80%和60%,說(shuō)明該方法在一定程度上能對(duì)未來(lái)短時(shí)間進(jìn)行降雨預(yù)報(bào),但卻有著不低的假負(fù)率,對(duì)預(yù)報(bào)的應(yīng)用存在一定的影響.
綜上所述,4 種模型在BJFS 站和WUH2 站的降雨預(yù)報(bào)都起到了不錯(cuò)的效果,且漏報(bào)率低于傳統(tǒng)的閾值方法判斷降雨模型.
以BJFS 站為例,按時(shí)間序列的方式選取年積日為第150—200 天的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),對(duì)數(shù)據(jù)集進(jìn)行歸一化處理輸入預(yù)報(bào)模型中進(jìn)行訓(xùn)練,以200—250 天的數(shù)據(jù)作為測(cè)試集數(shù)據(jù),預(yù)報(bào)下一時(shí)間段的短臨降雨情況.利用接收器操作特性(ROC)曲線和查準(zhǔn)率一查全齊(PR)曲線對(duì)結(jié)果進(jìn)行評(píng)估.WUH2 站的預(yù)報(bào)流程與上述流程基本一致.
圖8~11 為BJFS 站和WUH2 站的降雨預(yù)報(bào)結(jié)果.由圖可見(jiàn),2 個(gè)測(cè)站的降雨預(yù)報(bào)都取得不錯(cuò)的效果,BJFS 站的ROC 曲線下與坐標(biāo)軸圍成的面積(AUC)值最好的是SVM 模型的0.923 80,平均準(zhǔn)確率(AP)值最好的是SVM 模型的0.790 92;WUH2 站的AUC 值最好的是SVM 模型的0.924 30,AP 值最好的是RF 模型的0.821 86.綜上所述,SVM 模型的分類(lèi)器性能略?xún)?yōu)于RF 模型,而KNN 模型和NBC 模型也能取得不錯(cuò)的效果.因此,本文基于機(jī)器學(xué)習(xí)的短臨降雨預(yù)報(bào)模型對(duì)未來(lái)3 h 的降雨預(yù)報(bào)能達(dá)到一個(gè)不錯(cuò)的效果,可以達(dá)到80%以上的降雨情況,而假負(fù)率在20%以下.相對(duì)于傳統(tǒng)的閾值預(yù)報(bào)模型,在正確率相當(dāng)?shù)那闆r下(其正確率約為為80%),假負(fù)率降低了50%左右(其假負(fù)率約為70%).
圖8 BJFS 站的ROC 和AUC 曲線
圖9 WUH2 站 的ROC 和AUC 曲線
圖10 BJFS 站的PR 和AP 曲線
圖11 WUH2 站的PR 和AP 曲線
1)通過(guò)分析降雨發(fā)生前后與PWV 和多種氣象參數(shù)(T、P、Td、U)的一種非線性變化關(guān)系得出,在降雨發(fā)生前,會(huì)有PWV、Td、U和P的上升過(guò)程,T的下降,而在降雨發(fā)生時(shí),這些參數(shù)發(fā)生相反的態(tài)勢(shì).
2)利用不同的機(jī)器學(xué)習(xí)算法,分別對(duì)測(cè)站整年的降雨數(shù)據(jù)劃分不同的訓(xùn)練集構(gòu)建短臨降雨預(yù)報(bào)模型,結(jié)果表明4 種模型均能取得不錯(cuò)的效果,準(zhǔn)確性在0.9 以上,精確率在80%以上,假負(fù)率在25%以下,而RF 模型在準(zhǔn)確性和精確率上更優(yōu),SVM 的模型在假負(fù)率上更優(yōu).
3)以時(shí)間序列構(gòu)建的短臨降雨預(yù)報(bào)模型的結(jié)果表明,4 種模型對(duì)未來(lái)3 h 的80%以上降雨情況可以很好的預(yù)報(bào),假負(fù)率在20%以下,相較傳統(tǒng)的閾值方法,假負(fù)率降低了約50%,有了很大的改進(jìn).其中SVM 模型的綜合性能略?xún)?yōu),在BJFS 和WUH2 測(cè)站上的AUC 最好,BJFS 的AP 最好,其次是RF 模型,最后KNN 模型和NBC 模型也能取得不錯(cuò)的效果.綜上,4 種典型機(jī)器學(xué)習(xí)構(gòu)建的短臨降雨預(yù)報(bào)模型具有不錯(cuò)的可行性.
致謝:感謝IGS 提供的GNSS 數(shù)據(jù),感謝rp5.ru網(wǎng)站提供的氣象數(shù)據(jù).