亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

幾種典型機(jī)器學(xué)習(xí)算法在短臨降雨預(yù)報(bào)分析研究

2022-11-07 10:41:04池欽趙興旺陳健

全球定位系統(tǒng) 2022年4期

關(guān)鍵詞：模型

池欽，趙興旺，陳健

(安徽理工大學(xué) 空間信息與測(cè)繪工程學(xué)院,安徽淮南 232001)

0 引言

大氣可降水量(PWV)是監(jiān)控氣候變化的重要一環(huán).以全球衛(wèi)星導(dǎo)航系統(tǒng)(GNSS)技術(shù)為代表的水汽反演PWV 方法在時(shí)間、空間、速度上占有優(yōu)勢(shì)，在氣象學(xué)領(lǐng)域中逐漸發(fā)揮作用[1].而降雨情況與PWV 的動(dòng)態(tài)特征變化關(guān)系，讓不少學(xué)者開(kāi)始利用機(jī)器學(xué)習(xí)模型對(duì)降雨進(jìn)行預(yù)報(bào).

降雨預(yù)報(bào)模型包括降雨信息錄入和氣象參數(shù)因子獲取、測(cè)試訓(xùn)練集規(guī)劃確定、降雨預(yù)報(bào)模型的選擇、模型參數(shù)的確定、降雨模型訓(xùn)練和建模結(jié)果分析等步驟[2].在獲取準(zhǔn)確的降雨信息和氣象參數(shù)因子等關(guān)鍵數(shù)據(jù)后，模型的選擇問(wèn)題是影響降雨預(yù)報(bào)結(jié)果的一個(gè)重要因素.適用的預(yù)報(bào)模型能夠模擬降雨與氣象參數(shù)因子的數(shù)據(jù)關(guān)系，利用線性或非線性函數(shù)構(gòu)建兩者之間的聯(lián)系，這種方法不需要再深入了解降雨發(fā)生背后的物理規(guī)律，只需要通過(guò)挖掘歷史數(shù)據(jù)(氣象參數(shù)、降水信息等)的變化規(guī)律[3].

機(jī)器學(xué)習(xí)模型在降雨預(yù)報(bào)中表現(xiàn)出了良好的效果[4-5].LIU 等[6]基于一種新的空間框架，將改進(jìn)的K近鄰(KNN)算法在遙感影像上分析了強(qiáng)降雨下影像的范圍.HUANG 等[7]利用改進(jìn)的KNN，在降雨數(shù)據(jù)分布不均勻的情況下，在降雨預(yù)報(bào)中取得了不錯(cuò)的效果.BOJANG 等[8]將奇異譜分析與最小二乘支持向量機(jī)和隨機(jī)森林(RF)結(jié)合，可用于月降雨量的研究.SHI 等[9]利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型引入衛(wèi)星遙感云圖以時(shí)間序列建立降雨預(yù)報(bào)模型，也取得不錯(cuò)的效果.然而，這些研究主要把機(jī)器學(xué)習(xí)算法應(yīng)用在遙感影像和雷達(dá)圖像.因此，另一批學(xué)者在GNSS PWV 與機(jī)器學(xué)習(xí)的融合應(yīng)用上進(jìn)行探索，嘗試?yán)肎NSS 解算出來(lái)的天頂對(duì)流層延遲(ZTD)通過(guò)機(jī)器學(xué)習(xí)算法建立降雨預(yù)報(bào)模型.周永江等[10]利用BP 神經(jīng)網(wǎng)絡(luò)融合氣象參數(shù)、PWV 和PM2.5 數(shù)據(jù)建立時(shí)間序列和回歸的霧霾預(yù)測(cè)模型，時(shí)效性達(dá)到3 h.劉洋等[11]利用反向傳播神經(jīng)網(wǎng)絡(luò)結(jié)合多種氣象參數(shù)和PWV 進(jìn)行短臨降雨預(yù)報(bào)，比BP 神經(jīng)網(wǎng)絡(luò)擁有更好的性能，趙慶志等[12]利用最小二乘支持向量機(jī)(SVM)對(duì)短臨降雨進(jìn)行預(yù)測(cè)，相對(duì)傳統(tǒng)降雨預(yù)測(cè)算法具有顯著提升.

為了驗(yàn)證機(jī)器學(xué)習(xí)算法在降雨預(yù)報(bào)中的可靠性能，本文在上述研究的基礎(chǔ)上，以幾種典型機(jī)器學(xué)習(xí)算法構(gòu)建短臨降雨預(yù)報(bào)模型，融合PWV 和氣象參數(shù)數(shù)據(jù)，定量分析和比較這些機(jī)器學(xué)習(xí)算法在相同背景下的降雨預(yù)測(cè)性能，研究和評(píng)價(jià)模型的可行性.

1 理論和數(shù)據(jù)

1.1 GNSS 獲取PWV

GNSS 信號(hào)在傳播過(guò)程中會(huì)受到對(duì)流層延遲的干擾，利用對(duì)流層延遲不僅可以改進(jìn)GNSS 定位的精度，同時(shí)對(duì)水汽的研究有著重要作用.ZTD 可由斜路徑方向上的對(duì)流層延遲通過(guò)映射函數(shù)投影在天頂方向上得到.GAMIT 解算的對(duì)流層延遲與國(guó)際GNSS服務(wù)(IGS)提供的對(duì)流層延遲產(chǎn)品具有很好的一致性[13].本文使用IGS ZTD 產(chǎn)品代替GAMIT 處理的ZTD 延遲.

ZTD 由天頂對(duì)流層靜力延遲(ZHD)和天頂對(duì)流層濕延遲(ZWD)兩部分組成，前者是ZTD 中的主要成分，可以通過(guò)Saastamoinen 公式求得；后者通過(guò)ZTD 與ZHD 之間作差求得.PWV 與ZWD 之間的轉(zhuǎn)換系數(shù)(π)由Bevis 提出，通過(guò)ZWD 和π 的乘積可以得到PWV.綜上，PWV 的計(jì)算公式為

1.2 模型和算法

1.2.1 KNN 算法

KNN 算法是一種通過(guò)特征空間中的輸入樣本尋找k個(gè)距離最近鄰的樣本并依據(jù)所屬類(lèi)別投票表決的方法[14].距離的計(jì)算函數(shù)有歐幾里得距離、巴氏距離和馬氏距離等.常用的歐幾里得距離計(jì)算的是兩個(gè)點(diǎn)距離之間的平方差之和的平方根，計(jì)算公式為

式中，i表示點(diǎn)x和y的第i個(gè)坐標(biāo).通過(guò)KNN 算法對(duì)目標(biāo)進(jìn)行分類(lèi)，輸出值是k個(gè)最近鄰樣本類(lèi)別中占比最大的一類(lèi).可以通過(guò)手動(dòng)設(shè)置或使用交叉驗(yàn)證結(jié)果較為準(zhǔn)確的k值.

1.2.2 隨機(jī)森林

隨機(jī)森林(RF)在Bagging 算法的基礎(chǔ)上，隨機(jī)選取部分特征向量組成CART (classification and regression tree)決策樹(shù)，流程如圖1 所示，重復(fù)m次建立m個(gè)決策樹(shù)模型，通過(guò)多顆決策樹(shù)聯(lián)合對(duì)結(jié)果進(jìn)行預(yù)測(cè).

圖1 隨機(jī)森林示意圖

1.2.3 樸素貝葉斯分類(lèi)器

樸素貝葉斯分類(lèi)器(NBC)是貝葉斯分類(lèi)器中常用的模型之一.這種分類(lèi)器假設(shè)特征向量之間獨(dú)立，降低了運(yùn)算的邏輯性和復(fù)雜性.在特征向量為x的情況下，對(duì)目標(biāo)進(jìn)行歸類(lèi)時(shí)，計(jì)算公式為

對(duì)于特征向量的屬性是連續(xù)性分布的二分類(lèi)問(wèn)題，計(jì)算出變量正態(tài)分布的均值和方差，可將公式轉(zhuǎn)換為

式中：Z表示歸歸一化因子；μj表示第j個(gè)特征向量的均值；σj表示第j個(gè)特征向量的標(biāo)準(zhǔn)差；y=+1 表示樣本歸為正類(lèi)的標(biāo)簽.

1.2.4 SVM

SVM 的目的通過(guò)尋找一個(gè)最具魯棒性的超平面來(lái)將樣本進(jìn)行分類(lèi).這個(gè)超平面讓不同的樣本類(lèi)別分布在平面兩側(cè)，同時(shí)讓兩側(cè)距離決策邊界最近的樣本類(lèi)別有一個(gè)極大值.這個(gè)超平面用下面的式子表示：

式中：x為特征向量；w表示超平面的歸一化方向向量；b表示閾值.

SVM 可以利用核函數(shù)將原始特征向量映射到新空間.常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)和高斯核函數(shù)等.在本次實(shí)驗(yàn)中，使用了高斯核函數(shù)[15]，如下式所示：

1.3 數(shù)據(jù)資料

數(shù)據(jù)選取位于北京(BJFS)和武漢(WUH2) 2 個(gè)GNSS 測(cè)站，其中ZTD 數(shù)據(jù)來(lái)自IGS 提供的對(duì)流層延遲產(chǎn)品，PWV 由式(1)計(jì)算得到.氣象數(shù)據(jù)來(lái)自氣象網(wǎng)站rp5.ru，由英國(guó)氣象局制作并根據(jù)相關(guān)資質(zhì)發(fā)布在該網(wǎng)站上，提供的氣象數(shù)據(jù)有溫度(T)、氣壓(P)、相對(duì)濕度(U)、露點(diǎn)溫度(Td)、每3 h 降雨量.

2 氣象參數(shù)特征分析

降雨的發(fā)生往往伴隨著復(fù)雜參數(shù)的變化，研究降水形成過(guò)程中PWV 和多尺度氣象參數(shù)時(shí)間序列的周期性、敏感性等特征，挖掘降雨的形成機(jī)理是有必要的.圖2～3 分別為BJFS 站和WUH2 站降雨及相關(guān)其氣象參數(shù)的時(shí)間序列變化.由圖可知，降雨的發(fā)生與PWV 及其氣象參數(shù)的變化基本是一致的，有比較強(qiáng)的相關(guān)性.從全年的數(shù)據(jù)變化看，在PWV 的峰值到來(lái)時(shí)，會(huì)伴隨著降雨的發(fā)生；結(jié)合氣象資料選擇降雨較為集中的180—210 天，在降雨發(fā)生前，通常伴隨著PWV、Td及U的上升，T的下降，P的陡峭上升；在降雨發(fā)生時(shí)，通常伴隨著PWV、P、Td及U的下降，T的上升.

圖2 BJFS 站2020 年降雨量與PWV 關(guān)系以及7 月(年積日第180—210 天)降雨量與相關(guān)氣象參數(shù)關(guān)系

圖3 WHU2 站2020 年降雨量與PWV 關(guān)系以及7 月(年積日第180—210 天)降雨量與相關(guān)氣象參數(shù)關(guān)系

3 基于機(jī)器學(xué)習(xí)的預(yù)報(bào)模型構(gòu)建

3.1 預(yù)報(bào)流程設(shè)計(jì)

圖4 展示了區(qū)域短臨降雨的一般預(yù)報(bào)框架.

圖4 降雨預(yù)報(bào)模型流程

以BJFS 站2020 年的實(shí)驗(yàn)數(shù)據(jù)為例，首先對(duì)PWV 和氣象參數(shù)進(jìn)行歸一化處理.模型的參數(shù)對(duì)預(yù)報(bào)的精度起到重要作用，RF 模型的參數(shù)有樹(shù)的數(shù)目和深度，KNN 的參數(shù)有權(quán)重和距離，SVM 的參數(shù)有正則化參數(shù)和懲罰參數(shù)，本文利用網(wǎng)格搜索法和交叉驗(yàn)證的方式來(lái)確定模型的最優(yōu)參數(shù).接著將預(yù)報(bào)因子(PWV、T、P、Td、U)與降雨情況作為數(shù)據(jù)集輸入模型中，分別隨機(jī)將數(shù)據(jù)集中的70%和80%作為訓(xùn)練集進(jìn)行模型訓(xùn)練，剩下的數(shù)據(jù)作為測(cè)試集進(jìn)行模型驗(yàn)證，得到BJFS 站2020 年的降雨預(yù)報(bào)模擬結(jié)果.WUH2 站的模擬實(shí)驗(yàn)流程與上述流程基本一致.

3.2 結(jié)果評(píng)價(jià)

本文使用準(zhǔn)確性(Accuracy)、精確率(Precision)和假負(fù)率(FNR)來(lái)評(píng)價(jià)降雨預(yù)報(bào)模型的精度

式中：將降雨預(yù)報(bào)的分類(lèi)情況表示為混淆距陣，具體如表1 所示.TP 為實(shí)際情況降雨，預(yù)報(bào)情況為降雨的樣本數(shù)；TN 為實(shí)際情況不降雨，預(yù)報(bào)情況為不降雨的樣本數(shù)；FP 為實(shí)際情況不降雨，預(yù)報(bào)情況為降雨的樣本數(shù)；FN 為實(shí)際情況降雨，預(yù)報(bào)情況為不降雨的樣本數(shù).

表1 降雨預(yù)報(bào)混淆矩陣

圖5～7 為BJFS 站和WUH2 站2020 年100 次的降雨模擬結(jié)果，由圖可見(jiàn)，2 個(gè)測(cè)站的降雨預(yù)報(bào)模擬都有不錯(cuò)的效果.BJFS 站4 種模型不同百分比訓(xùn)練集準(zhǔn)確性的平均值均約為0.96，精確率的平均值約為80%，假負(fù)率的平均值約為21%；WUH2 站4 種模型不同百分比訓(xùn)練集準(zhǔn)確性的平均值約為0.92，精確率的平均值約為86%，假負(fù)率的平均值約為13%.而在4 種模型中，RF 的模型在準(zhǔn)確性和精確率上比其他3 種模型更優(yōu)一點(diǎn)，SVM 的模型在假負(fù)率上比其他3 種模型更低一點(diǎn).

圖5 4 種預(yù)報(bào)模型的準(zhǔn)確性箱圖

傳統(tǒng)的閾值方法利用降雨前的PWV 的變化量和變化率進(jìn)行短臨降雨預(yù)報(bào)[16]，表2 對(duì)BJFS 站和WUH2 站的PWV 變化量和變化率進(jìn)行分析并確定合適的閾值，模擬2 個(gè)測(cè)站的降雨預(yù)報(bào)效果.

表2 BJFS 站和WUH2 站降雨預(yù)報(bào)的統(tǒng)計(jì)結(jié)果

圖6 4 種預(yù)報(bào)模型的精確率箱圖

圖7 4 種預(yù)報(bào)模型的假負(fù)率箱圖

由表2 可以看出，選擇合適的PWV 變化量和變化率并利用閾值方法對(duì)降雨進(jìn)行預(yù)報(bào)，其精確率和假負(fù)率約在80%和60%，說(shuō)明該方法在一定程度上能對(duì)未來(lái)短時(shí)間進(jìn)行降雨預(yù)報(bào)，但卻有著不低的假負(fù)率，對(duì)預(yù)報(bào)的應(yīng)用存在一定的影響.

綜上所述，4 種模型在BJFS 站和WUH2 站的降雨預(yù)報(bào)都起到了不錯(cuò)的效果，且漏報(bào)率低于傳統(tǒng)的閾值方法判斷降雨模型.

3.3 預(yù)報(bào)實(shí)驗(yàn)

以BJFS 站為例，按時(shí)間序列的方式選取年積日為第150—200 天的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù)，對(duì)數(shù)據(jù)集進(jìn)行歸一化處理輸入預(yù)報(bào)模型中進(jìn)行訓(xùn)練，以200—250 天的數(shù)據(jù)作為測(cè)試集數(shù)據(jù)，預(yù)報(bào)下一時(shí)間段的短臨降雨情況.利用接收器操作特性(ROC)曲線和查準(zhǔn)率一查全齊(PR)曲線對(duì)結(jié)果進(jìn)行評(píng)估.WUH2 站的預(yù)報(bào)流程與上述流程基本一致.

圖8～11 為BJFS 站和WUH2 站的降雨預(yù)報(bào)結(jié)果.由圖可見(jiàn)，2 個(gè)測(cè)站的降雨預(yù)報(bào)都取得不錯(cuò)的效果，BJFS 站的ROC 曲線下與坐標(biāo)軸圍成的面積(AUC)值最好的是SVM 模型的0.923 80，平均準(zhǔn)確率(AP)值最好的是SVM 模型的0.790 92；WUH2 站的AUC 值最好的是SVM 模型的0.924 30,AP 值最好的是RF 模型的0.821 86.綜上所述，SVM 模型的分類(lèi)器性能略?xún)?yōu)于RF 模型，而KNN 模型和NBC 模型也能取得不錯(cuò)的效果.因此，本文基于機(jī)器學(xué)習(xí)的短臨降雨預(yù)報(bào)模型對(duì)未來(lái)3 h 的降雨預(yù)報(bào)能達(dá)到一個(gè)不錯(cuò)的效果，可以達(dá)到80%以上的降雨情況，而假負(fù)率在20%以下.相對(duì)于傳統(tǒng)的閾值預(yù)報(bào)模型，在正確率相當(dāng)?shù)那闆r下(其正確率約為為80%)，假負(fù)率降低了50%左右(其假負(fù)率約為70%).

圖8 BJFS 站的ROC 和AUC 曲線

圖9 WUH2 站的ROC 和AUC 曲線

圖10 BJFS 站的PR 和AP 曲線

圖11 WUH2 站的PR 和AP 曲線

4 結(jié)論

1)通過(guò)分析降雨發(fā)生前后與PWV 和多種氣象參數(shù)(T、P、Td、U)的一種非線性變化關(guān)系得出，在降雨發(fā)生前，會(huì)有PWV、Td、U和P的上升過(guò)程，T的下降，而在降雨發(fā)生時(shí)，這些參數(shù)發(fā)生相反的態(tài)勢(shì).

2)利用不同的機(jī)器學(xué)習(xí)算法，分別對(duì)測(cè)站整年的降雨數(shù)據(jù)劃分不同的訓(xùn)練集構(gòu)建短臨降雨預(yù)報(bào)模型，結(jié)果表明4 種模型均能取得不錯(cuò)的效果，準(zhǔn)確性在0.9 以上，精確率在80%以上，假負(fù)率在25%以下，而RF 模型在準(zhǔn)確性和精確率上更優(yōu)，SVM 的模型在假負(fù)率上更優(yōu).

3)以時(shí)間序列構(gòu)建的短臨降雨預(yù)報(bào)模型的結(jié)果表明，4 種模型對(duì)未來(lái)3 h 的80%以上降雨情況可以很好的預(yù)報(bào)，假負(fù)率在20%以下，相較傳統(tǒng)的閾值方法，假負(fù)率降低了約50%，有了很大的改進(jìn).其中SVM 模型的綜合性能略?xún)?yōu)，在BJFS 和WUH2 測(cè)站上的AUC 最好，BJFS 的AP 最好，其次是RF 模型，最后KNN 模型和NBC 模型也能取得不錯(cuò)的效果.綜上，4 種典型機(jī)器學(xué)習(xí)構(gòu)建的短臨降雨預(yù)報(bào)模型具有不錯(cuò)的可行性.

致謝：感謝IGS 提供的GNSS 數(shù)據(jù)，感謝rp5.ru網(wǎng)站提供的氣象數(shù)據(jù).