亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        3種修正的機(jī)器學(xué)習(xí)算法在逐3 h降水量預(yù)報中的比較應(yīng)用

        2020-02-24 02:53:18孫俊奎王占良
        甘肅科學(xué)學(xué)報 2020年1期
        關(guān)鍵詞:訓(xùn)練樣本降水量降水

        孫俊奎,王占良,張 穎

        (云南省昆明市氣象局,云南 昆明 650034)

        降水預(yù)報是天氣預(yù)報和防災(zāi)減災(zāi)工作的關(guān)鍵環(huán)節(jié),特別是定量和定時的降水天氣預(yù)報預(yù)警呈精準(zhǔn)化趨勢[1]。數(shù)值預(yù)報模式輸出的降水量預(yù)報準(zhǔn)確性較低[2]。天氣預(yù)報業(yè)務(wù)常用的歐洲中心細(xì)網(wǎng)格預(yù)報場中降水場相對其他物理量場效果差,特別是強(qiáng)降水的預(yù)報效果更差。因此,對數(shù)值預(yù)報模式的其他物理量場解釋應(yīng)用再輸出降水量場的研究十分必要。

        數(shù)值預(yù)報釋用技術(shù)從模式輸出統(tǒng)計(MOS,model output statistics)和完全預(yù)報(PP,perfect prognosis)等線性統(tǒng)計回歸方法,發(fā)展到非線性回歸方法。目前常用的非線性機(jī)器學(xué)習(xí)算法有神經(jīng)網(wǎng)絡(luò)(BP,back propagation)方法[3]、支持向量機(jī)(SVM,support vector machine)方法[4-5]和Logistics判別方法[6-7]等。農(nóng)吉夫等[8]基于主成分徑向基函數(shù)(RBF,radial basis function)神經(jīng)網(wǎng)絡(luò)建立了降水預(yù)報模型;常軍等[9]和陳超輝等[10]采用SVM回歸方法開展了預(yù)測和預(yù)報研究;黃健敏等[11]和吳凡等[12]建立了Logistics回歸的區(qū)域地質(zhì)災(zāi)害和鐵路水害預(yù)報模型。在此基礎(chǔ)上,有人選用多家數(shù)值預(yù)報模式產(chǎn)品集成不同預(yù)報因子方案進(jìn)行對比分析,優(yōu)選效果較好的預(yù)報方案。但是很少有研究綜合多種機(jī)器學(xué)習(xí)算法,優(yōu)化算法參數(shù),綜合各種學(xué)習(xí)機(jī)器的優(yōu)點(diǎn),對比分析不同量級的降水在各種優(yōu)化算法的特點(diǎn)及優(yōu)劣。

        研究基于3種機(jī)器學(xué)習(xí)算法建立3 h時間間隔的累計降水量預(yù)報模型,并分別采用遺傳算法優(yōu)化預(yù)報模型和修正的Logistics判別方法構(gòu)建3種降水量預(yù)報模型,最后對比檢驗(yàn)3種預(yù)報模型特點(diǎn),綜合各種方法的優(yōu)點(diǎn),在時間上實(shí)現(xiàn)了發(fā)布逐3 h分辨率的降水量的短期預(yù)報,在業(yè)務(wù)上具有一定的實(shí)用性。

        1 資料與方法

        1.1 資料

        采用2016—2018年5—9月的歐洲中期天氣預(yù)報中心(ECMWF,european centre for medium-range weather forecasts)細(xì)網(wǎng)格數(shù)值預(yù)報各種物理量場資料,通過插值方法把物理量值插值到石林站點(diǎn)上,構(gòu)建預(yù)報因子。預(yù)報量為同期石林觀測站未來3 d的3 h時間間隔的累計降水量。

        首先根據(jù)降水過程的水汽條件和垂直運(yùn)動條件等天氣學(xué)條件,以及降水的物理機(jī)制,選取備選預(yù)報因子(見表1);然后,計算預(yù)報量與備選預(yù)報因子的相關(guān)系數(shù),排列與預(yù)報量相關(guān)性較好的因子(見表2)。

        表1 預(yù)報因子選取

        表2 預(yù)報因子與降水相關(guān)系數(shù)

        上述預(yù)報因子符合天氣學(xué)原理,基本包括了預(yù)報站點(diǎn)的溫度、濕度、穩(wěn)定性參數(shù)和垂直速度等。而且各個優(yōu)選預(yù)報因子之間的相關(guān)性較差,這樣預(yù)報因子的共線性特征顯著,預(yù)報因子代表性也良好。

        根據(jù)中央氣象臺現(xiàn)行業(yè)務(wù)規(guī)定,3 h時間間隔累計降水量≤0 mm為無降水;0~0.1 mm為零星小雨;0.1~2.9 mm為小雨;3.0~9.9 mm為中雨;10.0~19.9 mm為大雨;20.0~49.9 mm為暴雨;50.0~69.9 mm為大暴雨;≥70.0 mm為特大暴雨。

        1.2 機(jī)器學(xué)習(xí)算法

        (1) PNN方法 概率神經(jīng)網(wǎng)絡(luò)(PNN,probabilistic neural network)結(jié)構(gòu)簡單,所需的訓(xùn)練樣本較少,解決分類問題優(yōu)勢明顯。PNN用線性的算法完成非線性學(xué)習(xí)算法,是一種具有強(qiáng)大的容錯能力和結(jié)構(gòu)自適應(yīng)能力的非線性分類診斷網(wǎng)絡(luò)系統(tǒng)。

        PNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。PNN網(wǎng)絡(luò)由輸入層、隱含層、求和層和輸出層構(gòu)成。向量x輸入到隱含層中第i類模式的第j神經(jīng)元的關(guān)系定義為[13]

        Φij(x)=1/[(2π)1/2σd]·

        exp[-(x-xij)(x-xij)T/σ2],

        (1)

        其中:i=1,2,…,M,j=1,2,…,L;M為訓(xùn)練樣本總數(shù);L為第i類神經(jīng)元個數(shù);d為樣本空間數(shù)據(jù)的維數(shù);σ為平滑因子,對網(wǎng)絡(luò)性能至關(guān)重要。

        圖1 PNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 PNN network structure

        (2) SVM方法 支持向量機(jī)(SVM)是常見的一種機(jī)器學(xué)習(xí)判別方法,是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類以及回歸分析。SVM方法是通過一個非線性映射提高樣本空間維度,使得在低維度的樣本空間中非線性問題映射后變?yōu)楦呔S度空間中的線性問題。

        根據(jù)SVM回歸理論和降水量樣本的復(fù)雜性,優(yōu)選RBF核函數(shù)和Sigmoid 核函數(shù),然后對懲罰系數(shù)C和核參數(shù)γ(γ為1/m,m為樣本空間維數(shù))進(jìn)行優(yōu)化,構(gòu)建非線性回歸預(yù)報模型,即[14]

        (2)

        K(x,xi)=exp(-γ‖x-xi‖2),

        (3)

        K(x,xi)=tanh(γxTxi+coef),

        (4)

        其中:f(x)為預(yù)報函數(shù);M為支持向量的訓(xùn)練樣本個數(shù);ai、bi、b0為通過訓(xùn)練樣本確定的最優(yōu)超平面參數(shù);K為核函數(shù);xi為預(yù)報因子;coef為偏置系數(shù)。公式(3)即RBF核函數(shù),公式(4)為Sigmoid核函數(shù)。

        (3) Logistics判別方法 Logistics判別方法一般用于二分類問題[15],該函數(shù)方程為

        P(x)=1/[1+exp(-xβ)],

        (5)

        其中:x為樣本矩陣;β為待定參數(shù);P為降水發(fā)生的概率值,位于0和1之間。

        因?yàn)長ogistic回歸輸出的只是預(yù)報概率,無法直接進(jìn)行分類。一般以0.5為臨界值,進(jìn)行二類判別。但是在實(shí)際問題中,以分類準(zhǔn)確率為標(biāo)準(zhǔn),得到實(shí)際問題對應(yīng)的預(yù)報概率的判斷閾值pc。于是判斷大于pc為一類,而小于pc的屬于另一類。

        2 降水預(yù)報模型

        構(gòu)建包含石林地區(qū)各種類型的降水天氣過程的樣本集合。采用2015—2017年5—9月期間的261 d 有效數(shù)據(jù)作為訓(xùn)練樣本,訓(xùn)練樣本數(shù)為2 088(每天8份3 h時間間隔累計降水量預(yù)報值)。

        2.1 GA-PNN和GA-SVM算法的優(yōu)化

        PNN和SVM訓(xùn)練過程中容易出現(xiàn)局部最優(yōu)問題。遺傳算法(GA,genetic algorithm)能夠進(jìn)行全局搜索,通過選擇、交叉和變異產(chǎn)生全局范圍內(nèi)的最優(yōu)個體,從而彌補(bǔ)PNN和SVM模型不足。利用GA算法優(yōu)化PNN網(wǎng)絡(luò)平滑參數(shù)和SVM模型的懲罰系數(shù)以及核函數(shù)參數(shù)。

        (1) GA-PNN設(shè)計和優(yōu)化 選用11個降水預(yù)報因子,設(shè)計了PNN輸入層對應(yīng)有11個結(jié)點(diǎn),輸出層有8個結(jié)點(diǎn),分別對應(yīng)無降水、零星小雨、小雨、中雨、大雨、暴雨、大暴雨、特大暴雨。利用MATLAB函數(shù)newpnn創(chuàng)建的神經(jīng)網(wǎng)絡(luò)自動選擇隱含層和求和層,使得誤差盡可能小。

        GA-PNN和GA-SVM算法1[16-17]:

        第1步:參數(shù)設(shè)置:定義迭代次數(shù)D,種群規(guī)模B,交叉概率p1和變異概率p2。

        第2步:fori=1∶D

        ① forj=1∶B

        根據(jù)PNN(SVM)準(zhǔn)確率定義適應(yīng)度。

        以適應(yīng)度為標(biāo)準(zhǔn)進(jìn)行重抽樣,適應(yīng)度越高,抽樣概率越大。

        ② 以p1概率進(jìn)行交叉。

        ③ 以p2概率進(jìn)行變異。

        第3步:輸出最優(yōu)個體,將最優(yōu)個體帶入PNN(SVM的懲罰系數(shù)和核參數(shù))的平滑參數(shù),得到改進(jìn)后的模型。

        PNN神經(jīng)網(wǎng)絡(luò)的徑向基函數(shù)的平滑參數(shù),一般默認(rèn)是0.1,研究基于GA算法,通過大量訓(xùn)練樣本的試驗(yàn),以試驗(yàn)訓(xùn)練樣本分類的準(zhǔn)確率為結(jié)果目標(biāo),尋求最優(yōu)平滑參數(shù)。結(jié)果發(fā)現(xiàn),平滑參數(shù)取值0.126 0時,GA-PNN神經(jīng)網(wǎng)絡(luò)模型的分類正確率最高。建模試驗(yàn)的效果如表3所列。

        表3 2種模型降水預(yù)報結(jié)果對比

        (2) GA-SVM設(shè)計和優(yōu)化 同樣,選用11個降水預(yù)報因子,結(jié)果輸出8個降水量級,算法見算法1。選用訓(xùn)練樣本進(jìn)行試驗(yàn),定義最大迭代數(shù)為400次,最大種群是50,交叉驗(yàn)證準(zhǔn)確率滿足60%。

        SVM主要是尋優(yōu)懲罰系數(shù)和核參數(shù),GA算法尋優(yōu)SVM的迭代過程如圖2所示,大約迭代200次以后,適應(yīng)度值穩(wěn)定少變。當(dāng)懲罰系數(shù)為25.861 3,核參數(shù)為0.143 2時,GA-SVM模型的分類正確率最高。

        圖2 遺傳算法優(yōu)化SVM最佳參數(shù)的適應(yīng)度曲線Fig.2 Fitness curve of the optimal parameters of SVM optimized by GA

        2.2 Logistics回歸判別模型

        (1) Logistics回歸 單個的Logistics回歸只能得到一個降水量級概率,通過判斷閾值可以解決二類問題的分類。首先,建立11個降水預(yù)報因子與3 h累計的某一降水量級的線性回歸。線性回歸方程為

        y=β0+β1x1+β2x2+…+β11x11,

        (6)

        采用MATLAB回歸函數(shù)nlinfit。其次,將回歸的方程系數(shù)和預(yù)報結(jié)果值代入Logistics回歸方程:

        P=exp(y)/[1+exp (y)]。

        (7)

        最后,由修改后的Logistics回歸方程得到某降水量級是否發(fā)生的概率。

        (2) Logistics判別 Logistics判別的輸出概率與某一閾值比較,得到分類結(jié)果。不同的閾值對應(yīng)不同分類。受試者工作特征(ROC,receiver operating characteristic)曲線和曲線下方面積(AUC,area under the curve)是判別分類的評價標(biāo)準(zhǔn)。

        不同降水級的ROC曲線如圖3所示。由圖3可知,3條ROC曲線,在假陽率等于0.3處取一條直線,ROC越往上,判別效果越好,晴雨的判別分類最好,大雨的判別分類最差。僅從ROC曲線不能完全體現(xiàn)判別分類的效果,于是通過AUC值輔助判斷分類。AUC 值的計算公式為

        (8)

        其中:x、y為ROC空間坐標(biāo)軸;M為樣本數(shù);AUC為ROC曲線下的面積,取值在0.5~1。由圖3可見,晴雨、中雨和大雨的AUC分別是0.806 9、0.780 4和0.689 8,晴雨分類最優(yōu),中雨次之,大雨最差。降水量級越大分類效果越差。

        圖3 不同降水級的ROC曲線Fig.3 ROC curves of different precipitation levels

        如果這個分類器設(shè)定合適的閾值,則更能有預(yù)測價值。再次計算分類結(jié)果跟降水實(shí)況誤差值,進(jìn)而可計算符合氣象預(yù)報業(yè)務(wù)準(zhǔn)確性評價的TS(threat score)評分,從而得到最終的閾值pc。

        以上為某一個降水量級的二分類方法,各級降水量的預(yù)報還需要進(jìn)行多級判斷。

        Logistics判別算法2:

        第1步:Logistics回歸:計算各級降水量的概率p。

        第2步:閾值計算:計算各級降水量AUC值,判斷預(yù)報的可能性。在TS評分基礎(chǔ)上計算最佳閾值pc。

        第3步:定義樣本數(shù)M,降水量級數(shù)N,y=1為正樣本,y=0為負(fù)樣本,某降水量級預(yù)報正樣本正確票數(shù)rv,預(yù)報負(fù)樣本正確票數(shù)為ro,漏報票數(shù)為lo,空報票數(shù)為ko。

        fori=1∶M

        ① forj=1∶N

        ifp>=pcandy=1

        rv=rv+1

        else ifp

        ro=ro+1

        else ifp

        lo=lo+1

        else ifp>=pcandy=0

        ko=ko+1

        end

        ② 求出每個降水量級的各類票數(shù)和,取最大票數(shù)為最終預(yù)報量級。

        ③ 輸出各個訓(xùn)練樣本的預(yù)報結(jié)果以及TS評分、空報率和漏報率。

        對訓(xùn)練樣本進(jìn)行計算得出,晴雨、中雨和大雨的概率閾值分別為0.581 7、0.543 0和0.518 2(其他降水量級略)。訓(xùn)練樣本所得的準(zhǔn)確率和TS評分如表4所列。

        表4 Logistics模型降水預(yù)報結(jié)果

        3 模型效果檢驗(yàn)分析

        選用2018年5—8月汛期的100 d有效數(shù)據(jù)作為檢驗(yàn)樣本,檢驗(yàn)樣本數(shù)為800(每天8份3 h時間間隔累計降水量預(yù)報值)。GA-PNN、GA-SVM和Logistics 3種機(jī)器學(xué)習(xí)算法的檢驗(yàn)效果見表5,GA-PNN、GA-SVM學(xué)習(xí)算法的降水量預(yù)報分級檢驗(yàn)效果見表6。

        表5 3種模型降水預(yù)報檢驗(yàn)

        表6 GA-PNN和GA-SVM模型降水預(yù)報分量級檢驗(yàn)

        由表5可知,GA-PNN和GA-SVM預(yù)報性能較穩(wěn)定,Logistics算法較差。但是3種算法的漏報率較低。3種算法中GA-PNN和Logistics的泛化能力較好,GA-SVM算法在訓(xùn)練時最佳,但是檢驗(yàn)時TS評分降低明顯,可能存在過擬合現(xiàn)象??傮w上看,3種算法可以參考使用,具有一定業(yè)務(wù)參考價值。

        由表6的GA-PNN和GA-SVM算法的多級降水量預(yù)報檢驗(yàn)結(jié)果可見,2種算法晴雨TS評分高于50%,較強(qiáng)降水(中雨)的TS評分超過30%,強(qiáng)降水(大雨)的TS評分近28%。而且2種算法的漏報率均在30%以下,GA-SVM的漏報率較大,而GA-PNN的空報率較高。2種算法可以對比使用,取長補(bǔ)短。

        4 結(jié)論

        研究利用GA算法修正PNN和SVM機(jī)器學(xué)習(xí)模型,又?jǐn)U展Logistics判別算法,實(shí)現(xiàn)多級分類功能,修正Logistics輸出概率的閾值判別方法。建立3種機(jī)器學(xué)習(xí)算法模型,對比分析各類算法模型的優(yōu)劣,得到如下結(jié)論:

        (1) 通過修正優(yōu)化了PNN和SVM算法參數(shù),使預(yù)報模型本地化,達(dá)到更好的預(yù)報效果。擴(kuò)展Logistics判別算法和修正輸出概率的閾值,實(shí)現(xiàn)Logistics判別算法多級降水量預(yù)報的可能性。

        (2) GA-PNN和GA-SVM檢驗(yàn)的TS評分在45%以上,Logistics判別算法的TS評分在28%以上,3種算法模型的檢驗(yàn)漏報率均在20%以下。由此可見,GA-PNN和GA-SVM機(jī)器學(xué)習(xí)算法預(yù)報性能穩(wěn)定,有較好的效果,Logistics判別算法效果較差,但也是一種很好的補(bǔ)充。

        (3) 從擴(kuò)展的Logistics判別算法的多級降水量預(yù)報檢驗(yàn)結(jié)果可見,擴(kuò)展的Logistics判別算法較強(qiáng)降水(中雨)的TS評分達(dá)36%,強(qiáng)降水(大雨)的TS評分近28%。雖然擴(kuò)展的Logistics判別算法TS評分不高,但不失為一種補(bǔ)充使用的方法。

        3種機(jī)器學(xué)習(xí)算法取得了較好的效果,但是Logistics判別算法的穩(wěn)定性和強(qiáng)降水的TS評分不及30%,仍然需要進(jìn)一步研究,如在預(yù)報因子組合和訓(xùn)練樣本集合的優(yōu)選方面還需不斷完善。

        猜你喜歡
        訓(xùn)練樣本降水量降水
        繪制和閱讀降水量柱狀圖
        黑龍江省玉米生長季自然降水與有效降水對比分析
        黑龍江氣象(2021年2期)2021-11-05 07:07:00
        人工智能
        降水量是怎么算出來的
        啟蒙(3-7歲)(2019年8期)2019-09-10 03:09:08
        為什么南極降水很少卻有很厚的冰層?
        家教世界(2018年16期)2018-06-20 02:22:00
        1988—2017年呼和浩特市降水演變特征分析
        寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
        融合原始樣本和虛擬樣本的人臉識別算法
        基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
        降水現(xiàn)象儀模擬軟件設(shè)計與實(shí)現(xiàn)
        日本一本二本三本道久久久| 夜夜高潮夜夜爽夜夜爱爱 | 国产亚洲亚洲精品777| 亚洲精品一区二区三区播放| 国产高清人肉av在线一区二区| 国产后入清纯学生妹| 国产精品成人99一区无码| 亚洲香蕉毛片久久网站老妇人| 亚洲乱码av一区二区蜜桃av| 中文字幕精品一区二区精品| aaaaaa级特色特黄的毛片| 久久露脸国产精品WWW| 一本色道久久88加勒比—综合| 中文亚洲av片不卡在线观看| 99精品国产兔费观看久久99| 无码国产精品色午夜| 亚洲捆绑女优一区二区三区| 欧美亚洲日本国产综合在线美利坚 | 婷婷久久国产综合精品| 精品av天堂毛片久久久| 久久国产精品视频影院| 国产特黄a三级三级三中国| 国产一区二区三区四区三区| 九九视频在线观看视频6| 国产亚洲无码1024| 亚洲不卡一区二区视频| 亚洲中文字幕在线第二页| 国产精品一区二区在线观看完整版| 国产三级三级精品久久| 亚洲国产精品日本无码网站| 亚洲国产综合精品 在线 一区| 国产做床爱无遮挡免费视频| 91九色中文视频在线观看| 亚洲成在人网站av天堂| 久久青青草原亚洲AV无码麻豆| 国产风骚主播视频一区二区| 中文字幕在线日亚州9| 久久精品一区二区免费播放| 蜜桃视频中文字幕一区二区三区| 一区二区三区精品少妇| 人人玩人人添人人澡|