亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林算法的陳垓灌區(qū)降水量預(yù)測模型

        2020-09-25 06:20:16沙世琨
        水利技術(shù)監(jiān)督 2020年5期
        關(guān)鍵詞:決策樹降雨量個數(shù)

        沙世琨

        (濟寧市水利事業(yè)發(fā)展中心,山東 濟寧 272000)

        1 研究背景

        陳垓灌區(qū)地處山東省濟寧市梁山縣,隨著區(qū)域設(shè)施配套、改造的不斷升級,目前已經(jīng)被水利部命名為全國先進灌區(qū),并且成為集自流、提水、補源等功能于一身的大型水利灌區(qū)[1]。

        為確保陳垓引黃灌區(qū)節(jié)水改造工程順利完成,工程繼續(xù)進行節(jié)水改造。工程改造過程中,水文氣象資料不僅是當?shù)馗珊?、洪澇預(yù)報和工程實施過程中的一個重要參考依據(jù),同時也是影響流域徑流計算的主要因素之一,但由于降雨量及其影響因素的復(fù)雜性,目前對所采用的預(yù)測模型的研究和應(yīng)用均沒有趨近完善,存在穩(wěn)健性差、計算量大、預(yù)測精度不高和過度擬合情況等不足,極大地降低了模型的實用性[2- 3]。

        近年來,人工智能機器學(xué)習(xí)領(lǐng)域的隨機森林(Random Forest,RF)算法在學(xué)習(xí)復(fù)雜非線性關(guān)系、提高模型泛化性等方面取得了豐碩的研究成果[4]。因此,文章針對目前降雨量預(yù)測模型在計算量、精度、泛化性等方面的缺點[5],充分結(jié)合隨機森林算法的特有優(yōu)勢,建立了基于隨機森林算法的陳垓灌區(qū)降水量預(yù)測模型,提高了模型的擬合預(yù)測性能。

        2 隨機森林原理

        2.1 模型簡介

        隨機森林作為一種集成學(xué)習(xí)已在很多領(lǐng)域有了一定的應(yīng)用,以決策樹作為核心單元,主要思想是集成學(xué)習(xí)[6]。通常選取Bootstrap重抽樣方式進行訓(xùn)練集樣本抽樣處理,依照規(guī)則,對樣本集進行一分為二分割,以二分遞歸方式來實現(xiàn)決策樹模型搭建。模型中的各個決策樹相互獨立,互不干涉,通常不對決策樹進行修剪,任其生長,最后把生長好的決策樹進行組合得到分類器,即隨機森林,對于使用該模型的數(shù)據(jù)分類結(jié)果采用投票方式來決定新樣本的類別,以實現(xiàn)對數(shù)據(jù)的預(yù)測。

        決策樹屬于典型的單分類器,通過遞歸的方式從一組數(shù)量較大,且雜亂無章的樣本中推求出決策樹對于分類數(shù)據(jù)的分類規(guī)則,利用規(guī)則來分析數(shù)據(jù)。文章采用分類回歸樹(Classification and Regression Tree,CART)來實現(xiàn)決策樹的節(jié)點分裂[9]。CART算法依據(jù)Gini指標來衡量數(shù)據(jù)劃分標準,以Gini指標最小的特征值作為節(jié)點的分裂屬性,可解釋生成的規(guī)則。

        (1)樣本Gini系數(shù)的計算公式

        (1)

        式中,T—樣本;k—樣本類別個數(shù);p(i|t)—類別i在t節(jié)點處的概率。

        (2)計算劃分的指數(shù)

        (2)

        式中,m—子節(jié)點個數(shù);ni—子節(jié)點i處的樣本數(shù);n—母節(jié)點的樣本數(shù)。

        在屬性分裂過程中,根據(jù)公式(1)和公式(2)進行CART算法中參數(shù)的計算,即Gini系數(shù),并根據(jù)計算結(jié)果選擇優(yōu)先屬性作為節(jié)點分裂的屬性,即Gini系數(shù)最小的屬性,通過遞歸循環(huán)的方式,不斷更新,最終產(chǎn)生完整的決策樹。

        隨機森林模型屬于集成學(xué)習(xí)的一種,由若干個小型分類器組合而成,并對這些學(xué)習(xí)器的計算結(jié)果進行優(yōu)化,選取出最優(yōu)結(jié)果。因此,隨機森林集成學(xué)習(xí)算法的模型性能必然優(yōu)于任何一個弱學(xué)習(xí)器的預(yù)測性能,同時進一步提高了預(yù)測模型性能的穩(wěn)定性。

        2.2 樣本集選擇

        模型原始樣本集總共包括N個樣本,M個特征,這些實測數(shù)據(jù)資料中包含了復(fù)雜的作用關(guān)系,可能是線性關(guān)系,也可能是非線性關(guān)系,但一般非線性關(guān)系在數(shù)據(jù)科學(xué)中最為常見[10]。隨機森林模型從中抽取N個樣本集作為模型的訓(xùn)練集(隨機有放回方式)。由于在抽樣過程中采用了隨機有放回的方式,所有抽取的樣本在一定程度上均含有重復(fù)樣本,但由于沒有全部抽取,抽取的樣本又不包含全部樣本,所以避免了將全部樣本輸入模型而造成過擬合現(xiàn)象。抽樣過程中未被采樣到的數(shù)據(jù)通常被定義為袋外數(shù)據(jù)(Out of Bag, OOB),由于其在訓(xùn)練模型中未出現(xiàn)的特殊性,因此通常被用來檢驗?zāi)P偷挠?xùn)練性能,即測試樣本集。

        隨機森林模型抽樣次數(shù)n(既決策樹個數(shù))和特征分裂節(jié)點數(shù)m決定著模型的預(yù)測能力。決策樹個數(shù)可以通過其與OOB誤差的關(guān)系實驗來確定;特征分裂節(jié)點數(shù)m按照推薦值選取為M/3。

        2.3 模型訓(xùn)練和預(yù)測

        分別采取獨立同分布的訓(xùn)練樣本對每棵決策樹進行訓(xùn)練,基于所有決策樹預(yù)測結(jié)果投票決定RF最終的預(yù)測結(jié)果[11]。RF無須專門設(shè)置交叉驗證,通常采用袋外數(shù)據(jù)樣本輸入到訓(xùn)練好的最優(yōu)參數(shù)模型中進行模型測試[12]。

        3 基于RF的降雨量預(yù)測模型

        傳統(tǒng)的降雨量預(yù)測模型在預(yù)測精度、泛化性和實用性等方面存在缺陷,因此,建立基于RF的降雨量預(yù)測模型,具體建模步驟如下。

        3.1 數(shù)據(jù)預(yù)處理

        采用統(tǒng)計學(xué)方法對實測降雨量數(shù)據(jù)進行粗差處理,為預(yù)測模型的建立提供可靠的數(shù)據(jù)基礎(chǔ)。將降雨量數(shù)據(jù)樣本作為模型數(shù)據(jù)集,采用標準化公式對所有數(shù)據(jù)樣本進行標準化處理[13]。

        (3)

        式中,μ—相應(yīng)變量數(shù)據(jù)的均值;σ—相應(yīng)變量數(shù)據(jù)的標準差。

        3.2 模型訓(xùn)練

        將經(jīng)過預(yù)處理的標準化訓(xùn)練集樣本作為模型輸入,通過梯度下降算法進行誤差反向傳播驅(qū)使模型損失函數(shù)收斂,獲得最優(yōu)參數(shù)模型。

        3.3 模型測試

        模型訓(xùn)練過程中樣本的重采樣方式是防止過擬合現(xiàn)象的一項重要措施,抽樣剩余的袋外數(shù)據(jù)未在模型訓(xùn)練數(shù)據(jù)集中出現(xiàn),因此這一部分數(shù)據(jù)可被用來進行模型測試,同時作為模型參數(shù)優(yōu)化的一項重要手段。

        將重采樣剩余的訓(xùn)練樣本數(shù)據(jù)作為模型測試樣本進行模型測試,同時根據(jù)測試結(jié)果的相關(guān)評價指標(如標準差、平均絕對百分比誤差等)作為決策樹個數(shù)這一重要參數(shù)優(yōu)化的損失函數(shù),當這些損失函數(shù)達到最小值時,其最小值所對應(yīng)的模型決策樹個數(shù)即為其最優(yōu)取值。

        3.4 模型預(yù)測

        將測試集自變量因子數(shù)據(jù)輸入訓(xùn)練好的最優(yōu)參數(shù)預(yù)測模型中,獲得相應(yīng)的降雨量預(yù)測結(jié)果。

        3.5 模型評價

        為了準確衡量模型預(yù)測性能,結(jié)合統(tǒng)計多元回歸理論,采用均方根誤差RMSE和平均絕對百分比誤差MAPE作為模型預(yù)測效果評價指標[14]。

        (4)

        (5)

        如果模型預(yù)測評價指標較其他模型最優(yōu),那么這個模型就為最優(yōu)模型。

        4 工程實例應(yīng)用

        4.1 項目簡介

        陳垓灌區(qū)區(qū)域氣候四季分明,春季干旱且風(fēng)沙較大,夏季降雨集中且容易發(fā)生洪澇災(zāi)害。為了能提前預(yù)測干旱年和洪澇年,文章以灌區(qū)內(nèi)梁山氣象站1954—2007年實測降雨量數(shù)據(jù)為依據(jù),建立基于隨機森林算法的陳垓灌區(qū)降水量預(yù)測模型,實現(xiàn)降雨量的精準預(yù)測。梁山縣氣象站歷年降雨量過程線如圖1所示。

        圖1 梁山縣氣象站歷年降雨量過程線

        4.2 預(yù)測模型訓(xùn)練與預(yù)測

        (1)模型參數(shù)設(shè)置

        決策樹個數(shù)作為隨機森林模型最重要的參數(shù),其選取結(jié)果對于模型的擬合預(yù)測能力起著關(guān)鍵性作用。為了獲取最優(yōu)的模型參數(shù),初步擬定決策樹個數(shù)為1~500,分別計算每棵決策樹下隨機森林模型的袋外數(shù)據(jù)誤差,決策樹個數(shù)與袋外數(shù)據(jù)誤差關(guān)系曲線如圖2所示?;谧顑?yōu)參數(shù)下模型預(yù)測誤差最小的準則,確定本數(shù)據(jù)集下決策樹個數(shù)為200。

        圖2 決策樹個數(shù)與袋外數(shù)據(jù)誤差的關(guān)系圖

        (2)模型預(yù)測分析

        以預(yù)處理的標準化降雨量數(shù)據(jù)為基礎(chǔ),分別建立基于最小二乘回歸(Least Square Regression,LSR)、基于RF的降雨量預(yù)測模型,并按照前面所采取的最優(yōu)模型參數(shù)進行模型訓(xùn)練。圖3為降雨量實測值和各模型降雨量擬合值過程線。

        圖3 各模型降雨量擬合值和實測值過程線

        通過對圖3分析可知,基于RF的降雨量預(yù)測模型曲線吻合度最高,目標損失函數(shù)最小,模型訓(xùn)練結(jié)果較優(yōu),同時其預(yù)測性能也明顯優(yōu)于基于LSR的降雨量預(yù)測模型因此,RF模型能更好地挖掘數(shù)據(jù)信息的內(nèi)部特征以反映降雨量的真實性態(tài),具有良好的實際參考價值。

        (3)模型評價

        為了驗證基于RF的降雨量預(yù)測模型的性能,選取常用的預(yù)測值與實測值殘差、均方根誤差和平均絕對百分比誤差等指標評價預(yù)測模型精確性,并對基于LSR、RF的降雨量預(yù)測模型評價指標計算結(jié)果進行對比分析。各模型的預(yù)測值與實測值過程線如圖4所示,各模型的均方根誤差和平均絕對百分比誤差計算結(jié)果見表1。

        圖4 各模型降雨量預(yù)測值和實測值過程線

        表1 預(yù)測模型精確性指標

        分析圖5和表2可知,常用的LSR模型在一定程度上能夠?qū)崿F(xiàn)區(qū)域降雨量的預(yù)測,但基于RF的降雨量預(yù)測模型預(yù)測效果最好,具有較高的精準度。相較于基于LSR的降雨量預(yù)測模型各項指標,基于RF的降雨量預(yù)測模型殘差最小,RMSE低于50,MAPE低于10,均處于較低的區(qū)間。因此,基于RF的降雨量預(yù)測模型精準度性能較佳,預(yù)測結(jié)果更接近真實數(shù)據(jù)。

        5 結(jié)論

        (1)機器學(xué)習(xí)技術(shù)在降雨量預(yù)測模型建立中的成功應(yīng)用,能夠有效提高模型預(yù)測性能,更加準確地預(yù)測降雨量的發(fā)展趨勢。

        (2)基于RF的降雨量預(yù)測模型不僅提高了預(yù)測運算效率,同時能有效地避免過擬合現(xiàn)象,具有較高的預(yù)測精度,并且兼有較強的外延性和泛化性,這些良好的性能使得降雨量預(yù)測具有較高的靈敏度。

        (3)基于RF的降雨量預(yù)測模型必須基于大量的歷史實測數(shù)據(jù),不適用于小樣本數(shù)據(jù)。

        猜你喜歡
        決策樹降雨量個數(shù)
        怎樣數(shù)出小正方體的個數(shù)
        降雨量與面積的關(guān)系
        等腰三角形個數(shù)探索
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        怎樣數(shù)出小木塊的個數(shù)
        怎樣數(shù)出小正方體的個數(shù)
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹的出租車乘客出行目的識別
        洞庭湖區(qū)降雨特性分析
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        亚洲丁香五月激情综合| 综合色就爱涩涩涩综合婷婷| 久久久久人妻一区精品色欧美| 久久无码人妻一区二区三区午夜 | 狠狠噜天天噜日日噜| 国产成人综合亚洲av| 午夜视频一区二区三区四区| 国内精品视频一区二区三区八戒| 日韩在线一区二区三区免费视频| 9久9久女女热精品视频免费观看| 国内精品少妇久久精品| 日本丰满少妇xxxx| 久久精品女人天堂av| 亚洲色偷拍一区二区三区 | 亚洲va久久久噜噜噜久久男同| 国产精品调教| 精品蜜桃一区二区三区| 国产精品狼人久久影院软件介绍| 无码成人一区二区| 香蕉成人啪国产精品视频综合网| av资源在线永久免费观看| 日本av在线一区二区| 无码中文字幕日韩专区视频| 国产在线视欧美亚综合| 亚洲国产一区二区视频| 亚洲精品无码永久在线观看| 亚洲精品国偷拍自产在线观看蜜臀| 亚洲AV成人无码天堂| 国产一级黄色录像大片| 巨胸喷奶水www视频网站| 亚洲AV秘 无码一区二区三区臀| 日韩中文字幕乱码在线| 夜夜爽夜夜叫夜夜高潮| 无码任你躁久久久久久| 欧美在线观看www| 国产一区二区三区色哟哟| 中文字幕人妻无码一夲道| 日韩AV有码无码一区二区三区| 国产av三级精品车模| 亚洲成a人v欧美综合天堂| 精品一区二区三区无码视频|