亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹模型的黃河水沙變化預(yù)測

        2024-12-27 00:00:00崔春林李博皮濱濱唐玉銘李華平
        中國新技術(shù)新產(chǎn)品 2024年18期

        摘 要:本文基于小浪底水庫下游黃河某水文站2016—2021年的水流量與含沙量的實(shí)際監(jiān)測數(shù)據(jù),分別建立隨機(jī)森林(Random Forest)、決策樹(Decision Tree)和極端梯度提升(XGBoost)3種機(jī)器學(xué)習(xí)回歸模型預(yù)測水流量和含沙量的走勢(shì),并對(duì)比3種模型的擬合效果。結(jié)果表明,與隨機(jī)森林和極端梯度提升算法相比,決策樹算法對(duì)水沙變化的預(yù)測效果更好,其能夠有效擬合水沙變化的走勢(shì),對(duì)未來黃河流域的水沙治理有一定參考價(jià)值。

        關(guān)鍵詞:應(yīng)用統(tǒng)計(jì)數(shù)學(xué);小浪底水庫;水沙變化;決策樹模型;機(jī)器學(xué)習(xí)回歸預(yù)測

        中圖分類號(hào):O 213" " 文獻(xiàn)標(biāo)志碼:A

        黃河是中國最大的泥沙河流,其水沙混懸的特性使其容易形成堆積和淤積,增加洪水暴發(fā)的風(fēng)險(xiǎn)[1],通過研究黃河水沙的季節(jié)性和周期性變化規(guī)律,預(yù)測未來水沙的變化情況,可以幫助優(yōu)化水資源的分配和利用,從而減少河道的淤積,提高河道的輸水能力,降低洪水災(zāi)害發(fā)生的概率[2]。

        隨著水利信息化不斷發(fā)展,大數(shù)據(jù)技術(shù)在黃河調(diào)水調(diào)沙工程中的應(yīng)用會(huì)越來越廣泛,但目前將大數(shù)據(jù)建模技術(shù)應(yīng)用于黃河的水流量和含沙量預(yù)測的研究較少。因此,本文主要基于大數(shù)據(jù)領(lǐng)域的機(jī)器學(xué)習(xí)模型對(duì)2016—2021年的黃河水沙變化的數(shù)據(jù)進(jìn)行建模計(jì)算,解決水沙變化的長期預(yù)測難,預(yù)測精度不高的問題。

        1 研究區(qū)域與方法

        1.1 研究區(qū)域

        黃河小浪底水利樞紐工程是黃河干流上的一項(xiàng)重要綜合性水利工程,位于河南和山西交界處,庫區(qū)長度為130km,總面積為278km2。它是黃河中游最后一段峽谷出口,并且是黃河干流三門峽以下唯一具有較大庫容的控制性工程。

        1.2 研究方法

        1.2.1 三次樣條插值法

        三次樣條插值法是一種常用的數(shù)值插值技術(shù),它的目標(biāo)是通過一個(gè)分段的三次多項(xiàng)式函數(shù)來逼近數(shù)據(jù)點(diǎn),以便在每個(gè)數(shù)據(jù)點(diǎn)處都能得到平滑的插值結(jié)果。分段就是把區(qū)間[a,b]分成n個(gè)區(qū)間 [(a,x1),(x1,x0),...,(xn-1,b)]共有n+1個(gè)點(diǎn)。每個(gè)小區(qū)間的曲線是一個(gè)三次方程Si(x)=ai+bix+cix2+dix3,三次樣條方程滿足以下條件[3]。1)在每個(gè)分段小區(qū)間[xn-1,xn]上, S(x)=Si(x)" 都是一個(gè)三次方程。2)滿足插值條件,即S(xi)=yi,(i=0,1,...,n) 。3)曲線光滑,即S(x)、S'(x)、S\"(x)連續(xù)。

        1.2.2 決策樹算法

        決策樹算法是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法,適用于回歸和分類任務(wù)。該算法通過樹狀結(jié)構(gòu)將數(shù)據(jù)集分成具有相似特征的不同子集。每個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)屬性/特征,每個(gè)分支代表該特征的一個(gè)可能取值,而每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)一個(gè)類別標(biāo)簽或是用于預(yù)測的數(shù)值。算法通過數(shù)據(jù)的屬性特征進(jìn)行遞歸劃分,直至滿足某個(gè)條件停止分裂。這種分裂方法構(gòu)成了樹狀結(jié)構(gòu)(如圖1所示),使模型易于理解、解釋和可視[4]。

        這里僅簡單介紹一下所用到的決策樹模型CART算法。CART(Classification And Regression Tree)算法是一種既可用于分類又可用于回歸的決策樹算法。在分類樹中,決策樹的輸出是樣本的類別;而在回歸樹中,決策樹的輸出是一個(gè)實(shí)數(shù)值。這種靈活性使CART算法可以同時(shí)應(yīng)用于分類和回歸任務(wù)。而本文使用的是CART算法的回歸樹部分,其算法流程如圖2所示[5]。

        算法流程如下。1)選擇最優(yōu)切分特征j和切分點(diǎn)s,如公式(1)所示。遍歷所有特征的所有可能取值,找到最優(yōu)的劃分特征和劃分點(diǎn)。2)用選定的特征j和切分點(diǎn)s對(duì)(j,s)劃分區(qū)域并決定相應(yīng)的輸出值,如公式(2)所示。公式(1)按照切分點(diǎn)將數(shù)據(jù)分成2個(gè)節(jié)點(diǎn),公式(2)求每個(gè)節(jié)點(diǎn)的均方誤差之和。3)繼續(xù)對(duì)2個(gè)子區(qū)域調(diào)用步驟1、2,直至滿足停止條件。4)將輸入空間劃分為M個(gè)區(qū)域(R1,R2,...,Rm)特征j和切分點(diǎn)s生成決策樹,如公式(3)所示。分到相同節(jié)點(diǎn)的均值作為預(yù)測值,后面的指示函數(shù)為劃分的區(qū)域。

        (1)

        式中:yi為數(shù)據(jù)集中第i 個(gè)樣本的響應(yīng)變量;c1 和c2分別為R1(j,s)和R2(j,s)的樣本輸出均值。

        (2)

        式中:x(j)為在數(shù)據(jù)集中第j 個(gè)特征值;cm為區(qū)域Rm中所有樣本的目標(biāo)變量y的均值;Nm 為區(qū)域Rm內(nèi)的樣本數(shù)量;m可以是1或2,對(duì)應(yīng)左右2個(gè)子集[6]。

        (3)

        1.3 隨機(jī)森林算法

        隨機(jī)森林是一種有監(jiān)督機(jī)器學(xué)習(xí)方法,其以決策樹為基學(xué)習(xí)器,并通過集成方式構(gòu)建。它引入了隨機(jī)性來提高模型的抗過擬合和抗噪能力。隨機(jī)森林從樣本選取和特征選擇2個(gè)角度來體現(xiàn)其隨機(jī)性[7]。

        1.3.1 隨機(jī)選取樣本

        在隨機(jī)森林中,每棵決策樹的訓(xùn)練樣本集都是通過Bootstrap策略從原始數(shù)據(jù)集中有放回地抽取和重組形成的,形成了與原始數(shù)據(jù)集等大的子集合。這意味同一個(gè)子集中的樣本可以重復(fù)出現(xiàn),不同子集中的樣本也可以重復(fù)出現(xiàn)。

        1.3.2 隨機(jī)選取特征

        與單個(gè)決策樹在分割過程中考慮所有特征并選擇最優(yōu)特征來進(jìn)行分割不同,隨機(jī)森林通過在基學(xué)習(xí)器中隨機(jī)考察一部分特征變量,并在這些特征中選擇最優(yōu)特征來進(jìn)行分割。特征變量的隨機(jī)性使隨機(jī)森林模型的泛化能力和學(xué)習(xí)能力比單個(gè)決策樹高。

        1.3.3 隨機(jī)森林的算法步驟

        步驟1:從原始樣本集中使用Bootstraping方法有放回地抽取n個(gè)訓(xùn)練樣本,進(jìn)行k輪抽取,得到k個(gè)訓(xùn)練集(k個(gè)訓(xùn)練集之間相互獨(dú)立)。

        步驟2:針對(duì)每一個(gè)訓(xùn)練集,構(gòu)建一個(gè)決策樹模型,共得到k個(gè)模型。

        步驟3:針對(duì)分類問題,將上述k個(gè)模型采用投票的方式得到最終的分類結(jié)果;針對(duì)回歸問題,計(jì)算這些模型的均值作為最后的結(jié)果。

        1.4 極端梯度提升算法

        極端梯度提升算法(XGBoost)是一種基于梯度提升樹的機(jī)器學(xué)習(xí)算法,被廣泛應(yīng)用于分類和回歸問題。它通過迭代訓(xùn)練多個(gè)弱學(xué)習(xí)器,并將它們組合成一個(gè)強(qiáng)大的模型[7]。XGBoost的目標(biāo)函數(shù)如公式(4)所示。

        (4)

        式中:yi為樣本真實(shí)值;為樣本預(yù)測值;" l(yi,) 為反應(yīng)yi與兩者的損失函數(shù);n為樣本數(shù);Ω(fj)為正則項(xiàng),用于控制模型的復(fù)雜度,避免過擬合;fj為第 j個(gè)數(shù)的模型;m為分類回歸的個(gè)數(shù)。

        通過在正則化函數(shù)中添加懲罰項(xiàng)來控制模型訓(xùn)練中的過擬合問題,正則項(xiàng)定義如公式(5)所示。

        (5)

        式中:T為葉子節(jié)點(diǎn)總數(shù);wj為葉子j的權(quán)重;γ和λ為模型懲罰系數(shù)。

        1.5 模型的評(píng)價(jià)指標(biāo)

        本文根據(jù)均方誤差(MSE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)以及可決系數(shù)R2來綜合評(píng)價(jià)模型的優(yōu)良性[8]。

        均方誤差(MSE)、均方根誤差(RMESE)、平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)均是用于評(píng)估預(yù)測值和真實(shí)值的差異程度的一種常見的指標(biāo),這些指標(biāo)值越小,代表模型的預(yù)測效果越好??蓻Q系數(shù)是用于度量因變量的變異中可由自變量解釋部分所占的比例,以此來判斷模型的解釋能力,其值越接近1表示模型的擬合效果越好。

        2 實(shí)證分析

        2.1 數(shù)據(jù)預(yù)處理

        小浪底水庫某水文站的2016—2021年的分小時(shí)的水流量和含沙量數(shù)據(jù)一共16735條,含沙量的監(jiān)測主要在每天的8:00進(jìn)行,針對(duì)2016—2021年每天8:00缺失的含沙量監(jiān)測數(shù)據(jù),運(yùn)用三次樣條插值法進(jìn)行填充,其擬合圖如圖3所示。

        三次樣條插值的擬合圖表明,該插值方法對(duì)含沙量的填充效果很好,插補(bǔ)數(shù)據(jù)分布在原始數(shù)據(jù)的曲線上。

        2.2 機(jī)器學(xué)習(xí)模型擬合水沙走勢(shì)

        為了擬合該水文站的水沙走勢(shì),本文將歷史數(shù)據(jù)分成2個(gè)部分,80%的數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,20%的數(shù)據(jù)作為驗(yàn)證集驗(yàn)證模型的效果,隨后應(yīng)用模型預(yù)測2022—2023年的水流量和含沙量的值。

        針對(duì)水流量,主要監(jiān)測時(shí)刻在每日的0點(diǎn)、4點(diǎn)、8點(diǎn)、12點(diǎn)、16點(diǎn)、20點(diǎn),因此選取每日的這6個(gè)時(shí)刻的水流量數(shù)據(jù)進(jìn)行建模和預(yù)測。3個(gè)機(jī)器學(xué)習(xí)模型在訓(xùn)練集和驗(yàn)證集上的評(píng)價(jià)指標(biāo)具體見表1。

        通過分析上述評(píng)價(jià)指標(biāo)表,對(duì)比隨機(jī)森林模型和XGBoost模型,決策樹模型的擬合效果最好,其對(duì)水流量的擬合度在訓(xùn)練集和驗(yàn)證集上均達(dá)到了99%。繪制2022—2023年的預(yù)測值走勢(shì)圖,如圖4所示,折線是2016—2021年每日的水流量的真實(shí)數(shù)據(jù),虛線是決策樹模型計(jì)算的2022—2023年的水流量的預(yù)測數(shù)據(jù)。可以看到模型能很好地捕捉水流量的周期性變化規(guī)律,并對(duì)未來長達(dá)2a的變化規(guī)律有很好的預(yù)測效果。

        針對(duì)含沙量,選取其每天8:00的數(shù)據(jù)進(jìn)行建模和預(yù)測。3個(gè)機(jī)器學(xué)習(xí)模型在訓(xùn)練集和驗(yàn)證集上的評(píng)價(jià)指標(biāo)具體見表2。

        通過分析上述評(píng)價(jià)指標(biāo),對(duì)比隨機(jī)森林模型和XGBoost模型,決策樹對(duì)含沙量的擬合效果最好,其訓(xùn)練集上的擬合優(yōu)度R2為88%,驗(yàn)證集的擬合優(yōu)度R2達(dá)到了80%,雖然XGBoost模型在訓(xùn)練集上的擬合優(yōu)度高達(dá)100%,但其在測試集上的擬合優(yōu)度僅為70%,模型的泛化性較差,因此最終選擇決策樹模型來預(yù)測未來2a的含沙量走勢(shì)。繪制2022—2023年的含沙量的預(yù)測值走勢(shì)圖,如圖5所示,藍(lán)色折線是2016—2021年每日的含沙量數(shù)據(jù),虛線是決策樹模型計(jì)算的2022—2023年的含沙量的預(yù)測數(shù)據(jù)。可以看到模型能很好地捕捉到含沙量的周期性變化規(guī)律,并對(duì)未來長達(dá)2a的變化規(guī)律有不錯(cuò)的預(yù)測效果。

        3 結(jié)語

        為了更準(zhǔn)確地預(yù)測未來2a黃河中游水沙通量的變化趨勢(shì),本文首先分析了2016—2021年水沙通量的周期性和季節(jié)性變化規(guī)律,隨后建立3種經(jīng)典的機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比分析,結(jié)果表明決策樹模型對(duì)水流量的擬合度為99%,對(duì)含沙量的擬合度為80%,且該模型能夠有效預(yù)測未來2a的水沙變化的趨勢(shì),解決了預(yù)測周期長會(huì)導(dǎo)致預(yù)測精度不高的難題。

        參考文獻(xiàn)

        [1]胡春宏.黃河水沙變化與治理方略研究[J].水力發(fā)電學(xué)報(bào),2016,35(10):1-11.

        [2]陳俊卿,范勇勇,吳文娟,等.2016—2017年調(diào)水調(diào)沙中斷后黃河口演變特征[J].人民黃河,2019,41(8):6-9,116.

        [3]于洋,袁健華,錢江,等.新邊界條件下的三次樣條插值函數(shù)[J].軟件,2016,37(2):25-28.

        [4]王明紅.基于對(duì)數(shù)加法模型看產(chǎn)險(xiǎn)公司保費(fèi)收入的季節(jié)性效應(yīng)及未來保費(fèi)預(yù)測——以2008-2018年時(shí)間序列數(shù)據(jù)為例的實(shí)證分析[J].保險(xiǎn)職業(yè)學(xué)院學(xué)報(bào),2019,33(4):61-64.

        [5]楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007(1):43-45.

        [6]杜小芳,陳毅紅,王登輝,等.大數(shù)據(jù)平臺(tái)上的并行CART決策樹算法[J].西華師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,42(2):196-201.

        [7]吳新,鄧曉青.黃河干流缺水決策樹模型研究[J].人民黃河,2007,(6):25-27,80.

        [8]周志華.機(jī)器學(xué)習(xí):第1版.[M].北京:清華大學(xué)出版社,2016.

        [9]司守奎,孫璽菁.數(shù)學(xué)建模算法與應(yīng)用[M]北京:國防工業(yè)出版社,2011.

        作者簡介:崔春林(1994—),女,重慶,講師,碩士學(xué)位,重慶城市管理職業(yè)學(xué)院,主要研究方向?yàn)閼?yīng)用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)。

        超短裙老师在线观看一区 | 国产精品无码一区二区三级| 新婚少妇无套内谢国语播放| 国产精品久久国产精品99 gif| 色综合久久久无码中文字幕| 久久综合亚洲色一区二区三区 | 超级碰碰色偷偷免费视频| 亚洲日韩国产精品乱-久| 亚洲av综合久久九九| 欧美粗大无套gay| 亚洲中文字幕av天堂| 午夜av内射一区二区三区红桃视 | 日本视频一区二区三区一| 亚洲中文字幕久久精品色老板| 国产精品日韩经典中文字幕| 人妻丰满熟妇aⅴ无码| 国产三级av在线播放| 性色av无码中文av有码vr| 欧美性猛交xxxx黑人猛交| 91亚洲国产成人aⅴ毛片大全 | 凹凸在线无码免费视频| 日韩在线一区二区三区免费视频| 亚洲av成人一区二区三区在线观看| 美女mm131爽爽爽| 久久夜色精品国产欧美乱| 国产精品99久久久久久宅男| 亚洲V在线激情| 青青草免费在线视频导航 | 亚洲av综合国产av日韩| 亚洲av乱码一区二区三区按摩| 99久久免费国产精品| 青草国产精品久久久久久| 男人的天堂在线无码视频| 国产粉嫩高清| 97成人精品在线视频| 华人免费网站在线观看| 亚洲av无码国产精品色午夜字幕| 国产精品狼人久久久久影院| 亚洲avav天堂av在线网毛片| 中文字幕av无码免费一区| 亚洲欧洲日产国码无码AV一|