摘 要:本研究應(yīng)用集成學(xué)習(xí)方法對水利施工中的技術(shù)狀態(tài)監(jiān)測進(jìn)行了深入探討。通過分析圍堰堰體的水平位移、垂直位移和防滲墻變形情況,并結(jié)合不同算法的特征,比較決策樹、隨機(jī)森林、梯度提升樹(GBT)和stacked等算法的監(jiān)測準(zhǔn)確率。結(jié)果表明,不同算法在不同監(jiān)測任務(wù)中的表現(xiàn)存在差異。隨著時(shí)間推移和數(shù)據(jù)積累,預(yù)測準(zhǔn)確性逐漸提高,尤其是梯度提升樹和stacked算法在數(shù)據(jù)量增加后表現(xiàn)更為優(yōu)越。然而,圍堰堰體及防滲墻的變形預(yù)測仍面臨挑戰(zhàn),部分原因是受到復(fù)雜的環(huán)境因素和數(shù)據(jù)隱變量的影響??傮w而言,梯度提升樹和stacked算法在提高監(jiān)測準(zhǔn)確性方面展現(xiàn)出更好的潛力,未來能為水利施工技術(shù)狀態(tài)監(jiān)測提供新的思路。
關(guān)鍵詞:集成學(xué)習(xí);stacked集成;水利施工;技術(shù)狀態(tài)監(jiān)測
中圖分類號(hào):TV 22" 文獻(xiàn)標(biāo)志碼:A
傳統(tǒng)的監(jiān)測方法多結(jié)合經(jīng)驗(yàn)和單一模型,難以應(yīng)對復(fù)雜的施工環(huán)境和多變的工況。因此,基于數(shù)據(jù)驅(qū)動(dòng)的監(jiān)測方法逐漸受到關(guān)注,其中,集成學(xué)習(xí)因其在處理復(fù)雜數(shù)據(jù)和提高模型預(yù)測準(zhǔn)確性方面具有優(yōu)勢,逐漸成為技術(shù)狀態(tài)監(jiān)測中的一個(gè)新興研究方向。楊凡等[1]設(shè)計(jì)了一種基于SDN(軟件定義網(wǎng)絡(luò))和集成學(xué)習(xí)的工業(yè)控制網(wǎng)絡(luò)安全防護(hù)系統(tǒng)。王潤瓊等[2]提出了一種基于特征自適應(yīng)融合和集成學(xué)習(xí)的銑削刀具狀態(tài)監(jiān)測方法。徐凱等[3]提出了一種改進(jìn)麻雀算法(改進(jìn)的SPPSO)和Q-Learning優(yōu)化集成學(xué)習(xí)的軌道電路故障診斷方法,利用改進(jìn)麻雀算法優(yōu)化模型結(jié)構(gòu),并通過Q-Learning優(yōu)化基學(xué)習(xí)器組合權(quán)重。宋錦燾等[4]在土石壩滲流監(jiān)控中,提出了一種將統(tǒng)計(jì)模型和智能算法進(jìn)行融合的集成學(xué)習(xí)模型。馬晶等[5]開發(fā)了一種結(jié)合遺傳算法(GA)、BP神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)的鉆削刀具狀態(tài)實(shí)時(shí)監(jiān)測平臺(tái)。劉長良等[6]針對MSET(多元狀態(tài)估計(jì)技術(shù))在風(fēng)電機(jī)組齒輪箱故障預(yù)警中的局限性,提出了一種改進(jìn)方法。趙勁松等[7]提出了一種基于Bagging集成策略和MSET的新方法,以解決MSET在大規(guī)模記憶矩陣下的實(shí)時(shí)性問題。
1 工程概述
在水利施工過程中,為了及時(shí)發(fā)現(xiàn)和預(yù)防潛在的安全風(fēng)險(xiǎn),技術(shù)狀態(tài)監(jiān)測非常重要。圍堰作為水利工程中的關(guān)鍵結(jié)構(gòu),可以起到重要的防護(hù)和支撐作用。在截流圍堰的施工階段,圍堰堰體的穩(wěn)定性直接影響施工的安全性和工程的整體質(zhì)量。圍堰堰體監(jiān)測涉及多個(gè)方面,包括水平位移、垂直位移和防滲墻的變形等關(guān)鍵指標(biāo)。這些指標(biāo)變化直接反映了圍堰堰體的穩(wěn)定性及其對環(huán)境變化的適應(yīng)能力。為了應(yīng)對地下水位變動(dòng)、水位變化以及復(fù)雜結(jié)構(gòu)因素對圍堰堰體穩(wěn)定性的影響,技術(shù)狀態(tài)監(jiān)測必須具備高頻率的監(jiān)測能力、數(shù)據(jù)的精準(zhǔn)性、及時(shí)預(yù)警功能。在圍堰堰體監(jiān)測中,集成學(xué)習(xí)方法可以有效地處理復(fù)雜的監(jiān)測數(shù)據(jù),并提供更可靠的預(yù)警信息,監(jiān)測系統(tǒng)應(yīng)該能夠連續(xù)記錄圍堰堰體的關(guān)鍵指標(biāo),并對未來的狀態(tài)進(jìn)行準(zhǔn)確地預(yù)測,及時(shí)采取必要的措施,防止可能的安全隱患。其監(jiān)控預(yù)警機(jī)制如圖1所示。
2 集成學(xué)習(xí)方法
2.1 決策樹與隨機(jī)森林
決策樹使用一個(gè)樹形結(jié)構(gòu)進(jìn)行決策,其中,每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)特征或?qū)傩?,每個(gè)分支表示一個(gè)決策規(guī)則,而每個(gè)葉節(jié)點(diǎn)表示一個(gè)類別或值。遍歷當(dāng)前全部剩余特征屬性并計(jì)算分類結(jié)果,構(gòu)建最小Gini指數(shù)確定這個(gè)屬性劃分的標(biāo)準(zhǔn)和結(jié)果。Gini指數(shù)的計(jì)算過程如公式(1)所示。
式中:Gini(t)為當(dāng)前節(jié)點(diǎn)的Gini指數(shù);t為當(dāng)前節(jié)點(diǎn);k為分類的類別數(shù);scalek是當(dāng)前節(jié)點(diǎn)t中屬于類別k的樣本所占比例。
計(jì)算決策樹的預(yù)測fDT(x)如公式(2)所示。
式中:fDT(x)為決策樹的預(yù)測結(jié)果;x為整體輸入數(shù)據(jù);K為類別總量,即葉節(jié)點(diǎn)的數(shù)量;ck為第k個(gè)類別對應(yīng)葉節(jié)點(diǎn)的預(yù)測值;I(w∈Rt)為指示函數(shù),表示輸入x是否屬于第t個(gè)葉子節(jié)點(diǎn)Rt;w為葉子節(jié)點(diǎn)權(quán)重。
指示函數(shù)I(w∈Rt)通過結(jié)構(gòu)映射函數(shù)將輸入映射到葉子索引號(hào),如公式(3)所示。
式中:T為樹的葉子節(jié)點(diǎn)總數(shù);→為映射,說明每個(gè)葉子節(jié)點(diǎn)x:Rt→{1,2,…,T}是輸入數(shù)據(jù)x通過樹的分裂條件所劃分的結(jié)果。
基于此構(gòu)建的隨機(jī)森林是一種基于決策樹構(gòu)建的集成學(xué)習(xí)方法,通過多棵決策樹進(jìn)行預(yù)測,假設(shè)有D棵樹,計(jì)算每棵樹的預(yù)測fRF(x)如公式(4)所示。
式中:fRF(x)為隨機(jī)森林的預(yù)測結(jié)果;D為隨機(jī)森林中的決策樹數(shù)量;d為任意給定樹的序號(hào);fDT(d)為第d棵樹的預(yù)測結(jié)果。
2.2 梯度提升樹
梯度提高是一種迭代的集成學(xué)習(xí)方法,通過不斷優(yōu)化損失函數(shù)來提高模型性能,適用于復(fù)雜的非線性關(guān)系。計(jì)算其框架模型的預(yù)測如公式(5)所示。
式中:fm(x)為模型的預(yù)測結(jié)果;fm+1(x)為前上一階段次迭代的模型;L()為損失函數(shù);yi為模型此時(shí)輸出值;h(xi)為新加入的決策樹。
本文選擇XGBoost梯度提升樹,大致可以分為兩個(gè)部分,即目標(biāo)函數(shù)與其中添加的正則化部分。前者為單純的訓(xùn)練誤差,后者則用于衡量目標(biāo)函數(shù)下降情況和模型復(fù)雜度,避免過擬合帶來的偏差,如公式(6)所示。
式中:obj(θ)為整合后的負(fù)向目標(biāo)函數(shù);L(θ)為訓(xùn)練誤差,即損失函數(shù);Ω(θ)是模型復(fù)雜度。
度量模型預(yù)測值和真實(shí)值之間的誤差水平,常用的模型為平方損失函數(shù)或logistic損失,如公式(7)所示。
式中:為給定序號(hào)為i的輸入數(shù)據(jù)對應(yīng)的預(yù)測結(jié)果理想水平。
也可以改寫為公式(8)。
模型復(fù)雜度Ω(θ)是每棵樹的復(fù)雜度之和,包括兩個(gè)部分樹的葉子T和葉子節(jié)點(diǎn)權(quán)重平方。
定義正則項(xiàng)如公式(9)所示。
式中:Ω(ft)為正則項(xiàng),用于控制模型復(fù)雜度;γ為每棵樹的復(fù)雜度懲罰系數(shù);λ為葉子節(jié)點(diǎn)權(quán)重的正則化系數(shù)。
由此構(gòu)成完整函數(shù)結(jié)構(gòu),利用這個(gè)目標(biāo)函數(shù)進(jìn)行測度,使用添加訓(xùn)練的方式,即Boosting迭代分析。每次構(gòu)建的原有模型保持不變,加入新函數(shù)f(),如公式(10)~公式(13)所示。
式中:f()為調(diào)整表達(dá)式結(jié)構(gòu)設(shè)置的函數(shù)。
2.3 Stacked集成
Stacked集成是一種將不同基本學(xué)習(xí)器的預(yù)測結(jié)果作為輸入,再經(jīng)過一個(gè)元學(xué)習(xí)器進(jìn)行整合的方法,可以進(jìn)一步提高預(yù)測性能。假設(shè)有K個(gè)基本學(xué)習(xí)器,則元學(xué)習(xí)器的預(yù)測方法可以用公式(14)表示。
式中:fk(x)為第k個(gè)基本學(xué)習(xí)器的預(yù)測;g()為元學(xué)習(xí)器。
3 性能測試
3.1 堰體位移監(jiān)測
使用不同集成學(xué)習(xí)方法對圍堰堰體水平與垂直位移進(jìn)行預(yù)測,對比各期預(yù)測結(jié)果如圖2所示。
水位變動(dòng)對圍堰堰體水平位移有顯著影響,這可能是導(dǎo)致預(yù)測準(zhǔn)確率分布相對分散的主要原因。上游水位的變動(dòng)可能導(dǎo)致圍堰堰體受力變化,進(jìn)而影響水平位移。隨著時(shí)間的推移,預(yù)測準(zhǔn)確性逐漸提高。地下水位變動(dòng)可能導(dǎo)致圍堰堰體受力變化,進(jìn)而影響垂直位移。與水平位移類似,隨機(jī)森林和決策樹的預(yù)測能力較低,可能是因?yàn)樘荻忍嵘龢浜蛃tacked能更好地應(yīng)對復(fù)雜的關(guān)系,所以梯度提升樹和stacked的預(yù)測性能表現(xiàn)較好。
3.2 防滲墻變形
對比不同集成學(xué)習(xí)方法處理防滲墻的變形情況,各期預(yù)測結(jié)果如圖3所示。
防滲墻變形受到多種因素的影響,包括水位變動(dòng)、地下水環(huán)境、墻體自身結(jié)構(gòu)強(qiáng)度和表面強(qiáng)度等因素,這使預(yù)測變得更加困難。其中,決策樹在初期預(yù)測準(zhǔn)確性較低,隨著時(shí)間的推移才逐漸提高,而其他模型在中長期普遍有著較高的預(yù)測準(zhǔn)確性,這也表明復(fù)雜的因素需要更多的數(shù)據(jù)積累和模型學(xué)習(xí)。
通過對比試驗(yàn)結(jié)果,發(fā)現(xiàn)集成學(xué)習(xí)方法比單一模型在預(yù)測準(zhǔn)確性和穩(wěn)定性均有提高。其中,隨機(jī)森林與決策樹這兩種算法可能對復(fù)雜的非線性關(guān)系建模能力較弱,導(dǎo)致在初期預(yù)測準(zhǔn)確性較低。梯度提升樹和stacked等算法能更好地捕捉復(fù)雜的非線性關(guān)系,因此在各類預(yù)測中表現(xiàn)較好,數(shù)據(jù)積累較為豐富時(shí)能夠較好預(yù)測未來位移、變形水平。其中,Stacked集成方法在綜合考慮多個(gè)基本學(xué)習(xí)器的結(jié)果后,表現(xiàn)出更高的預(yù)測性能。綜合來看,這些結(jié)果表明水位變動(dòng)、地下水位變動(dòng)以及復(fù)雜的結(jié)構(gòu)因素對圍堰堰體的安全狀態(tài)有重要影響,而算法選擇對預(yù)測準(zhǔn)確性也有顯著的影響。因此,在實(shí)際應(yīng)用中,需要綜合考慮這些因素,同時(shí)選擇合適的算法以及持續(xù)積累數(shù)據(jù),提高預(yù)測準(zhǔn)確性。
3.3 預(yù)測準(zhǔn)確性對比
進(jìn)一步整理模型的預(yù)測準(zhǔn)確性,結(jié)果如圖4所示。
隨著決策樹數(shù)量增加,模型的準(zhǔn)確率逐步提高。從最初的10棵決策樹時(shí)的78.4%,到200棵決策樹時(shí)的89.7%,準(zhǔn)確率穩(wěn)步上升。表明增加決策樹數(shù)量有助于提高模型的準(zhǔn)確性。集成學(xué)習(xí)方法中的決策樹數(shù)量增加,使模型能夠更好地進(jìn)行多樣性學(xué)習(xí),并且通過更多的決策樹來縮小單一模型的偏差。每棵決策樹都在數(shù)據(jù)的不同部分進(jìn)行訓(xùn)練,增加了模型對數(shù)據(jù)特征的覆蓋面和多樣性,從而提高了整體的預(yù)測準(zhǔn)確率。隨著決策樹數(shù)量的進(jìn)一步增加,準(zhǔn)確率的增幅逐漸減少。特別是在決策樹數(shù)量達(dá)到150棵后,準(zhǔn)確率提高幅度趨于平穩(wěn),需要更多的樹才能獲得微小的增益,表明雖然增加決策樹可以提高準(zhǔn)確率,但在一定數(shù)量后,模型提高效果會(huì)逐漸減弱。決策樹過多可能會(huì)導(dǎo)致計(jì)算成本增加和模型訓(xùn)練時(shí)間延長,因此在實(shí)際應(yīng)用中,需要在準(zhǔn)確率和計(jì)算資源之間找到平衡點(diǎn)。綜合來看,在實(shí)際應(yīng)用中,應(yīng)根據(jù)具體需求和計(jì)算資源合理選擇決策樹的數(shù)量,避免過擬合的風(fēng)險(xiǎn),并保證模型的效率。召回率數(shù)據(jù)如圖5所示。
召回率隨著決策樹數(shù)量增加而逐漸提高。具體而言,從10棵決策樹的70.3%開始,召回率逐步升至200棵決策樹時(shí)的81.9%。召回率提高表明模型在識(shí)別實(shí)際正例方面的能力得到增強(qiáng),因?yàn)樵谳^少的決策樹數(shù)量下,模型已經(jīng)獲得了較高的召回率,進(jìn)一步增加決策樹對提高召回率的效果有限,所以較高決策樹數(shù)量時(shí)的增幅變得更加平緩。因此,需要適度增加決策樹的數(shù)量,以獲得較高的召回率,同時(shí)避免資源浪費(fèi)和模型復(fù)雜度增加。
綜合考慮較高的準(zhǔn)確率和較低的召回率,將之混合整理為F1水平,結(jié)果如圖6所示。
隨著決策樹數(shù)量增加,F(xiàn)1得分也逐步上升,從最初的74.5%升至200棵決策樹時(shí)的88.7%,反映了模型在平衡精度和召回率方面的能力有所增強(qiáng)。增加決策樹數(shù)量使模型處理數(shù)據(jù)時(shí)更加精準(zhǔn)和全面,從而提高了F1得分,但決策樹數(shù)量較高時(shí)逐漸減緩,模型可能出現(xiàn)了過擬合現(xiàn)象。
4 結(jié)語
本研究基于集成學(xué)習(xí)方法對水利施工中截流圍堰后的堰體安全進(jìn)行技術(shù)狀態(tài)監(jiān)測,取得了顯著成果。研究分析了上游水位變動(dòng)、地下水位變動(dòng)及復(fù)雜結(jié)構(gòu)因素對監(jiān)測結(jié)果影響,并評估了決策樹、隨機(jī)森林、GBT和Stacked等算法的準(zhǔn)確率。結(jié)果顯示,上游水位變化顯著影響圍堰堰體的水平位移,地下水位變動(dòng)較大影響垂直位移預(yù)測能力,防滲墻受多種因素綜合影響,其中,GBT表現(xiàn)優(yōu)異。建議優(yōu)先考慮GBT算法,該算法在數(shù)據(jù)積累后期性能更佳。Stacked模型效果良好,在處理復(fù)雜數(shù)據(jù)融合任務(wù)方面適用性好。決策樹和隨機(jī)森林適用于簡單情況,但在復(fù)雜環(huán)境下略差,因此建議結(jié)合使用GBT或Stacked模型應(yīng)對復(fù)雜監(jiān)測任務(wù)。未來的研究應(yīng)重點(diǎn)關(guān)注數(shù)據(jù)積累對模型性能的關(guān)鍵作用,可以探索實(shí)時(shí)數(shù)據(jù)流和動(dòng)態(tài)更新機(jī)制,保持模型的準(zhǔn)確性和時(shí)效性。
參考文獻(xiàn)
[1]楊凡,丁之,王揚(yáng),等.基于SDN和集成學(xué)習(xí)的工業(yè)控制網(wǎng)絡(luò)安全防護(hù)系統(tǒng)[J].現(xiàn)代電子技術(shù),2024,47(6):22-26.
[2]王潤瓊,宋清華,彭業(yè)振,等.基于特征自適應(yīng)融合和集成學(xué)習(xí)的高性能銑削刀具狀態(tài)監(jiān)測[J].機(jī)械工程學(xué)報(bào),2024,60(1):149-158.
[3]徐凱,鄭浩,涂永超,等.改進(jìn)麻雀算法和Q-Learning優(yōu)化集成學(xué)習(xí)軌道電路故障診斷[J].鐵道科學(xué)與工程學(xué)報(bào),2023,20(11):4426-4437.
[4]宋錦燾,袁帥,劉云賀,等.土石壩滲流安全監(jiān)控的集成學(xué)習(xí)融合模型[J].水力發(fā)電學(xué)報(bào),2023,42(5):107-119.
[5]馬晶,白崢言,劉獻(xiàn)禮,等.結(jié)合GA-BP與集成學(xué)習(xí)的鉆削過程刀具狀態(tài)實(shí)時(shí)監(jiān)測[J].機(jī)械科學(xué)與技術(shù),2023,42(10):1678-1689.
[6]劉長良,王梓齊.基于MSET和集成學(xué)習(xí)的風(fēng)電機(jī)組齒輪箱故障預(yù)警[J].太陽能學(xué)報(bào),2020,41(11):228-233.
[7]趙勁松,王梓齊,劉長良.基于Bagging集成策略和多元狀態(tài)估計(jì)的風(fēng)電機(jī)組齒輪箱狀態(tài)監(jiān)測[J].科學(xué)技術(shù)與工程,2020,20(20):8180-8186.