摘要:近年來,經(jīng)典統(tǒng)計模型和機器學(xué)習(xí)模型在大壩安全監(jiān)控領(lǐng)域并行發(fā)展,然而前者的“預(yù)測能力”和后者的“可解釋性”通常存在一定局限,且關(guān)于量化多重因素對大壩監(jiān)測量影響程度的對比研究相對較少。基于閩江支流上GTX重力壩的水平位移和垂直位移原型監(jiān)測數(shù)據(jù),分別采用多元線性回歸(MLR)、偏最小二乘回歸(PLS)、隨機森林算法(RF)建立兼顧預(yù)測能力和解釋能力的大壩變形監(jiān)控模型;同時,針對每種模型開展特征重要性分析,探究不同因素對大壩變形的影響程度。研究結(jié)果表明:3種模型中隨機森林模型的擬合能力最佳,偏最小二乘回歸模型的預(yù)測能力最佳;3種模型提供的可解釋性基本符合實際規(guī)律,且特征重要性排序規(guī)律定性一致,水壓分量和溫度分量對該壩體位移影響顯著,時效分量所占比例最低。研究成果可為后續(xù)開展大壩安全監(jiān)控模型優(yōu)選提供參考。
關(guān) 鍵 詞:大壩; 安全監(jiān)控; 機器學(xué)習(xí); 統(tǒng)計模型; 特征重要性
中圖法分類號: TV698.1
文獻標(biāo)志碼: A
DOI:10.16232/j.cnki.1001-4179.2024.09.027
0 引 言
大壩作為國民經(jīng)濟中的關(guān)鍵基礎(chǔ)設(shè)施,在發(fā)揮其顯著經(jīng)濟效益的同時,亦面臨多種因素損害其結(jié)構(gòu)安全性,增加了運行故障的風(fēng)險[1]。大壩變形是反映大壩總體工作性態(tài)的重要監(jiān)測指標(biāo)[2-3],構(gòu)建兼顧預(yù)測能力和可解釋性的大壩變形監(jiān)控模型,對于提升大壩的運行安全性和健康狀況具有重大意義。
目前,廣泛采用的大壩變形監(jiān)控模型有3類:統(tǒng)計模型、確定性模型和混合模型[4]。統(tǒng)計模型利用歷史監(jiān)測數(shù)據(jù),通過統(tǒng)計方法進行建模和分析。其中水位-季節(jié)-時效(hydrostatic-seasonal-time,HST)模型[5]是應(yīng)用最廣的大壩變形監(jiān)控統(tǒng)計模型。在此基礎(chǔ)上,廣大學(xué)者對HST模型中水壓、溫度、時效3個分量的表達式進行了更加全面和細致的考慮[6-9]。然而,此類模型的準(zhǔn)確性高度依賴于輸入數(shù)據(jù)的質(zhì)量,數(shù)據(jù)的誤差或缺失將對預(yù)測和評估結(jié)果產(chǎn)生不利影響[10]。確定性模型的工作原理是基于物理和數(shù)學(xué)原理(如有限元)計算荷載作用下的變形場,然后根據(jù)實測值的統(tǒng)計分析求解調(diào)整參數(shù)[11-12],其主要優(yōu)點在于物理概念明確,可以更好地與結(jié)構(gòu)性態(tài)相聯(lián)系。此外,由于建立確定性模型不需要很長序列的實測數(shù)據(jù),因此確定性模型適用于水庫施工期和初蓄期。吳中如等[13]最先將確定性模型應(yīng)用于佛子嶺拱壩的監(jiān)測資料分析中;李端有等[14]采用有限元法分別確定了隔河巖重力拱壩位移的水壓位移分量和溫度位移分量,并在此基礎(chǔ)上建立了混凝土拱壩位移的一維多測點確定性模型。需要指出的是,準(zhǔn)確的模擬結(jié)果需要大量真實、精確的輸入數(shù)據(jù),且確定性模型在處理未知或非線性動態(tài)行為時也存在一定的局限性。相對于統(tǒng)計模型和確定性模型而言,混合模型在建模時采用數(shù)值分析法來計算水壓分量,采用統(tǒng)計方法來擬合計算溫度分量和時效分量[15]。但此類模型的預(yù)測效果也受限于統(tǒng)計模型和確定性模型的局限,尤其是在數(shù)據(jù)量不足或數(shù)據(jù)質(zhì)量較差的情況下[16]。魏博文[17]、黃萬江[18]等構(gòu)建了基于參數(shù)區(qū)間反演修正的單測點混合模型以及融合優(yōu)化算法的多測點混合模型。
隨著計算機技術(shù)和大數(shù)據(jù)的進步,機器學(xué)習(xí)已發(fā)展成為人工智能領(lǐng)域中最為活躍和成果豐富的研究分支。機器學(xué)習(xí)的目的是根據(jù)已知訓(xùn)練樣本,讓計算機從數(shù)據(jù)中自動學(xué)習(xí)、發(fā)現(xiàn)輸入元素與輸出元素之間的潛在規(guī)律,并通過對數(shù)據(jù)的分析和歸納來提高對未知數(shù)據(jù)的預(yù)測、分類或決策能力。Su等[19]將支持向量機應(yīng)用于大壩變形預(yù)測中,有效地考慮到了大壩變形的非線性動力特性;王巖博等[20]提出了一種基于極限學(xué)習(xí)機的混凝土壩變形監(jiān)測數(shù)據(jù)粗差識別方法,解決了連續(xù)時間序列數(shù)據(jù)中的粗差識別問題;吳云星等[21]提出了一種結(jié)合多種群遺傳算法和反向傳播神經(jīng)網(wǎng)絡(luò)的混合算法,旨在優(yōu)化水工建筑物的定期變形監(jiān)測預(yù)測;康俊鋒等[22]將布谷鳥搜索算法和長短期記憶神經(jīng)網(wǎng)絡(luò)應(yīng)用于大壩變形預(yù)測。盡管機器學(xué)習(xí)算法已在大壩安全監(jiān)控領(lǐng)域取得了長足進步,但現(xiàn)有的大部分機器學(xué)習(xí)模型往往表現(xiàn)為“黑盒”模型,雖然可以根據(jù)輸入給出相應(yīng)的預(yù)測,但很難揭示其決策依據(jù)。此外,關(guān)于識別不同因素對大壩變形影響程度方面的研究相對較少。隨機森林作為一種以決策樹為基本結(jié)構(gòu)的集成學(xué)習(xí)算法,能夠計算出單個特征的重要程度,并可根據(jù)變量重要性度量對高維數(shù)據(jù)的特征進行選擇,克服了“黑盒”模型的缺點。然而,采用隨機森林模型對大壩變形監(jiān)測數(shù)據(jù)進行分析和解釋的研究并不常見。
為此,本文基于GTX重力壩的水平位移和垂直位移監(jiān)測數(shù)據(jù),分別采用多元線性回歸(MLR)、偏最小二乘回歸(PLS)、隨機森林算法建立大壩變形監(jiān)控模型;并在此基礎(chǔ)上,定量分析不同因素對大壩變形的影響程度,對不同模型的估計結(jié)果進行對比分析,以期為大壩的長期服役和運行管理提供理論依據(jù)與決策支持。
1 算法模型
本文選用的3種模型均為兼顧預(yù)測能力和解釋能力的模型,但計算原理以及特征重要性量化方法有所差異。
1.1 多元線性回歸模型
多元線性回歸的本質(zhì)是研究多個自變量與一個因變量之間的相關(guān)關(guān)系,從而建立自變量與因變量之間的數(shù)學(xué)模型。其通用表達式為
Y=A+B1X1+B2X2+…+BnXn+ε(1)
式中:Y為因變量;A為回歸模型常數(shù)項;X1~Xn為自變量;B1~Bn為回歸模型未知參數(shù);ε為隨機誤差。
在多元線性回歸分析中,采用相對權(quán)重[23]來衡量自變量的相對重要度。先分別建立自變量與正交變量以及因變量與正交變量之間的線性回歸模型,進而以兩組線性回歸系數(shù)平方和的乘積作為衡量自變量相對重要性的指標(biāo)。其數(shù)學(xué)原理如下[24]:
(1) 將全部數(shù)據(jù)中自變量X構(gòu)成n×m階矩陣N,令P表示NNT的特征向量,Q′表示NTN的特征向量,得到相互正交的中間矩陣Z:
Z=PQ′(2)
(2) 建立因變量Y關(guān)于中間矩陣Z的多元線性回歸方程,得到回歸系數(shù)α:
α=ZTZ-1ZTY=QPTPQT-1QPTY=ITQPTY=QPTY(3)
(3) 因為正交變量互不相關(guān),因此用α2表示中間矩陣Z對因變量Y的貢獻比。為了精準(zhǔn)表示自變量矩陣N對因變量Y的貢獻比,建立自變量N關(guān)于中間矩陣Z的多元線性回歸方程,得到回歸系數(shù)χ:
χ=ZTZ-1Z′N=QPTPQT-1QPTPΔQT=I′QΔQT=QΔQT(4)
(4) 同理,可以用χ2表示中間矩陣Z對自變量矩陣N的貢獻比,故自變量矩陣N對因變量Y的貢獻比可表示為
ε=χ2α2(5)
因為自變量對因變量的貢獻比是通過正交變換獲得的,不僅解決了變量間的多重共線性問題,還反映了自變量對因變量的直接影響,包括自變量與模型中其他自變量的共同作用效應(yīng)。因此可以使用各個自變量對因變量的貢獻比來表示自變量對因變量的相對重要性。
1.2 偏最小二乘回歸模型
偏最小二乘回歸將多元線性回歸、主成分分析、典型相關(guān)分析融為一體,通常用于處理自變量間的多重共線性問題。其基本原理如下[25]:
(1) 設(shè)有自變量X1,…,Xn構(gòu)成的矩陣和因變量Y=(Y1,…,Yn)m×1構(gòu)成的矩陣。對初始數(shù)據(jù)進行標(biāo)準(zhǔn)化處理從而避免量綱的影響,得到X標(biāo)準(zhǔn)化矩陣M0,Y標(biāo)準(zhǔn)化矩陣N0。
(2) 首先分別從M0、N0中提取第一成分t1和u1,t1和u1應(yīng)盡可能大地代表X和Y中數(shù)據(jù)信息,且兩者間相關(guān)系數(shù)應(yīng)最大。然后分別建立自變量矩陣M0和因變量矩陣N0對t1的回歸方程:
M0=t1pT1+M1(6)
N0=t1rT1+N1(7)
式中:p1=MT0t1‖t1‖2、r1=NT0t1‖t1‖2為回歸系數(shù)向量,M1、N1為回歸方程殘差矩陣。
(3) 以M1和N1替代M0和N0,重復(fù)上述步驟直到滿足迭代要求,得到:
M0=t1pT1+t2pT2+…+thpTh(8)
N0=t1rT1+t2rT2+…+thrTh(9)
最后得到:
y^=α1x1+α2x2+…+αpxp(10)
式中:αi(i=1,…,p)為偏最小二乘回歸系數(shù)。
偏最小二乘算法通過變量投影重要性(VIP)原理解釋自變量x作用于因變量Y時的重要性[26],通過計算每個自變量對偏最小二乘模型中各成分的貢獻程度,而這個貢獻度反映的是各個自變量在構(gòu)建偏最小二乘模型成分時的權(quán)重和這些成分對響應(yīng)變量的解釋程度,從而用得到的各個自變量的VIP值衡量變量重要性。其計算公式如下:
VIPj=p·Aa=1[qaY;th·ω2hj]Aa=1qaY;t1,…,th(11)
式中:VIPj表示第j個特征對應(yīng)的VIP值;p為預(yù)測變量總數(shù);A為偏最小二乘成分總數(shù);qa(Y;th)表示th軸對Y的解釋能力;ωhj表示軸的第j個分量,用于測量xj對構(gòu)造th的邊際貢獻;qa(Y;t1,…,th)表示軸t1,…,th對Y的累積解釋能力。
1.3 隨機森林模型
隨機森林回歸算法模型是一種集成多棵決策樹的強學(xué)習(xí)器模型[27],通過將隨機子空間方法和Bootstrap集成學(xué)習(xí)理論結(jié)合,用以數(shù)據(jù)挖掘和機器學(xué)習(xí)。其基本原理如下:
(1) 對于輸入的數(shù)據(jù)集進行提取,劃分擬定的因變量與自變量并形成原始樣本集。
(2) 利用Bootstrap的重抽樣技巧,在原始樣本集中執(zhí)行有放回的隨機提取,以此創(chuàng)建若干個獨立的樣本集。對于每個獨立樣本集,既包括被隨機選出的數(shù)據(jù),也包括那些未被選出的數(shù)據(jù)(稱為袋外數(shù)據(jù)),這兩部分數(shù)據(jù)共同參與構(gòu)造成一棵獨立的決策樹。
(3) 在構(gòu)建每一棵決策樹時,系統(tǒng)在全部N個特征(即自變量)中隨機選取m個特征來決定樹的分支條件。根據(jù)增益(Gain)指標(biāo)從這m個特征中挑選出最佳的分裂點進行節(jié)點的分裂,以確保樹能夠以最充分的方式成長,進而建立回歸決策樹。
(4) 對于輸入的自變量Xi(i=1,2,…,n),每棵決策樹都會生成一個預(yù)測值Yi,所有決策樹預(yù)測值的平均值即為最終輸出的預(yù)測結(jié)果。同時此前決策樹未抽取到的數(shù)據(jù)集可用來驗證真實值與預(yù)測值的誤差。
隨機森林回歸算法通過計算每棵樹對應(yīng)的袋外數(shù)據(jù)誤差,隨機對袋外數(shù)據(jù)所有樣本中的特征Xi加入噪聲干擾,然后重新計算誤差,并分析袋外數(shù)據(jù)同一特征加入噪聲前后的誤差變化幅度,變化幅度越大說明該特征對預(yù)測結(jié)果即因變量的影響越大,也表明其重要性越高。
2 實例分析
研究實例為中國福建省境內(nèi)閩江支流上GTX混凝土寬縫重力壩,其最大壩高71 m,壩頂高程384.5 m。針對該壩20號壩段壩頂監(jiān)測點的水平位移數(shù)據(jù)和15號壩段壩頂監(jiān)測點的垂直位移數(shù)據(jù),分別建立多元線性回歸模型、偏最小二乘回歸模型以及隨機森林模型。將位移以及相對應(yīng)的自變量數(shù)據(jù)集劃分為兩組,前70%數(shù)據(jù)用來訓(xùn)練模型(訓(xùn)練集),后30%數(shù)據(jù)用來測試模型(測試集)。根據(jù)水位-季節(jié)-時效(HST)模型[5],選取H、H2、H3、H4、sin2πt365、cos2πt365、sin2πt365·cos2πt365、θ和lnθ共9個變量作為影響因子變量[2],其中H為上游水深,t為觀測日至觀測基準(zhǔn)日的累計天數(shù),θ=t100。
2.1 預(yù)測結(jié)果分析
基于監(jiān)測數(shù)據(jù)建立多元線性回歸模型、偏最小二乘回歸模型和隨機森林模型,其中,由MLR和PLS模型得到的回歸系數(shù)結(jié)果見表1。由表1可知,根據(jù)兩種不同方法所確定的回歸系數(shù)通常存在較大差異。例如,4個水位因子呈冪次關(guān)系,系數(shù)符號該保持一致,而在多元回歸中,系數(shù)有正有負,并不合理;相比之下,偏最小二乘回歸的系數(shù)同號且均為正數(shù),表明上游水深增大,壩體水平位移向下游變化,與大壩實際變形規(guī)律相符。引起這種差異的主要原因在于偏最小二乘回歸模型較好地解決了模型中各自變量因子高度相關(guān)的問題,使得大壩水位、溫度和時效變量在解釋監(jiān)測效應(yīng)量上更加嚴謹。
基于3種模型,進一步確定訓(xùn)練集的擬合精度和測試集的預(yù)測精度。圖1和圖2分別給出了水平位移和垂直位移的“預(yù)測值與實測值”對比結(jié)果??梢园l(fā)現(xiàn),3種模型預(yù)測的位移值大體上與實測值變化規(guī)律一致,但在部分“轉(zhuǎn)折點”上存在相對較大差異。結(jié)合前文對回歸系數(shù)的分析可知,自變量之間的相關(guān)性對模型回歸的擬合效果影響不大,但對模型回歸系數(shù)的影響較大,這與之前的研究結(jié)論[28]相符。
采用均方根誤差RMSE、平均絕對誤差MAE和決定系數(shù)R2作為模型評價指標(biāo),將結(jié)果匯總于表2。
從表2可以發(fā)現(xiàn),在訓(xùn)練集中,隨機森林模型的擬合能力優(yōu)于多元線性回歸和偏最小二乘回歸模型。以水平數(shù)據(jù)為例,隨機森林模型的R2最大,RMSE和MAE均最小,相較于其他兩種統(tǒng)計模型,其RMSE和MAE分別降低約40%和50%。然而,在測試集中,偏最小二乘回歸模型展示出較高的準(zhǔn)確性,其預(yù)測性能優(yōu)于其他兩種模型。具體而言,偏最小二乘回歸模型的RMSE和MAE分別比多元線性回歸和隨機森林模型降低1.6%和46.8%、7%和45.7%。
需要指出的是,3個評價指標(biāo)具有不同的內(nèi)在含義。例如,與MAE相比,由于RMSE對殘差項進行了平方,因此該指標(biāo)往往對大殘差更為敏感,這意味著RMSE更容易受到部分離群值的影響。綜上,偏最小二乘回歸模型的預(yù)測能力優(yōu)于其他兩種模型,多元線性回歸模型次之,隨機森林模型的預(yù)測精度相對較低,這可能與當(dāng)前樣本數(shù)量有限有關(guān)。
2.2 影響因素重要性分析
根據(jù)前文不同模型的特征重要性計算方法,以多元線性回歸模型運用相對權(quán)重的思想對水平位移監(jiān)測數(shù)據(jù)進行特征重要性分析為例,首先得到按不同順序剔除某個變量后的R2,例如按不同順序剔除影響因子H后,回歸得到的R2分別為0.452 3,0.272 7,0.149 5,0.072 7,0.030 6,0.011 7,0.006 1,0.004 8,0;其次根據(jù)每個變量的R2之和等于多元線性回歸的總R2,對上述9個結(jié)果取平均值,可以得到影響因子H的重要性得分為0.111 2。3種模型所得結(jié)果如圖3~4所示??梢园l(fā)現(xiàn),盡管模型不同,但所確定的分量得分排序規(guī)律基本一致。此外,對于不同模型,同一分量(如水壓分量)中不同因子的相對排序可能有所差異。
由圖3可知,針對該混凝土重力壩,溫度影響因子cos2πt365在多元線性回歸模型和隨機森林模型中的重要性排名第一;4個水壓因子在偏最小二乘回歸模型中排名前四,在其余兩個模型中均排在第2~5位;而時效因子的影響相對較小,在3個模型中其重要性得分遠低于水壓分量和時效分量。由圖4可知,對于垂直位移,水壓分量的影響最大,4個代表水壓分量的影響因子在每個模型重要性排序中均在前4位;其次是溫度分量;相比之下,時效分量的重要性得分明顯小于前兩者。該結(jié)論與以往監(jiān)測資料分析中得到的重力壩測點變形規(guī)律亦相符。
為進一步驗證特征重要性分析結(jié)果,圖5~6分別給出了多元線性回歸模型和偏最小二乘模型所得的各分量過程線[28-29]??梢钥闯?,無論水平位移還是垂直位移,水壓分量和溫度分量均占有較大的比例,時效分量所占比XFbXiOhBMXP3jSx7WYtg5g==例最小。但與圖5~6相比,圖3~4的特征重要性分析結(jié)果更為直觀且更易量化。
綜上,特征重要性分析是為模型提供可解釋性的重要工具,不同自變量影響因子對水平位移和垂直位移的影響程度可能有所區(qū)別。結(jié)合水平和垂直位移的特征重要性分析可以發(fā)現(xiàn),對于該混凝土重力壩,水壓分量和溫度分量是位移的主要影響因素。
3 結(jié) 論
本文以GTX混凝土重力壩的變形監(jiān)測數(shù)據(jù)為研究實例,分別對多元線性回歸模型、偏最小二乘回歸模型和隨機森林模型的預(yù)測能力和可解釋性進行了對比分析。
研究結(jié)果表明:對于訓(xùn)練集,基于決策樹算法的隨機森林模型能夠更加有效地捕捉數(shù)據(jù)中的復(fù)雜非線性關(guān)系,其評價指標(biāo)R2最高,RMSE和MAE均最低;對于測試集,偏最小二乘回歸模型的表現(xiàn)最佳。特征重要性分析結(jié)果表明,3種模型的分析結(jié)果定性一致:水壓分量和溫度分量對壩體位移影響顯著,時效分量影響較小。模型提供的可解釋性符合大壩變形規(guī)律,與傳統(tǒng)分量過程線法相比,特征重要性分析結(jié)果能夠更加直觀地反映不同自變量對壩體位移的影響程度。研究成果可為后續(xù)開展大壩安全監(jiān)控模型優(yōu)選提供參考依據(jù)。
參考文獻:
[1] 吳中如,陳波.大壩變形監(jiān)控模型發(fā)展回眸[J].現(xiàn)代測繪,2016,39(5):1-3,8.
[2] 吳中如.水工建筑物安全監(jiān)控理論及其應(yīng)用[M].北京:高等教育出版社,2003.
[3] 易正元,蘇懷智,楊立夫.混凝土壩變形監(jiān)控模型的隨機森林與旗魚優(yōu)化組合建模方法[J].水電能源科學(xué),2021,39(10):106-109,143.
[4] 黃華東,郭張軍.大壩安全智能監(jiān)控模型對比分析研究[J].中國水運(下半月),2019,19(6):71-73.
[5] WILLM G,BEAUJOINT N.Les me′thodes de surveillance des barrages au service de la production hydraulique d′Electricite′ de France-Proble`mes ancients et solutions nouvelles[C]∥IXth international congress on large dams,1967:529-550.
[6] WANG S,XU Y,GU C,et al.Hysteretic effect considered monitoring model for interpreting abnormal deformation behavior of arch dams:a case study[J].Structural Control and Health Monitoring,2019(3):e417.
[7] PIERRE L,LECLERC M.Hydrostatic,temperature,time-displacement model for concrete dams[J].Journal of Engineering Mechanics,2007,133(3):267-277.
[8] SALAZAR F,TOLEDO M A.Discussion on "thermal displacements of concrete dams:accounting for water temperature in statistical models"[J].Engineering Structures,2015,171:1071-1072.
[9] LI F,WANG Z,LIU G,et al.Hydrostatic seasonal state model for monitoring data analysis of concrete dams[J].Structure & Infrastructure Engineering,2015,11(12):1616-1631.
[10]李富強.大壩安全監(jiān)測數(shù)據(jù)分析方法研究[J].杭州:浙江大學(xué),2012.
[11]王小敏,劉小勇.大壩變形分析與預(yù)報的有限元法[J].地理空間信息,2009,7(5):127-130.
[12]許昌,岳東杰,董育煩,等.基于主成分和半?yún)?shù)的大壩變形監(jiān)測回歸模型[J].巖土力學(xué),2011,32(12):3738-3742.
[13]吳中如,范樹平.佛子嶺連拱壩原型結(jié)構(gòu)性態(tài)綜合分析[J].水利水電技術(shù),1993(11):2-6.
[14]李端有,周元春,甘孝清.混凝土拱壩多測點確定性位移監(jiān)控模型研究[J].水利學(xué)報,2011,42(8):981-985,994.
[15]顧沖時,吳中如.大壩與壩基安全監(jiān)控理論和方法及其應(yīng)用[M].南京:河海大學(xué)出版社,2006.
[16]任超,梁月吉,龐光鋒,等.最優(yōu)非負變權(quán)組合模型在大壩變形中的應(yīng)用[J].大地測量與地球動力學(xué),2014,34(6):162-166.
[17]魏博文,袁冬陽,李火坤,等.基于參數(shù)區(qū)間反演修正混合模型的混凝土壩位移監(jiān)控指標(biāo)確定方法[J].巖石力學(xué)與工程學(xué)報,2018,37(增2):4151-4160.
[18]黃萬江.混凝土拱壩多測點變形監(jiān)控混合模型研究[J].水利技術(shù)監(jiān)督,2023(4):13-15.
[19]SU H,LI X,YANG B, el al.Wavelet support vector machine-based prediction model of dam deformation[J].Mechanical Systems and Signal Processing 2018,110:412-427.
[20]王巖博,顧沖時,石立,等.基于改進IGGⅢ-ELM法的混凝土壩變形監(jiān)測數(shù)據(jù)粗差識別方法[J].水利水電科技進展,2023,43(6):89-95.
[21]吳云星,周貴寶,谷艷昌,等.基于LMBP神經(jīng)網(wǎng)絡(luò)的土石壩滲流壓力預(yù)測[J].人民黃河,2017,39(8):90-94,148.
[22]康俊鋒,胡祚晨,陳優(yōu)良.基于布谷鳥搜索算法優(yōu)化LSTM的大壩變形預(yù)測[J].排灌機械工程學(xué)報,2022,40(9):902-907.
[23]JEFF W.A heuristic method for estimating the relative weight of predictor variables in multiple regression[J].Multivariate Behavioral Research,2000,35(1):1-19.
[24]代魯燕,沈其君,張波,等.相對權(quán)重法在線性模型自變量相對重要性中的估計及其應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2013,30(1):19-20,22.
[25]王惠文.偏最小二乘回歸方法及其應(yīng)用[M].北京:國防工業(yè)出版社,1999.
[26]BENJAMIN M,MOSTAFA E Q,BENOT J.Extension and significance testing of variable importance in projection (VIP) indices in partial least squares regression and principal components analysis[J].Chemometrics and Intelligent Laboratory Systems,2023,242:104986.
[27]BERIMANL.Random forests[J].Machine Learning,2001,45(1):5-32.
[28]徐洪鐘,吳中如.偏最小二乘回歸在大壩安全監(jiān)控中的應(yīng)用[J].大壩觀測與土工測試,2001(6):22-23,27.
[29]何金平.大壩安全監(jiān)測理論與應(yīng)用[M].北京:中國水利水電出版社,2010.
(編輯:胡旭東)
Comparison of monitoring model for dam deformation based on interpretability analysis
HUANG Haiyan1,AI Xingxing2,LIU Xingyang2,LI Zhanchao2,QIU Jianchun2
(1.Yunnan Water Resources and Hydropower Vocational College,Kunming 650499,China; 2.College of Hydraulic Science and Engineering,Yangzhou University,Yangzhou 225100,China)
Abstract:
In recent years,classical statistical models and machine learning models have parallelly developed in dam safety monitoring field.However,the predictive ability of the former and the interpretability of the latter usually have certain limitations,and there are relatively few comparative studies on the impact of quantitative multiple factors on dam monitoring measured data.Based on the prototype monitoring data of horizontal displacement and vertical displacement of GTX gravity dam on the tributary of Minjiang River,this paper used multiple linear regression (MLR),partial least squares regression (PLS) and random forest algorithm (RF) to establish different dam deformation monitoring models that takes both predictive ability and interpretability into account.At the same time,the feature importance analysis was carried out for each model to explore the influence of different factors on dam deformation.The results showed that the random forest model had the best fitting ability and the partial least squares regression model had the best prediction ability among the three models.The interpretability provided by the three models was basically in line with the actual law,and the order of feature importance was consistent:the water pressure component and the temperature component had a significant impact on the displacement of the dam body,and the proportion of the aging component was the lowest.The research results can provide reference for the subsequent optimal selection of dam safety monitoring model.
Key words:
dam; safety monitoring; machine learning; statistical model; feature importance