付曉娣 張 搏 王林均 魏 勇
(①貴州民族大學建筑工程學院,貴陽 550025,中國)(②喀斯特環(huán)境地質災害防治國家民委重點實驗室,貴陽 550025,中國)(③巖溶區(qū)城市地下空間開發(fā)與安全貴州民族大學重點實驗室,貴陽 550025,中國)
土石混合體是指由塊石、細粒土等組成的極端非均質的巖土介質系統(tǒng)(徐文杰等,2009),其力學特性界于土和巖石之間,材料屬性介于散體與連續(xù)介質之間(胡瑞林等,2020)。由于土石混合體具有顯著的非均質性,該類斜坡的穩(wěn)定性較難預測和評價,斜坡失穩(wěn)后會引起較大的人民生命安全與財產損失。土石混合體斜坡在我國山區(qū)廣泛分布,2013年7月,四川省都江堰市中興鎮(zhèn)三溪村發(fā)生特大滑坡,造成了45人遇難,116人失蹤(成浩等,2020;成浩,2021)。2018年5月,四川萬源長石鄉(xiāng)桃樹坪發(fā)生土石混合體滑坡,造成直接經濟損失約295萬元(白永健,2020)。
由于土石混合體斜坡穩(wěn)定性評價較為困難,學者們對此類斜坡的塊石屬性、含石量和相關力學參數等進行了大量的相關研究。楊忠平等(2020)認為土石混合體斜坡的塊石形狀、顆粒級配及初始孔隙率對斜坡體的穩(wěn)定性無明顯影響,但是塊石尺寸對土石混合體的抗剪強度有很大影響。尚敏等(2021)、楊忠平等(2021)在前人的研究基礎上(向玲等,2014;王衛(wèi),2015;趙國宣等,2015;孫一清等,2019),認為庫水波動對三峽庫區(qū)堆積層滑坡的穩(wěn)定性影響較大。劉康琦等(2022)采用等效均質土坡和土石混合體斜坡兩者發(fā)生滑坡時的永久位移量的差別,得出塊石增加了土石混合體斜坡的穩(wěn)定性。于偉(2018)建立擬動力作用下的三維極限平衡方程,考慮土條底部剪切力的橫向作用方向,能夠分析三維條件下土石混合體斜坡穩(wěn)定系數與斜坡形態(tài)、力學參數和地震加速度之間的關系。黃獻文等(2021)利用物理模型試驗和有限元法,分別得到了塊石長軸平行或垂直于邊坡剪切帶時斜坡的穩(wěn)定系數。龔健等(2017),劉康琦等(2020),王其寬等(2021),和Zhao et al.(2021)采用FLAC3D和強度折減法獲得了土石混合體斜坡的穩(wěn)定系數,并揭示了含石量對穩(wěn)定系數和破壞模式的影響。
近年來,機器學習方法越來越多地應用于斜坡穩(wěn)定性預測中并取得顯著成效。李麟瑋等(2018)在三峽庫區(qū)白水河滑坡上提出精度高、速度快、參數簡單的新型非等距位移時序預測模型,是基于非等距時間序列分析法、灰狼優(yōu)化算法和支持向量回歸機(SVR)的預測模型。Pham et al.(2021)利用全球滑坡數據庫,對比了8種單一的機器學習算法和集成算法的預測精度,得出集成算法的效果明顯高于單一的算法。Ray et al.(2020)改進了兩種基于人工神經網絡的機器學習預測模型,在喜馬拉雅地區(qū)的殘積土斜坡穩(wěn)定性預測中取得了較好的效果。Lin et al.(2021)采用11種機器學習算法針對斜坡的6種屬性特征建立斜坡穩(wěn)定性預測模型。Qi et al.(2018)、劉艷輝等(2021)分別利用螢火蟲算法和貝葉斯優(yōu)化算法,尋找所使用的6種機器學習算法各自的最佳超參數,以此獲得預測精度最高的斜坡穩(wěn)定性預測模型。王海軍等(2015)采用了一種基于果蠅優(yōu)化算法的廣義回歸神經網絡模型預測邊坡的穩(wěn)定狀態(tài),其預測精度明顯高于利用BP神經網絡(Back Propagation Neuron NetWok)建立的預測模型精度。Xue(2016)提出了一種基于最小二乘支持向量機和粒子群優(yōu)化算法的,具有較高精度的邊坡穩(wěn)定性預測模型。李晴文(2021)利用粒子群算法優(yōu)化了例如支持向量機(SVM)、非齊次指數離散函數的灰色預測模型(NGM)等的算法,進一步建立邊坡位移的預測模型,并取得了不錯的預測效果。
然而,由于土石混合體斜坡的復雜性,采用機器學習的方法預測其穩(wěn)定性鮮有報道。為了能夠較為精確地預測土石混合體斜坡的穩(wěn)定性,本文結合粒子群算法和果蠅優(yōu)化算法提出一種融合算法,從而更好地優(yōu)化機器學習模型的參數。采用3種機器學習模型,對土石混合體斜坡的穩(wěn)定性進行預測,并且對比分析了融合算法對預測精度的提升作用。最后對機器學習中的4個輸入參數進行了重要性分析,得到了影響土石混合體斜坡穩(wěn)定性因素的重要性排序。該融合算法能夠顯著提高機器學習模型的預測精度,為相關研究和工程應用提供新的解決方案。
調參算法主要是確定預測模型的超參數,本文的改進方法,主要是基于粒子群算法和果蠅優(yōu)化算法,這是建立邊坡預測模型最重要的一個環(huán)節(jié)。
1.1.1 粒子群算法
Kennedy et al.(1995)提出的粒子群算法(Particle Swarm Optimization)是一種用于非線性函數優(yōu)化的調參算法。
基本思路是:在搜索空間中,群體中單一粒子搜索得到的最優(yōu)值為局部極值,與群體中其他粒子共享信息獲得的最優(yōu)值為全局極值,粒子群中所有粒子根據局部極值和全局極值來調整自己的速度和位置,并最終獲得最優(yōu)解。
1.1.2 果蠅算法
潘文超(2011)提出的果蠅優(yōu)化算法(Fruit Fly Optimization Algorithm)是一種通過模擬果蠅利用敏銳的嗅覺和視覺進行捕食過程的算法。
主要思想是:首先初始化果蠅群體的位置、果蠅個體移動的距離和方向,計算果蠅利用嗅覺所得到的味道濃度判定值,以及果蠅個體所在位置的味道濃度的最大值。然后,保留最佳的味道濃度值和果蠅個體的位置信息。以此迭代,最終找到最優(yōu)值。
1.1.3 融合算法
粒子群算法具有收斂速度快、魯棒性好、在誤差函數梯度信息不影響的情況下尋找最優(yōu)解等諸多優(yōu)點(代娟等,2017)。果蠅優(yōu)化算法思想簡單,方法易懂,易于編程,并且在函數尋優(yōu)的收斂速率和計算量上具有明顯的優(yōu)勢(趙建強等,2014)。但是,兩種算法都有容易陷入局部最優(yōu)的問題,對于模型的預測精度影響嚴重(郭建豪等,2020;付興武等,2021;劉召朝等,2021;寇斌等,2022)。
本文利用粒子群算法與果蠅優(yōu)化算法的相互耦合,使得融合算法在具有兩者的優(yōu)點的同時,解決算法易陷入局部最優(yōu)的難題。首先,將果蠅優(yōu)化算法融合進粒子群算法的更新框架:速度更新和位置更新;其次,將粒子群算法的位置更新公式融合進果蠅優(yōu)化算法,進行基礎算法的改進。
Xi=(Xi+vi)+R×RV
(1)
Yi=Y_axis+R×RV
(2)
(3)
c1×rand()×(pbesti-Xi)+
c2×rand()×(gbesti-Xi)
(4)
式中:i=1,…,N,N為群體中的種群的總個數;vi為第i個種群的速度;rand()為介于(0,1)之間的隨機數;Xi為第i個種群的位置;c1,c2為學習因子;pbest為局部極值;gbest為全局極值;wini為初始慣性權值;wgnd為最大迭代次數的慣性權值;Gk為最大迭代次數;R為找尋半徑;g為當前迭代數;RV為種群維度大小的隨機向量;Si為第i個種群所對應的味道濃度判定值;Y_axis為初始種群向量值。
1.2.1 決策樹模型
決策樹模型(Decision Tree Model)是由樹狀分裂的、無數代表數據屬性節(jié)點組合成的分類或者回歸模型,包括ID3算法(Yasami et al.,2010)、C4.5算法等。決策樹模型主要采用從頂部到底部進行遞歸的過程中,每個迭代產生的新節(jié)點為基礎的循環(huán)模型(馮夏庭,2000)。隨著迭代次數的不斷增加,其產生的新節(jié)點的分支子集逐漸減小,繼續(xù)迭代的可能性逐漸減小,當決策樹模型的深度或者迭代的次數達到要求時,分支節(jié)點將會停止分裂。
雖然決策樹模型具有可讀性和分類速度快等的優(yōu)點,但是它對未知的測試數據的分類、泛化能力無法保證。
1.2.2 梯度提升決策樹模型
Froedman(2002)提出的梯度提升決策樹模型(Gradient Boosting Decision Tree Model)是由一種基于梯度提升框架,逐步減少上一次迭代所產生殘差的決策樹分類模型(張凌凡等,2020)。主要思想是,首先初始化一個學習器參數,并減小負梯度方向的損失函數值。然后,通過一定的迭代次數,獲得最優(yōu)的基分類器,并計算最優(yōu)的學習率,進行更新下一個學習器。通過使用弱分類器的預測結果的逐步累計得到強分類器(李根等,2022),因此具有較高泛化能力和防止過擬合的優(yōu)點。
圖1 土石混合體斜坡相關參數的相關性和統(tǒng)計分布Fig.1 Correlation and statistical distribution for parameters of soil-rock mixture slopes
1.2.3 Stacking模型
Stacking模型是Wolpert(1992)首次提出,其主要是訓練一個用于組合其他各個串行結構的機器學習模型集成框架,在各大機器學習算法比賽中表現突出(Chang et al.,2019),是集成學習方法(徐繼偉等,2018)中的主要模型之一。
此算法分成基本分類器和元分類器,首先使用基本分類器對初始數據進行訓練,之后將基本分類器所有預測輸出的特征值和初始的數據帶入元分類器,進行進一步的模型優(yōu)化。因為兩個分類器的輸入數據不同,所以在一定程度上防止過擬合,從而提高預測模型的預測能力。
影響土石混合體斜坡穩(wěn)定性的因素很多,在斜坡穩(wěn)定性分析中,穩(wěn)定系數本質上是抗滑力與下滑力的比值,這與巖土體的物理力學性質和斜坡的地貌形態(tài)直接相關??紤]到土石混合體具有顯著的非均質性,因此本文的輸入參數主要聚焦于土石混合體斜坡典型的結構性因素,包括含石率、基覆面傾角、坡角和坡高。在土石混合體中,含石率是決定物理力學性質的關鍵參數,對重度、黏聚力和內摩擦角有直接影響(Kalender et al.,2014;Zhang et al.,2020;張振平等,2021)。在機器學習中若輸入參數之間存在多重共線性,則會影響預測模型的準確性(張玘愷等,2020;許嘉慧等,2021;趙忠國等,2021)。因此,在土石混合體斜坡的穩(wěn)定性預測中,用含石率來代替重度、黏聚力和內摩擦角作為輸入參數?;裁媸峭潦旌象w與下覆基巖的分離界面,正是由于基覆面的存在,使土石混合體斜坡具有典型的二元結構。因此,基覆面是影響土石混合體斜坡整體穩(wěn)定的重要因素(孫永帥等,2018;劉順青等,2019)。坡角和坡高是斜坡的重要地貌幾何特征,對斜坡的穩(wěn)定性有重要影響。一般來說隨著斜坡高度和坡腳的增加,斜坡穩(wěn)定性逐漸降低。
本論文選用文獻(成國文,2009)中已詳細勘察的49個土石混合體斜坡數據作為分析樣本。
圖1為4個輸入參數和穩(wěn)定系數的數據正態(tài)分布情況。在主對角線散點圖中,穩(wěn)定系數值多處在1.0~1.3之間,少數值大于2.0。根據《建筑邊坡工程技術規(guī)范》(GB50330-2013)、《公路路基設計規(guī)范》(JTGD30-2015),穩(wěn)定系數小于1屬于不穩(wěn)定狀態(tài),所以文獻中所調查的斜坡是穩(wěn)定的。坡度值多在地質災害頻發(fā)的區(qū)間10°~25°(白世彪等,2005;劉傳正等,2007)。在上下三角的散點圖中,4個輸入參數與穩(wěn)定系數具有不同的相關性,基覆面傾角、坡角、坡高與穩(wěn)定系數呈現明顯的負相關,而含石率與穩(wěn)定系數呈現明顯的正相關,其數值越大穩(wěn)定系數越大。
如表 1所示,針對不同的機器學習模型,其調參算法的初始化參數不同。粒子群算法的初始化固定參數為:兩個學習因子均為2,權重矩陣為[0.4,0.9]。 果蠅優(yōu)化算法的初始化固定參數為:種群個數為30、最大迭代數為100。對于3種機器學習模型,果蠅優(yōu)化算法有不同的找尋半徑參數,粒子群算法有不同的種群個數、最大迭代數的組合。根據1.1節(jié)所述,融合算法是利用粒子群算法和果蠅優(yōu)化算法相互耦合得到的,所以,融合算法的初始化固定參數和上述兩個調參算法的初始化參數一樣,又因為3種調參算法所處理的機器學習模型的超參數都是一樣的,所以種群維度相同。
表 1 調參算法的基本參數及最佳超參數組合
如圖2所示,首先初始化種群的維度、位置、個數,以及找尋半徑的范圍。在3種調參算法中,均使用決定系數R2作為是否繼續(xù)進行迭代操作的依據,也就是圖2中的適應度函數。在迭代過程中,根據式(1)、式(2)、式(3)更新二維位置,利用得到的局部極值和全局極值更新速度,見式(4)。當適應度函數值大于等于模型精度要求時,即可輸出最佳的超參數組合。
結合圖2的算法圖以及表 1中的參數值,對每一種機器學習模型進行超參數尋找,獲得最佳超參數組合的結果見表 1。
圖2 調參算法圖Fig.2 Adjustment algorithm diagram
建立土石混合體斜坡穩(wěn)定性預測模型的流程圖如圖3,具體流程如下:
(1)將模型輸入參數,即含石率、基覆面傾角、坡角和坡高,對應的數據進行數據預處理,讓數據符合標準正態(tài)分布。
(2)將數據以 3︰1 的比例劃分成訓練集和測試集。
圖3 土石混合體斜坡穩(wěn)定性預測模型Fig.3 The prediction model for stability of soil-rock mixture slope
(3)利用粒子群算法、果蠅優(yōu)化算法和融合算法這3種調參算法分別確定土石混合體斜坡穩(wěn)定性預測模型的超參數組合,如表 1所示。
(4)初步確定土石混合體斜坡穩(wěn)定性預測模型。之后,利用25%的測試集數據對模型進行預測精度的進一步檢驗,如果模型精度不再提高,則最終確定斜坡穩(wěn)定性預測模型,反之,繼續(xù)進行第三步。
圖4 土石混合體斜坡穩(wěn)定性預測結果Fig.4 The results of stability prediction for soil-rock mixture slope
利用在數據集中隨機取出82%的結果,進行模型精度的驗證。圖4每一個子圖的橫、縱坐標分別表示穩(wěn)定系數的真實值和預測值,虛線表示正方形子圖框中的對角線。散點分布越遠離矩形坐標軸的主對角線,說明穩(wěn)定系數的預測值和真實值相對誤差越大。在本文中將遠離虛線的散點稱為離散點。
在同一種機器學習模型下,決策樹模型列的預測值相較于真實值仍存在一定的相對誤差,但在融合算法下預測模型的散點離散程度達到最低。梯度提升決策樹模型列和Stacking模型列的散點都呈現出從粒子群算法到果蠅優(yōu)化算法再到融合算法模型離散程度逐漸變低。不同的是,梯度提升決策樹模型的離散點絕大部分聚集在虛線上,Stacking模型在融合算法下,其離散點逐漸趨近于虛線。因此,在3種調參算法中,利用融合算法建立的模型預測精度最高。
基于融合算法下的3種機器學習模型散點分布各不相同。梯度提升決策樹模型相較于其他兩種機器學習模型的散點分布均勻,離散點少,預測效果較好。在Stacking模型的離散點多處在虛線的上半部分,說明模型預測值多大于穩(wěn)定系數的真實值,相對誤差較大。相較于梯度提升決策樹模型,決策樹模型的散點多分布在虛線的左右,說明模型預測值的標準差較大,但是比Stacking模型的預測精度高。因此,在3種機器學習模型中,利用梯度提升決策樹模型的預測精度最高。
圖5 預測模型的評價指標結果Fig.5 The results of evaluation index for prediction model
對于評價機器學習模型的預測能力,本文采用3個指標,分別是將均值作為誤差基準的決定系數R2,反映估計量與被估計量之間差異程度的一種度量的均方誤差MSE,所有單個觀測值與算術平均值的偏差的絕對值的平均絕對誤差MAE。其中作為本文最重要的評價指標:R2,其值越趨近于1,說明模型的預測精度越高。MSE值和MAE值越小說明模型預測精度越高。
表 2 評價指標統(tǒng)計結果
據表 2和圖5所示,相比于粒子群算法和果蠅優(yōu)化算法,采用融合算法進行調參后的決策樹模型、梯度提升決策樹模型和Stacking模型的預測精度均獲得提高。尤其是梯度提升決策樹模型中,預測精度大幅度提高,明顯優(yōu)于決策樹模型和Stacking模型?;谌诤纤惴ǖ奶荻忍嵘龥Q策樹模型分別比采用粒子群算法和果蠅優(yōu)化算法時,R2高出0.1775、0.0889,MAE低0.0479、0.0229,MSE值低0.0111、0.0055。對于決策樹模型,采用融合算法比采用粒子群算法和果蠅優(yōu)化算法的R2分別高出0.0116、0.0494,MAE低0.0008、0.0144,MSE低0.0007、0.003。對于Stacking模型,采用融合算法比采用粒子群算法和果蠅優(yōu)化算法的R2分別高出0.0133、0.1967,MAE低0.0033、0.0348,MSE低0.0008、0.0123。
綜上所述,根據3個評價指標的結果,整體來說梯度提升決策樹模型預測精度優(yōu)于另外兩個機器學習模型,尤其是采用融合算法調參之后。雖然粒子群算法下的梯度提升決策樹模型的預測精度略低于決策樹模型,但對比融合算法下的梯度提升決策樹模型的預測精度,上述精度損失可以忽略不計。
因為土石混合體的力學性質和材料屬性的復雜度高,所以需要對影響土石混合體斜坡穩(wěn)定的結構性因素進行排序。本文采用基于融合算法的梯度提升決策樹模型,分析含石率、基覆面傾角、坡角和坡高這4個輸入參數的重要性程度。如上所述,梯度提升決策樹模型為多個弱學習器逐步形成的強學習器,本文以某一因素在所有弱學習器中重要度的平均值作為此因素對于土石混合體斜坡穩(wěn)定性特征的影響程度值(Froedman,2002),而單一弱學習器中的特征重要性得分標準(Liu et al.,2021)為式(5)、式(6)所示:
(5)
(6)
式中:Vc為屬性c在整個弱學習器中的重要度值;Vc,k為屬性c在節(jié)點k的重要度值;Ginik為k節(jié)點的Gini值;Ginikl為k節(jié)點的左Gini值;Ginikr為k節(jié)點的右Gini值。
如圖6所示,4個輸入參數按照重要性從大到小的順序為:基覆面傾角、含石率、坡角、坡高。基覆面傾角和含石率這兩個結構性因素,是土石混合體斜坡區(qū)別于其他斜坡的重要特征。
圖6 輸入參數重要性排序Fig.6 Importance ranking for input parameters
劉順青等(2019)認為基覆面傾角對土石混合體斜坡穩(wěn)定性的影響非常顯著,隨著傾角的增大,穩(wěn)定系數逐漸減小。龔健等(2017)、江強強等(2020)和王其寬等(2021)認為含石量對土石混合體的力學行為有重要影響,隨著含石量的增大,斜坡的穩(wěn)定系數逐漸提高,破壞模式有單一光滑轉為交叉繞石。因此,對于土石混合體斜坡的工程評價,應先從含石率和基覆面傾角入手。
本文通過粒子群和果蠅優(yōu)化耦合形成的融合算法,能夠有效提升機器學習模型的預測精度?;谌诤纤惴ń⒘送潦旌象w斜坡的穩(wěn)定性預測模型,并對已有文獻中土石混合體斜坡穩(wěn)定系數進行預測,通過評價指標明確了融合算法的優(yōu)勢,最后對影響斜坡穩(wěn)定性的因素進行特征重要性分析,為土石混合體斜坡的穩(wěn)定性預測提供了新的思路。得到以下結論:
(1)利用調參算法對決策樹模型、梯度提升決策樹模型、Stacking模型進行超參數尋找,相對于粒子群算法和果蠅優(yōu)化算法來說,融合算法下的模型預測能力表現出了明顯的優(yōu)勢,說明融合模型解決了粒子群和果蠅優(yōu)化算法所存在的容易陷入局部極值的缺點。
(2)在基于融合算法的決策樹模型、梯度提升決策樹模型、Stacking模型中,梯度提升決策樹模型的預測精度最高,決定系數R2達到0.9333,均方誤差MSE和平均絕對誤差MAE也最小。因此,可采用該模型預測土石混合體斜坡的穩(wěn)定性。
(3)采用基于融合算法的梯度提升決策樹模型,對影響土石混合體斜坡穩(wěn)定性的因素重要性進行分析,4個參數從大到小的順序為:基覆面傾角、含石率、坡角、坡高。因此在土石混合體斜坡的工程評價和處理中,應重點考慮基覆面傾角和含石率的影響。