胡 斌 湯 琦 李 京 丁 靜 劉 霽
(1.武漢科技大學(xué)資源與環(huán)境工程學(xué)院,湖北 武漢 430081;2.冶金礦產(chǎn)資源高效利用與造塊湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430081)
巖體的數(shù)值分析和計(jì)算方法已廣泛應(yīng)用于巖土 工程問(wèn)題分析中。但由于地質(zhì)條件的不確定性、施工的多變性和模擬實(shí)驗(yàn)存在取樣困難、尺寸效應(yīng)等問(wèn)題,獲取現(xiàn)場(chǎng)巖體的力學(xué)參數(shù)較為困難,使得構(gòu)建好的數(shù)值計(jì)算模型,因力學(xué)參數(shù)選取的不合理而導(dǎo)致數(shù)值計(jì)算結(jié)果與工程實(shí)際存在較大差距。
Kavanagh等[1]最早提出了基于有限元法的彈性固體彈性模量反演方法,用來(lái)解決上述不足。而后伴隨著人工智能技術(shù)的發(fā)展,優(yōu)化方法出現(xiàn)了智能化的趨勢(shì),眾多學(xué)者將各種智能算法與優(yōu)化方法相結(jié)合起來(lái),如人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、粒子群優(yōu)化算法等被引入反分析中。馮夏庭等[2]通過(guò)遺傳算法優(yōu)化人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)彈性問(wèn)題的反分析,驗(yàn)證了方法的有效性。漆祖芳等[3]通過(guò)對(duì)傳統(tǒng)粒子群算法的改進(jìn),提出了V-SVP-MVPSO算法,并成功地應(yīng)用于大崗山水電站右岸邊坡巖體參數(shù)反演分析中。王開(kāi)禾等[4]通過(guò)將模擬退火算法(SA)很強(qiáng)的局部尋優(yōu)能力與遺傳算法(GA)相結(jié)合,用以提高算法的收斂速度及全局尋優(yōu)能力。
以往的研究往往集中在對(duì)類神經(jīng)網(wǎng)絡(luò)算法的改進(jìn)以及控制參數(shù)的優(yōu)化來(lái)實(shí)現(xiàn)對(duì)工程現(xiàn)場(chǎng)的正確模擬反饋,通過(guò)不同算法性能的相互補(bǔ)充來(lái)解決早熟問(wèn)題、局部最優(yōu)以及魯棒性等問(wèn)題,從而實(shí)現(xiàn)精度上的提升,而往往忽視了算法選擇的重要性。Chen等[5]通過(guò)對(duì)比研究了6種算法的預(yù)測(cè)性能,指出隨機(jī)森林(RF)算法相較于單一的類神經(jīng)網(wǎng)絡(luò)算法(如BP神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)(ELM)、支持向量機(jī)(SVM)等)存在控制參數(shù)少和泛化能力強(qiáng)的特點(diǎn)。故本文提出使用隨機(jī)森林(RF)算法和粒子群(PSO)算法結(jié)合的RF-PSO混合算法模型,通過(guò)正交設(shè)計(jì)試驗(yàn)樣本,與傳統(tǒng)類神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比后,獲取巖體力學(xué)參數(shù)與監(jiān)測(cè)位移之間的映射關(guān)系,完成對(duì)礦山邊坡力學(xué)參數(shù)的反演。
隨機(jī)森林算法是一種集成學(xué)習(xí)算法[6-7],其原理如圖1所示。它以決策樹(shù)為基礎(chǔ),結(jié)合使用Bootstrap技術(shù)[8]和節(jié)點(diǎn)隨機(jī)分裂技術(shù),形成多棵決策樹(shù),最后將所有預(yù)測(cè)結(jié)果匯總輸出。通過(guò)多棵決策樹(shù)進(jìn)行集成學(xué)習(xí),有效地克服了單棵決策樹(shù)容易出現(xiàn)過(guò)擬合精度較低等問(wèn)題,并且有效降低了學(xué)習(xí)系統(tǒng)的泛化誤差。
圖1 隨機(jī)森林算法示意Fig.1 Schematic of random forest algorithm
本文實(shí)現(xiàn)的隨機(jī)森林算法是由以CART算法[9]為不純度函數(shù)的決策樹(shù)組成。采用Gini系數(shù)來(lái)選取合適的特征為切分點(diǎn),使得模型可用于回歸問(wèn)題的分析,避免了傳統(tǒng)的以信息增益為節(jié)點(diǎn)特征偏向于取值較多的屬性的問(wèn)題。
設(shè)數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)}的屬性空間X?Rm中某一特征變量Xj,j=1,2,…,m有q個(gè)取值,則Gini系數(shù)表達(dá)式如下:
式中,pi表示特征變量為i的概率。
粒子群算法(PSO)是由Kennedy J等[10]提出的一種群體智能優(yōu)化仿生算法,通過(guò)不斷迭代粒子的速度和位置信息,使模型達(dá)到目標(biāo)問(wèn)題的最優(yōu)解。憑借具有輸入?yún)?shù)少、收斂速度快、全局尋優(yōu)能力強(qiáng)等特點(diǎn),被廣泛應(yīng)用。
正交設(shè)計(jì)RF-PSO模型是由正交設(shè)計(jì)構(gòu)造試驗(yàn)樣本、隨機(jī)森林算法(RF)建立非線性映射關(guān)系和粒子群算法(PSO)對(duì)結(jié)果進(jìn)行全局搜索三部分組成。具體算法流程如圖2所示。
圖2 正交設(shè)計(jì)RF-PSO混合算法流程Fig.2 Flow chart of RF-PSO hybrid algorithm with orthogonal design
基本步驟如下:
(1)確定待反演參數(shù)類型及取值范圍。針對(duì)所要分析的問(wèn)題確定反演參數(shù)類型及水平數(shù),后根據(jù)正交設(shè)計(jì)構(gòu)建試驗(yàn)方案,最后通過(guò)有限差分軟件FLAC3D進(jìn)行正分析計(jì)算位移后確定試驗(yàn)樣本。
(2)采用Bootstrap取樣,以形成與試驗(yàn)樣本的相同的訓(xùn)練數(shù)據(jù)子集,進(jìn)而形成回歸預(yù)測(cè)決策樹(shù)模型,生成隨機(jī)森林模型。
(3)將訓(xùn)練好的隨機(jī)森林模型與粒子群算法(PSO)相結(jié)合,憑借前者建立的映射關(guān)系及后者全局搜索能力,根據(jù)適應(yīng)度函數(shù)不斷更新粒子速度和位置,根據(jù)終止條件輸出最優(yōu)反演結(jié)果解。
為了反映模型間的性能效果差異,結(jié)合Tseranidis等[11]總結(jié)的8種誤差評(píng)價(jià)指標(biāo),選取平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)3個(gè)指標(biāo)來(lái)評(píng)價(jià)模型回歸效果的差異程度、離散程度和相關(guān)程度。
式中,ri、pi分別為監(jiān)測(cè)點(diǎn)位移的計(jì)算值和預(yù)測(cè)值;n為輸入數(shù)據(jù)個(gè)數(shù);為監(jiān)測(cè)點(diǎn)位移的平均值。
以黃山某石灰石礦山邊坡為研究對(duì)象,該石灰石礦山存在力學(xué)強(qiáng)度低、水理性質(zhì)差的炭質(zhì)泥頁(yè)巖(軟弱夾層),為邊坡破壞的優(yōu)勢(shì)結(jié)構(gòu)面。根據(jù)礦山開(kāi)采設(shè)計(jì),礦山邊坡臺(tái)階坡面角為60°,最終邊幫角為43°,臺(tái)階高度 15 m。
選取邊坡軟弱夾層力學(xué)參數(shù)作為模型的輸入?yún)?shù),查閱相關(guān)文獻(xiàn)[12-14],搜集了11組軟弱夾層力學(xué)參數(shù),構(gòu)建樣本數(shù)據(jù)的多樣性,用以提高模型對(duì)于軟弱夾層力學(xué)參數(shù)與邊坡位移的映射關(guān)系敏感度和反演力學(xué)參數(shù)的精度。為使樣本數(shù)據(jù)安排合理具有科學(xué)性,采用L11正交表設(shè)計(jì)試驗(yàn)方案,FLAC3D正分析計(jì)算產(chǎn)生樣本數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)建立好后,訓(xùn)練集占樣本數(shù)據(jù)庫(kù)80%,測(cè)試集占樣本數(shù)據(jù)庫(kù)20%。樣本數(shù)據(jù)庫(kù)中力學(xué)參數(shù)類型、變化范圍及平均值如表1所示。
表1 軟弱夾層力學(xué)參數(shù)數(shù)據(jù)范圍Table 1 Mechanical parameter data range of weak interlayer
選取該石灰石礦山采區(qū)典型剖面為計(jì)算模型進(jìn)行正向計(jì)算,如圖3所示。模型網(wǎng)格劃分對(duì)于重點(diǎn)位置進(jìn)行加密,其他位置采用合理網(wǎng)格進(jìn)行過(guò)渡。監(jiān)測(cè)點(diǎn)選擇在邊坡坡頂?shù)奈恢?坐標(biāo)為X=205.29 m,Z=170.61m,監(jiān)測(cè)其由于石灰?guī)r開(kāi)挖后引起位移的大小。
圖3 優(yōu)化后的邊坡數(shù)值網(wǎng)絡(luò)模型Fig.3 Optimized slope numerical network model
通過(guò)L11正交表設(shè)計(jì)方案設(shè)計(jì)的121組試驗(yàn)方案,通過(guò)FLAC3D軟件進(jìn)行數(shù)值計(jì)算,采用Mohr-Coulomb破壞準(zhǔn)則。模型底部邊界采用固定約束,側(cè)向邊界采用法向約束,采用自重應(yīng)力作為初始地應(yīng)力。由于監(jiān)測(cè)點(diǎn)位于邊坡頂部,故將監(jiān)測(cè)點(diǎn)的豎向位移作為模型數(shù)據(jù)輸出,樣本數(shù)據(jù)共計(jì)121組。
如圖4所示,數(shù)值計(jì)算結(jié)果主要分布在0~5.0 mm之間,樣本的最大值及中位數(shù)分別為10.63 mm、1.21 mm,說(shuō)明樣本數(shù)據(jù)中存在少量的大位移點(diǎn),可以作為后續(xù)檢驗(yàn)?zāi)P皖A(yù)測(cè)泛化能力的參考。
圖4 數(shù)值計(jì)算結(jié)果分布Fig.4 Distribution of numerical calculation results
為了對(duì)比不同機(jī)器學(xué)習(xí)算法在礦山邊坡力學(xué)參數(shù)預(yù)測(cè)上的性能差異,本研究選取BP神經(jīng)網(wǎng)絡(luò)模型和GA-BP神經(jīng)網(wǎng)絡(luò)模型作為RF算法的比較對(duì)象,模型搭建均在Matlab軟件中進(jìn)行。
根據(jù)輸入層節(jié)點(diǎn)和輸出節(jié)點(diǎn)數(shù)確定BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由于數(shù)據(jù)和變量的數(shù)目較少,考慮采用單層的隱含層即模型中隱含層數(shù)為1,通過(guò)設(shè)置100組不同隱含層節(jié)點(diǎn)進(jìn)行測(cè)試集精度分析,結(jié)果如圖5所示,當(dāng)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為4-7-1時(shí),誤差數(shù)值最小。對(duì)于GA-BP算法模型中的遺傳算法的群體規(guī)模N取10,遺傳代數(shù)G取40,交叉概率PC取0.2,變異概率Pm取0.1,其他參數(shù)取系統(tǒng)默認(rèn)值。
圖5 BP神經(jīng)網(wǎng)絡(luò)模型性能和隱含層節(jié)點(diǎn)數(shù)目關(guān)系Fig.5 Relationship between the performance of BP neural network model and the number of hidden layer nodes
隨機(jī)森林作為一種機(jī)器學(xué)習(xí)算法,決定其輸出結(jié)果的因素主要為決策樹(shù)數(shù)量及分裂屬性個(gè)數(shù)。分裂屬性個(gè)數(shù)一般設(shè)置為樣本特征變量總數(shù)的66%[15],故本文中mtry等于3。ntree的值通過(guò)設(shè)置100個(gè)不同的值進(jìn)行預(yù)測(cè)精度的分析,其結(jié)果如圖6所示,當(dāng)決策樹(shù)數(shù)目為1時(shí),對(duì)應(yīng)的誤差值最小。
圖6 RF算法模型性能和決策樹(shù)數(shù)目關(guān)系Fig.6 Relationship between the performance of RF algorithm model and the number of decision trees
選取數(shù)據(jù)集的80%(97組樣本)作為訓(xùn)練集,20%(24組樣本)作為測(cè)試集,以121×4矩陣作為輸入數(shù)據(jù),監(jiān)測(cè)點(diǎn)Z方向位移作為模型輸出,在Windows系統(tǒng)下,采用Corei7-9700F處理器進(jìn)行運(yùn)算,不同算法模型對(duì)測(cè)試集預(yù)測(cè)結(jié)果如圖7所示。在運(yùn)行速度上,BP神經(jīng)網(wǎng)絡(luò)模型憑借其結(jié)構(gòu)簡(jiǎn)單運(yùn)行速度最快,RF算法模型次之。通過(guò)MAE和RMSE的數(shù)值對(duì)比,RF算法模型憑借集成學(xué)習(xí)的特點(diǎn)其預(yù)測(cè)數(shù)據(jù)擬合度最好,混合算法模型GA-BP通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)中權(quán)值閾值的優(yōu)化,在預(yù)測(cè)數(shù)據(jù)離散和差異程度上要優(yōu)于單一的BP神經(jīng)網(wǎng)絡(luò)。在預(yù)測(cè)結(jié)果相關(guān)性上,RF算法模型也優(yōu)于混合算法模型GA-BP及單一的BP神經(jīng)網(wǎng)絡(luò),決定系數(shù)R2為0.96。
圖7 模型的測(cè)試集預(yù)測(cè)結(jié)果Fig.7 Prediction results of test set of the model
由于數(shù)據(jù)集中大位移樣本數(shù)量較少,導(dǎo)致BP神經(jīng)網(wǎng)絡(luò)和GA-BP神經(jīng)網(wǎng)絡(luò)模型對(duì)于大位移的預(yù)測(cè)出現(xiàn)了較大的誤差,反之RF算法模型對(duì)于大位移的預(yù)測(cè)出現(xiàn)了較好的泛化能力,適合用來(lái)預(yù)測(cè)不同力學(xué)參數(shù)下的位移變化這一復(fù)雜的非線性問(wèn)題。在精度波動(dòng)上,RF算法也表現(xiàn)出集成學(xué)習(xí)算法波動(dòng)小的特點(diǎn)。在可操作性上,RF算法模型控制參數(shù)數(shù)量較之傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)模型少,操作難度較小。GA-BP神經(jīng)網(wǎng)絡(luò)模型克服了控制參數(shù)選取的問(wèn)題,但較之于隨機(jī)森林(RF)算法模型,存在計(jì)算量大,運(yùn)行速度慢的缺點(diǎn)。
因此,采用隨機(jī)森林(RF)算法模型構(gòu)建力學(xué)參數(shù)與位移間的映射關(guān)系。
將通過(guò)FLAC3D正向計(jì)算組成的樣本集訓(xùn)練好的RF模型作為PSO算法中的適應(yīng)度計(jì)算函數(shù),采用量測(cè)值與預(yù)測(cè)值之間的絕對(duì)誤差作為目標(biāo)。選取4組位移值作為力學(xué)參數(shù)反演的對(duì)象,再將反演的力學(xué)參數(shù)結(jié)果導(dǎo)入已經(jīng)建立好的數(shù)值計(jì)算模型中,判斷算法的回歸預(yù)測(cè)性能。為使反演結(jié)果具有的參考性和可對(duì)比性,根據(jù)樣本數(shù)據(jù)的離散程度,選取4組位移:10、2.5、1.21、0.3 mm,分別進(jìn)行反演分析計(jì)算,其結(jié)果如表2所示。從計(jì)算結(jié)果可以看出,除去大位移因?yàn)橄嚓P(guān)樣本數(shù)據(jù)量不足反演結(jié)果出現(xiàn)較大偏差外,其余測(cè)試精度均達(dá)到95%以上。說(shuō)明RF-PSO混合算法模型獲得的參數(shù)和計(jì)算模型的合理性,其反演得到的力學(xué)參數(shù)可以模擬礦山邊坡開(kāi)挖后變形預(yù)測(cè)的正確性和有效性。
表2 巖石力學(xué)參數(shù)反演計(jì)算結(jié)果Table 2 Inversion calculation results of rock mechanics parameters
(1)RF-PSO混合算法與傳統(tǒng)類神經(jīng)網(wǎng)絡(luò)模型相比較,在數(shù)據(jù)過(guò)擬合和泛化性方面較傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和GA-BP神經(jīng)網(wǎng)絡(luò)有大幅度提高,避免了過(guò)學(xué)習(xí)問(wèn)題,提高了反演精度。運(yùn)算速度也快于GA-BP神經(jīng)網(wǎng)絡(luò)模型,為智能反演提供了新的思路。
(2)以黃山某石灰石礦山邊坡為計(jì)算模型所構(gòu)建的樣本集,應(yīng)用RF-PSO位移反分析算法反演邊坡軟弱夾層力學(xué)參數(shù)后,進(jìn)行正向計(jì)算的結(jié)果與實(shí)際值間的平均相對(duì)誤差在3%左右,表明反演得到的軟弱夾層力學(xué)參數(shù)是合理的。