徐永兵,李家艷,關(guān)艷麗,唐木紅,普新凱
(云南建投第一勘察設(shè)計(jì)有限公司,云南 昆明 650031)
隨著一帶一路、交通強(qiáng)國(guó)戰(zhàn)略的部署和實(shí)施,大型基礎(chǔ)設(shè)施建設(shè)(如高鐵、碼頭、機(jī)場(chǎng)等)蓬勃發(fā)展。同時(shí),堅(jiān)守耕地紅線,執(zhí)行嚴(yán)格的耕地保護(hù)制度也使耕地與建筑用地供需矛盾日益突出。無論在我國(guó)西部山區(qū)還是東部沿海,隨著可用土地?cái)?shù)量的逐年減少,大規(guī)模的開山挖溝、填土造地已逐漸成為解決用地矛盾的有效對(duì)策[1]。對(duì)于云南省這樣的西部山區(qū),開山挖溝已是部分地州尋求發(fā)展的唯一選擇。削山填谷這樣的大型挖填工程不可避免存在十幾米甚至上百米高的填筑體,填筑體失去了原有的結(jié)構(gòu)性,較為松軟,導(dǎo)致其承載力及密實(shí)程度很難滿足于建筑的設(shè)計(jì)要求,在必須在建筑施工前采取一定的地基處理措施,使得其能達(dá)到一定的安全儲(chǔ)備[2]。
地基強(qiáng)夯法是建筑工程中常用的技術(shù),可有效改善地基的強(qiáng)度和穩(wěn)定性,提高建筑物的安全性和可靠性。強(qiáng)夯法最開始由法國(guó)Menard公司在20世紀(jì)70年代提出[3],經(jīng)過多年的發(fā)展與應(yīng)用,我國(guó)現(xiàn)行的規(guī)范[4]將強(qiáng)夯法納入地基處理的重要方法,成為造價(jià)省、工期短的地基處理方法。其有效加固深度是判別加固效果的重要依據(jù),直接影響關(guān)系到強(qiáng)夯能級(jí)和施工工藝的選擇[5]。影響強(qiáng)夯有效加固深度的因素眾多,主要分為3類:①錘重、錘底面積、落距等設(shè)備因素;②夯點(diǎn)擊數(shù)、夯擊遍數(shù)、間歇時(shí)間等強(qiáng)夯設(shè)計(jì)參數(shù);③土體粒徑、飽和度、相對(duì)密度等巖土體因素[6-7]。整個(gè)強(qiáng)夯過程作用機(jī)理復(fù)雜,影響因素繁多。關(guān)于強(qiáng)夯有效加固深度的研究最早由L. Menard[3]提出,奠定了計(jì)算有效加固深度的系數(shù)修正公式和經(jīng)驗(yàn)公式的基礎(chǔ)。后續(xù)學(xué)者通過工程實(shí)踐與室內(nèi)外試驗(yàn),總結(jié)了施工工藝、巖土體特性、強(qiáng)夯設(shè)計(jì)參數(shù)等因素的各類形式的經(jīng)驗(yàn)公式。目前,我國(guó)現(xiàn)行的方法主要是規(guī)范查表法、系數(shù)修正法、經(jīng)驗(yàn)公式法等,這些方法簡(jiǎn)單易用。但其精確度較低,在有些工程應(yīng)用上誤差較大,較難滿足于當(dāng)前強(qiáng)夯法安全、經(jīng)濟(jì)的市場(chǎng)需求。
近年來,隨著計(jì)算機(jī)算法模型和計(jì)算機(jī)硬件性能的不斷提升,使得以機(jī)器學(xué)習(xí)算法為代表的數(shù)據(jù)驅(qū)動(dòng)模型已成為許多學(xué)科研究的常用方法。如今算法模型常用的有BP神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)(SVM)模型[8]、隨機(jī)森林(RF)模型[9]、多層感知器(MLP)[10]模型等。在各個(gè)學(xué)科中都出現(xiàn)了算法模型的身影,且都發(fā)揮了較好的應(yīng)用效果,但至今確鮮有學(xué)者將機(jī)器學(xué)習(xí)應(yīng)用于強(qiáng)夯有效加固深度研究。為此,本文嘗試?yán)眉扔械墓こ虒?shí)際資料,結(jié)合BP神經(jīng)網(wǎng)絡(luò)模型、SVM模型、RF模型、MLP模型、XGBoost模型以及樸素貝葉斯模型等6種機(jī)器學(xué)習(xí)算法模型,對(duì)強(qiáng)夯有效加固深度進(jìn)行預(yù)測(cè)。為對(duì)比各模型的預(yù)測(cè)精度及可靠性,以云南某在建項(xiàng)目作為實(shí)例工程驗(yàn)證,旨在為預(yù)測(cè)強(qiáng)夯法有效加固深度提供一種經(jīng)濟(jì)有效的方法,同時(shí)促進(jìn)機(jī)器學(xué)習(xí)模型在巖土工程學(xué)科中的應(yīng)用。
鑒于巖土工程的介質(zhì)材料自身的復(fù)雜性,在巖土設(shè)計(jì)和施工中往往都是依賴于經(jīng)驗(yàn)判斷的指導(dǎo)。強(qiáng)夯有效加固深度不僅受到巖土體的復(fù)雜性控制,也受到強(qiáng)夯設(shè)計(jì)參數(shù)等因素有影響。采用機(jī)器學(xué)習(xí)算法處理這種復(fù)雜且非線性程度很高的工程難題具有較強(qiáng)優(yōu)勢(shì),這也是當(dāng)前人工智能頗受青睞的重要原因之一。
1.1.1 數(shù)據(jù)可行性驗(yàn)證
機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的重要基礎(chǔ)是算法訓(xùn)練,要求提供有特定的輸入、輸出數(shù)據(jù)形成訓(xùn)練集樣本和輸出集樣本。參照張?chǎng)蔚萚11]研究基礎(chǔ),從我國(guó)地基處理工程現(xiàn)場(chǎng)及相關(guān)文獻(xiàn)資料中選取648個(gè)強(qiáng)夯地基處理樣本[12-13]。該樣本集的輸入數(shù)據(jù)有干密度、含水量、夯擊能量、夯錘面積4項(xiàng)輸入,輸出數(shù)據(jù)為實(shí)測(cè)得到的強(qiáng)夯有效加固深度。模型原始數(shù)據(jù)集見表1。
表1 模型原始數(shù)據(jù)集
對(duì)于訓(xùn)練樣本需要保證各因子之間的獨(dú)立性,要進(jìn)行相關(guān)性分析,剔除相關(guān)性較大的因子,規(guī)避因子間的相互干擾。將表1中的648個(gè)數(shù)據(jù)作為樣本,計(jì)算因子之間的相關(guān)系數(shù),并根據(jù)相關(guān)性計(jì)算結(jié)果繪制成因子相關(guān)性熱力圖,見圖2。從圖2可知,此樣本數(shù)據(jù)最大Pearson相關(guān)值為0.65,反映出因子間不存在高度相關(guān)性[14],數(shù)據(jù)樣本具有一定的代表性。
圖1 樣本因子相關(guān)性熱力圖
圖2 不同模型夯實(shí)有效加固深度預(yù)測(cè)值與實(shí)測(cè)值對(duì)比
1.1.2 數(shù)據(jù)歸一化處理
表1中樣本數(shù)據(jù)具有不同的特征及量綱,且數(shù)據(jù)樣本還具有較高離散性。為消除數(shù)據(jù)之間的量綱影響,增強(qiáng)數(shù)據(jù)之間的可比性,需要對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理。將樣本數(shù)據(jù)分別歸一化至區(qū)間[-1,1]內(nèi),得到歸一化處理后的數(shù)值Xout,公式為
(1)
式中,Kmax、Kmin分別表示歸一化后數(shù)據(jù)的最大值與最小值,為1、-1;xi為第i個(gè)值;Xmax、Xmin分別為原始數(shù)據(jù)集每列數(shù)據(jù)的最大值、最小值組成的矩陣;E為單位矩陣。
歸一化后的數(shù)據(jù)樣本能最大化的消除奇異數(shù)據(jù)導(dǎo)致的不良影響,同時(shí)提高模型預(yù)測(cè)精度、加快模型的收斂性。模型歸一化處理后數(shù)據(jù)集見表2。
表2 模型歸一化處理后數(shù)據(jù)集
本文采用當(dāng)前應(yīng)用較廣且較為成熟的6種算法模型,即BP神經(jīng)網(wǎng)絡(luò)模型、SVM模型、RF模型、MLP模型、XGBoost模型以及樸素貝葉斯模型分別進(jìn)行強(qiáng)夯有效深度訓(xùn)練及預(yù)測(cè)。
(1)BP神經(jīng)網(wǎng)絡(luò)模型是一種誤差反向傳播的多層前饋網(wǎng)絡(luò),是當(dāng)前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。其過程是不斷迭代的信息正向傳播與誤差反向傳播,各層的權(quán)值在迭代的過程中不斷調(diào)整,直至收斂。
(2)SVM模型最早就是為了解決小樣本、非線性等問題所提出的。其求解過程可以理解為是處理1個(gè)凸二次規(guī)劃問題,從理論上可以得到全局的最優(yōu)解,可以解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中不能避免的局部最優(yōu)化問題。
(3)RF模型基于分類樹算法,通過利用大量分類樹的匯總從而提高預(yù)測(cè)精度,對(duì)于異常值和噪聲具有很好的適應(yīng)性,能較好處理大量的輸入樣本的非線性算法模型。
(4)MLP模型具有較高的容錯(cuò)性和魯棒性,是夠適用于各類連續(xù)變量與離散變量,其突出的非線性映射能力適用于結(jié)果各類復(fù)雜數(shù)據(jù)分類工作.
(5)XGBoost模型以CART算法為子模型,是通過Boosting實(shí)現(xiàn)多棵樹的集成學(xué)習(xí)方法。由多個(gè)弱分類器集成而構(gòu)建形成的強(qiáng)分類器,其在回歸和分類上都有很好的表現(xiàn),目前在股市、房?jī)r(jià)、生物醫(yī)學(xué)等各個(gè)領(lǐng)域都能看到XGBoost模型的身影.
(6)樸素貝葉斯模型是當(dāng)前應(yīng)用最為廣泛的分類算法之一,通過統(tǒng)計(jì)得到各種狀態(tài)在不同特征下的先驗(yàn)概率和條件概率,再計(jì)算給定樣本在各種狀態(tài)下的后驗(yàn)概率,將最大后驗(yàn)概率對(duì)應(yīng)的類別判定為樣本所屬的類別。保證樸素貝葉斯算法中數(shù)據(jù)間的相互獨(dú)立性是核心要素,這也是樸素二字的含義所在,因此稱為樸素貝葉斯算法。
6種模型適用同樣訓(xùn)練集樣本與輸出集樣本,并將訓(xùn)練集樣本與輸出集樣本分為訓(xùn)練樣本與檢驗(yàn)樣本,兩者比例設(shè)置為7∶3。模型訓(xùn)練好后將訓(xùn)練集樣本輸入模型進(jìn)行強(qiáng)夯有效深度的預(yù)測(cè),再將預(yù)測(cè)值與實(shí)測(cè)值進(jìn)行對(duì)比。截取具有代表性的36個(gè)典型項(xiàng)目作為對(duì)照樣本,6種模型夯實(shí)有效加固深度實(shí)測(cè)值與預(yù)測(cè)值對(duì)比見圖2。
為對(duì)比6種不同的機(jī)器學(xué)習(xí)模型的性能和效果,采用均方根誤差σRMSE、平均絕對(duì)百分比誤差σMAPE、決定系數(shù)R2以及平均絕對(duì)誤差σMAE這4項(xiàng)指標(biāo)對(duì)比各模型的預(yù)測(cè)準(zhǔn)確率、誤差、泛化能力等。均方根誤差σRMSE反映了預(yù)測(cè)數(shù)據(jù)與真實(shí)數(shù)據(jù)之間偏離的程度,其值越小反映模型的預(yù)測(cè)精度越高;平均絕對(duì)百分比誤差σMAPE的范圍為[0,+∞),其值越近于0,表示模型越完美;決定系數(shù)R2≤1,其值越接近于1,表示模型的預(yù)測(cè)精度較為準(zhǔn)確;平均絕對(duì)誤差σMAE反映誤差值的大小,其值越大反映模型的誤差越高;評(píng)價(jià)指標(biāo)的計(jì)算公式為
(2)
(3)
(4)
(5)
6種不同的機(jī)器學(xué)習(xí)模型預(yù)測(cè)精度對(duì)比見表3。從表3可知,RF模型σRMSE值最小,為0.137,表明預(yù)測(cè)性能比較優(yōu)異;BP神經(jīng)網(wǎng)絡(luò)模型、SVM模型與MLP模型σMAPE值普遍偏大,表明其屬于劣化模型;RF模型與XGBoost模型R2值較高,為0.905與0.861,表明預(yù)測(cè)精度相對(duì)較高;RF模型與XGBoost模型σMAE值在0.1左右,預(yù)測(cè)值的可靠性較高。通過對(duì)比6種模型,RF模型性能較為優(yōu)異,其次為XGBoost模型與樸素貝葉斯模型,BP神經(jīng)網(wǎng)絡(luò)模型、SVM模型與MLP模型表現(xiàn)較差。
表3 模型精度對(duì)比
項(xiàng)目位于云南省瀘西縣城東北,白水塘水庫(kù)西南,S203以東,瀘彌高速以北。項(xiàng)目占地面積約為782.54 hm2,場(chǎng)平面積約550.6 hm2,為新建某產(chǎn)業(yè)園,場(chǎng)地整平、地基處理妥善是項(xiàng)目落地的根本保障。項(xiàng)目分為2個(gè)回填區(qū),為紅黏土強(qiáng)夯處理工程,紅黏土為干密度為16.6 kN/m3,含水量為 15.7%。夯錘直徑為2.52 m,面積為4.98 m2。2處區(qū)域分別采用5 000 kN·m和4 000 kN·m的夯擊能量,經(jīng)過現(xiàn)場(chǎng)實(shí)測(cè)數(shù)據(jù),有效加固深度分別為5.35 m和4.21 m。為更好地對(duì)比模型的應(yīng)用效果,測(cè)試數(shù)據(jù)引用文獻(xiàn)[11]中的工程實(shí)例資料,具體工程實(shí)例數(shù)據(jù)樣本集見表4所示。
表4 工程實(shí)例數(shù)據(jù)樣本集
為檢驗(yàn)各模型的精度及適用性,以工程實(shí)例數(shù)據(jù)為檢驗(yàn)樣本集,采用6種模型預(yù)測(cè)強(qiáng)夯有效加固深度,并與實(shí)測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果見圖3。從圖3可知,經(jīng)過6種模型的預(yù)測(cè)結(jié)果和實(shí)測(cè)值進(jìn)行比較發(fā)現(xiàn),RF模型預(yù)測(cè)性能表現(xiàn)優(yōu)秀,預(yù)測(cè)結(jié)果與實(shí)測(cè)值相當(dāng)接近;其次為XGBoost模型與樸素貝葉斯模型也表現(xiàn)出不俗的預(yù)測(cè)性能。
圖3 各模型預(yù)測(cè)值與實(shí)測(cè)值對(duì)比
為進(jìn)一步檢驗(yàn)?zāi)P偷念A(yù)測(cè)精度,開展定量評(píng)價(jià)。同樣采用均方根誤差σRMSE、平均絕對(duì)百分比誤差σMAPE、決定系數(shù)R2以及平均絕對(duì)誤差σMAE這4項(xiàng)指標(biāo),計(jì)算得到各模型的精度檢驗(yàn)值。6種模型實(shí)例應(yīng)用精度對(duì)比見表5。從表5可知:
表5 各模型實(shí)例應(yīng)用精度對(duì)比
(1)BP神經(jīng)網(wǎng)絡(luò)模型、SVM模型與MLP模型對(duì)應(yīng)的R2小于0,說明這3種模型整體預(yù)測(cè)性能較差,模型的擬合效果差于平均預(yù)測(cè)誤差,存在明顯的欠擬合。其本質(zhì)原因在于BP模型與MLP模型都是一種基于反向傳播算法的前饋神經(jīng)網(wǎng)絡(luò),受數(shù)據(jù)量不足、過擬合、局部最優(yōu)等問題的影響。因此在小樣本的數(shù)據(jù)情況下,預(yù)測(cè)效果較差;SVM模型在小樣本情況下,會(huì)因?qū)τ?xùn)練數(shù)據(jù)的過度擬合而失去泛化能力,需選擇合適的核函數(shù)和正則化參數(shù)來處理非線性和噪聲問題。
(2)XGBoost模型與樸素貝葉斯的預(yù)測(cè)性能也未達(dá)到理想效果。分析其原因在于XGBoost模型通過迭代構(gòu)建多棵樹擬合殘差,并使用正則化項(xiàng)控制過擬合。然而,在小樣本情況下,XGBoost模型難以找到合適的樹結(jié)構(gòu)和參數(shù),導(dǎo)致欠擬合或過擬合。此外,XGBoost模型也需要調(diào)整多個(gè)超參數(shù),如學(xué)習(xí)率、樹深度、子采樣比例等,這些超參數(shù)對(duì)結(jié)果影響較大,但在小樣本情況下難以通過交叉驗(yàn)證或貝葉斯優(yōu)化等方法進(jìn)行有效地選擇。同樣,樸素貝葉斯模型通過計(jì)算先驗(yàn)概率和似然概率來得到后驗(yàn)概率,并進(jìn)行分類或回歸預(yù)測(cè)。然而,在小樣本情況下,樸素貝葉斯模型可能遇到數(shù)據(jù)稀疏性問題,即某些特征值或類別在數(shù)據(jù)集中出現(xiàn)次數(shù)過少或?yàn)?,導(dǎo)致概率估計(jì)不準(zhǔn)確或?yàn)?。
(3)RF模型的擬合程度最高。原因在于RF模型可以利用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行樣本擴(kuò)充,從而增加數(shù)據(jù)的多樣性和穩(wěn)定性[15],使其能夠有效地處理高維小樣本數(shù)據(jù)的分類或回歸問題。
(4)對(duì)比6種模型,在小樣本的情況下,RF模型性能較為優(yōu)異,其次為XGBoost模型與樸素貝葉斯模型,BP神經(jīng)網(wǎng)絡(luò)模型、MLP模型與SVM模型表現(xiàn)較差。因此,針對(duì)今后類似的工程項(xiàng)目且樣本數(shù)據(jù)有限的情況下,建議優(yōu)先選用RF模型。
針對(duì)于強(qiáng)夯有效加固深度研究遠(yuǎn)落后于實(shí)踐的問題,本文提出采用機(jī)器學(xué)習(xí)的方式將部分強(qiáng)夯影響因素與強(qiáng)夯有效加固深度建立聯(lián)系,通過機(jī)器學(xué)習(xí)對(duì)多數(shù)據(jù)的快速分析和處理,解決預(yù)測(cè)強(qiáng)夯有效加固深度這類復(fù)雜的非線性問題,結(jié)論如下:
(1)借助于智能化的機(jī)器學(xué)習(xí)模型,可通過少量且簡(jiǎn)單的強(qiáng)夯數(shù)據(jù)預(yù)測(cè)強(qiáng)夯有效的加固深度,為工程應(yīng)用提供良好的參考建議。
(2)機(jī)器學(xué)習(xí)的訓(xùn)練精度取決于數(shù)據(jù)樣本的數(shù)量與質(zhì)量,本文所收集到的數(shù)據(jù)樣本較少,在一定程度上限制了部分模型的預(yù)測(cè)精度。在小樣本的情況下,RF模型性能較為優(yōu)異,其次為XGBoost模型與樸素貝葉斯模型,BP神經(jīng)網(wǎng)絡(luò)模型、MLP模型與SVM模型表現(xiàn)較差,建議在樣本數(shù)據(jù)有限的情況下,優(yōu)先選用RF模型。
(3)影響強(qiáng)夯有效加固深度的因素眾多,本文選用的訓(xùn)練樣本僅涉及干密度、含水量、夯擊能量、夯錘面積這4項(xiàng)因素,今后在實(shí)際工程應(yīng)用中可再細(xì)化影響因素,補(bǔ)充訓(xùn)練樣本,提升模型的實(shí)際適用性,進(jìn)一步提高模型的預(yù)測(cè)性能。