吳賢國,劉 茜,王洪濤,陳虹宇,高 飛,黃漢洋
(1.華中科技大學(xué)土木與水利工程學(xué)院,武漢 430074;2.中建三局集團(tuán)有限公司,武漢 430000; 3.南洋理工大學(xué)土木工程與環(huán)境學(xué)院,新加坡 639798;4.中建商品混凝土有限公司,武漢 430000)
抗?jié)B性是混凝土的主要性能之一,直接影響混凝土結(jié)構(gòu)的耐久性和使用壽命。在實(shí)際工程中,氯離子滲透及其對鋼筋的相對腐蝕是導(dǎo)致鋼筋混凝土基礎(chǔ)設(shè)施惡化的主要原因,而氯離子滲透對混凝土的損傷程度由混凝土的抗?jié)B性決定,因此,針對混凝土抗?jié)B性進(jìn)行研究具有重要的工程意義。
目前,眾多專家學(xué)者對混凝土抗?jié)B性進(jìn)行了深入研究,并取得了一些研究成果。張瑞穩(wěn)[1]基于正交試驗(yàn),研究了早齡期混凝土高溫作用后力學(xué)性能及抗?jié)B性的變化。王德志等[2]研究了氯鹽凍融作用下,不同粉煤灰摻量對混凝土抗?jié)B、抗凍性能的影響。寧逢偉等[3]通過微觀測試手段,分析了膨脹劑和硅灰改善C50噴射混凝土抗?jié)B性的機(jī)理。梁敏飛等[4]在材料試驗(yàn)和數(shù)值模擬的細(xì)觀模型基礎(chǔ)上,對混凝土的抗?jié)B性進(jìn)行了研究。張巖等[5]通過試驗(yàn)研究了水膠比對塑性混凝土的抗壓性能、變形性能和抗?jié)B性等主要性能的影響。Fan等[6]通過制備不同長徑比和鋼纖維含量的鋼筋來提高超高性能混凝土(UHPC)試件的強(qiáng)度,從而對UHPC抗?jié)B性進(jìn)行了研究。Liu等[7]通過添加納米SiO2等材料來研究其能否改善普通水泥-粉煤灰體系混凝土的抗?jié)B性。Xiao等[8]基于試驗(yàn)測試探討了納米SiO2對不同骨料級配混凝土微觀結(jié)構(gòu)和抗?jié)B性的改善效果。上述研究主要基于試驗(yàn)對混凝土抗?jié)B性進(jìn)行研究分析,不僅費(fèi)時(shí)費(fèi)力,而且由于混凝土抗?jié)B性試驗(yàn)研究中不確定性因素很多,測試數(shù)據(jù)存在離散性、隨機(jī)性和一定誤差,使得分析結(jié)果往往與實(shí)際工程之間存在偏差。
混凝土抗?jié)B性與許多影響因素相關(guān),要提高抗?jié)B性預(yù)測結(jié)果的準(zhǔn)確性,必須有效剔除不重要的冗余因素。為此,本文將隨機(jī)森林(RF)算法和支持向量機(jī)(SVM)結(jié)合,提出一種基于RF-SVM模型的混凝土抗?jié)B性預(yù)測模型。首先利用RF可以篩選關(guān)鍵指標(biāo)的特點(diǎn),結(jié)合向后剔除法對不重要指標(biāo)進(jìn)行剔除,得到混凝土抗?jié)B性預(yù)測的最優(yōu)指標(biāo)體系,然后在此基礎(chǔ)上構(gòu)建了基于SVM的混凝土抗?jié)B性預(yù)測模型,以實(shí)現(xiàn)對混凝土抗?jié)B性的精確預(yù)測。
隨機(jī)森林(RF)是CART樹和Bagging相結(jié)合形成的一種綜合算法,在2001年由Breiman提出,可以用于處理分類和回歸問題,廣泛用于預(yù)測和特征選擇等問題[9-10]。Bagging(Breiman 1996)是一種基于統(tǒng)計(jì)學(xué)中bootstrapping思想的綜合學(xué)習(xí)方法,在Bagging中,通過bootstrapping沒有被用于建立RF模型的數(shù)據(jù)稱為袋外數(shù)據(jù)(OBB)。假設(shè)數(shù)據(jù)量為b個(gè),特征變量有k個(gè),每個(gè)袋外數(shù)據(jù)的均方誤差依次為RMSE1,RMSE2,…,RMSEb,標(biāo)準(zhǔn)誤差為RSE,對每個(gè)特征變量進(jìn)行隨機(jī)置換得到新的袋外數(shù)據(jù)集,計(jì)算新的袋外數(shù)據(jù)集的均方誤差,重復(fù)進(jìn)行上述操作直到在袋外數(shù)據(jù)中對所有特征變量都進(jìn)行了置換,并得到了如下誤差矩陣A[11]:
A=(RMSE11…RMSE1b???RMSEk1…RMSEkb)
(1)
將RMSE1,RMSE2,…,RMSEb與誤差矩陣中的對應(yīng)行向量相減,取其平均值除以標(biāo)準(zhǔn)誤差RSE,從而得到特征變量的重要性評分Ui為:
Ui=[(∑bj=1RMSE-RMSEij)b]RSE, (1≤i≤k)
(2)
式中:j表示誤差矩陣A中向量的列數(shù)。
支持向量機(jī)(SVM)作為一種智能算法,能夠很好地學(xué)習(xí)輸入與輸出參數(shù)之間的關(guān)系[12]。對于非線性回歸問題,支持向量機(jī)可以引入一個(gè)非線性映射函數(shù)φ(x),它可以將一組非線性關(guān)系數(shù)據(jù)中的輸入輸出變量(xi,yi)一一映射到高維特征空間中,然后利用核函數(shù)在高維特征空間進(jìn)行線性回歸模型的建立,從而很好地解決非線性問題[13]。設(shè)定一組樣本集,假設(shè)樣本內(nèi)輸入因素(自變量)xi和輸出因素(因變量)yi呈線性函數(shù)關(guān)系,則回歸預(yù)測的輸出值f(x)的計(jì)算如式(3)所示:
f(x)=WTx+z
(3)
式中:WT為xi的權(quán)重系數(shù)向量;z為對xi賦予權(quán)重乘積后所發(fā)生的偏置數(shù);x為輸出變量。式(3)可轉(zhuǎn)化為二次規(guī)劃的優(yōu)化問題,表達(dá)式為:
min12||ω||2+C∑li=1(ξi+ξ*i)
(4)
式中:ξi和ξ*i為松弛變量;C為其懲罰系數(shù);ω為權(quán)重。當(dāng)核函數(shù)K(xi,xj)=φ(xi)·φ(xj)時(shí),在映射到高維特征后的優(yōu)化問題即變?yōu)閇14]:
min∑ni,j=1(αi-α*i)(αj-α*j)K(xi,xj)+ε∑ni=1(αi+α*i)-∑ni=1yi(αi-α*i)
(5)
s.t. {∑ni=1(αi-α*i)=0 0≤αi,α*i≤C
(6)
式中:αi和α*i為Lagrange乘數(shù);xj為輸出變量;ε為允許誤差。由此便可求解出非線性支持向量回歸機(jī)的函數(shù)表達(dá)式為:
f(x)=∑ni=1(αi-α*i)K(xi,xj)+z
(7)
為了快速有效地對混凝土抗?jié)B性進(jìn)行準(zhǔn)確預(yù)測,提出一種基于RF-SVM的混凝土抗?jié)B性預(yù)測模型。如圖1所示,該模型的建立主要分為兩個(gè)步驟:(1)基于RF的混凝土抗?jié)B性指標(biāo)篩選;(2)基于SVM的混凝土抗?jié)B性預(yù)測。利用RF對特征指標(biāo)進(jìn)行篩選后再進(jìn)行SVM的回歸預(yù)測,能夠提高決策的可靠性和有效性。
圖1 基于RF-SVM的混凝土抗?jié)B性預(yù)測模型Fig.1 Prediction model of impermeability of concrete based on RF-SVM
2.1.1 建立初始指標(biāo)體系
根據(jù)文獻(xiàn)分析和工程經(jīng)驗(yàn)總結(jié)[15-16],從混凝土原材料配合比層面考慮,選取水泥用量、減水劑用量、粉煤灰用量、針狀及片狀顆粒總含量、細(xì)集料用量、粗集料用量、硅灰用量、平均粒徑、含泥量、水膠比、堿含量、砂率和用水量等因素,以氯離子擴(kuò)散系數(shù)為評價(jià)混凝土抗?jié)B性的輸出指標(biāo),建立混凝土抗?jié)B性分析初始指標(biāo)體系。
2.1.2 混凝土抗?jié)B性指標(biāo)篩選
初始指標(biāo)體系直接用于建立預(yù)測模型容易導(dǎo)致過擬合,不一定能夠得到最好的預(yù)測精度,所以還要對初始指標(biāo)進(jìn)行剔除,篩選出用于預(yù)測模型建立的最優(yōu)指標(biāo)集。本文將RF算法與后向剔除法結(jié)合起來對初始特征指標(biāo)作出剔除篩選,通過對初始特征指標(biāo)篩選后,得到的最優(yōu)指標(biāo)組合將直接作為后文模型的輸入變量,以提高SVM建模的預(yù)測精度。
在基于初始指標(biāo)體系對特征指標(biāo)篩選剔除時(shí),首先要確定RF模型的兩個(gè)參數(shù)指標(biāo)mtry和Ntree的取值,mtry為決策樹進(jìn)行隨機(jī)特征分割的特征數(shù)量,一般取輸入特征指標(biāo)的1/3。Ntree為決策樹的棵數(shù),一般在大于500時(shí)即可得到穩(wěn)定的預(yù)測誤差。為了提高預(yù)測精度,本文采取交叉驗(yàn)證的方式進(jìn)行模型精度驗(yàn)證。
2.2.1 樣本采集及數(shù)據(jù)處理
將RF篩選結(jié)果作為SVM建模的指標(biāo)體系,基于此收集相關(guān)數(shù)據(jù)并整理后形成數(shù)據(jù)樣本集。在模型建立之前,為了消除不同特征指標(biāo)的數(shù)據(jù)因?yàn)榱烤V不同所帶來的影響,有必要對初始數(shù)據(jù)進(jìn)行歸一化預(yù)處理,以統(tǒng)一變量維度,降低模型的訓(xùn)練難度,防止模型精度下降或者網(wǎng)絡(luò)無法收斂。歸一化的方式有很多,如將數(shù)據(jù)歸一化到[0,1]或[-1,1]區(qū)間內(nèi),本文選擇把樣本輸入數(shù)據(jù)歸一化到區(qū)間[0,1]上,數(shù)據(jù)歸一化后的值計(jì)算表達(dá)式如下:
=xi-xminxmax-xmin
(8)
式中:xi表示輸入或者輸出數(shù)據(jù);xmax表示變換特征數(shù)據(jù)的最大值;xmin表示變換特征數(shù)據(jù)的最小值。
2.2.2 SVM模型參數(shù)選擇
核函數(shù)是將一組非線性關(guān)系的數(shù)據(jù)映射到高維特征空間中的關(guān)鍵,它對SVM的效能有很大的影響,因此有必要對核函數(shù)進(jìn)行合理的選擇。徑向基核函數(shù)(RBF)是目前SVM模型中最常用的核函數(shù),具有很好的抗干擾能力以及局部性,且適用于非線性問題,因此本文選擇SVM預(yù)測模型的核函數(shù)為RBF核函數(shù)F(x,xi),其表達(dá)式如下:
F(x,xi)=exp(-||x-xi||22δ2)
(9)
式中:xi為輸入變量;x為輸出變量;δ為函數(shù)的寬度參數(shù)。
為了防止SVM模型出現(xiàn)欠學(xué)習(xí)問題,同時(shí)保證模型良好的泛化能力,本文選擇網(wǎng)格搜索法對RBF核函數(shù)的懲罰系數(shù)C及核函數(shù)參數(shù)g進(jìn)行參數(shù)全局搜索,以得到全局最優(yōu)解,并在網(wǎng)格搜索法的基礎(chǔ)上,結(jié)合K折交叉驗(yàn)證方法,對所有可能的參數(shù)進(jìn)行驗(yàn)證,找出精度最高的模型所對應(yīng)的參數(shù),從而確定最終的優(yōu)選參數(shù)。
2.2.3 預(yù)測結(jié)果評價(jià)
為了對SVM預(yù)測模型的預(yù)測結(jié)果進(jìn)行有效評價(jià),同時(shí)引入均方誤差(RMSE)和擬合優(yōu)度(R2)兩個(gè)指標(biāo)對預(yù)測結(jié)果做出評價(jià),RMSE用來衡量預(yù)測值與實(shí)際值之間的偏差,而R2用于評估預(yù)測值與實(shí)際值之間的擬合程度。兩個(gè)評價(jià)指標(biāo)的計(jì)算公式如下:
RMSE=∑ni=1(yobs-ypred)2n
(10)
R2=1-∑ni=1(yobs-ypred)2∑ni=1(yobs-obs)2
(11)
式中:yobs表示實(shí)際值;ypred表示預(yù)測值;obs表示實(shí)際值的平均值;n表示數(shù)據(jù)集的個(gè)數(shù),即有n組預(yù)測值和實(shí)際值。
為了進(jìn)一步驗(yàn)證預(yù)測結(jié)果是否滿足工程實(shí)踐的要求,根據(jù)式(12)計(jì)算出預(yù)測值與實(shí)際值的相對誤差E。
E=|Y-SS|×100%
(12)
式中:S表示試驗(yàn)實(shí)際值;Y表示預(yù)測值,若平均相對誤差小于6%,則認(rèn)為滿足工程實(shí)踐的要求。
我國東北某高速公路項(xiàng)目位于高寒高鹽堿地區(qū),對混凝土抗?jié)B性要求較高。因此,本文以C50混凝土為研究對象研究混凝土抗?jié)B性,基于正交試驗(yàn)和現(xiàn)場抗氯離子滲透加速試驗(yàn),獲取混凝土配合各參數(shù)及氯離子滲透系數(shù)的數(shù)據(jù)樣本,其中氯離子滲透系數(shù)為28 d氯離子滲透系數(shù),一共收集了116組混凝土抗氯離子滲透試驗(yàn)數(shù)據(jù)作為樣本集,部分?jǐn)?shù)據(jù)如表1所示。
表1 混凝土抗氯離子滲透試驗(yàn)部分?jǐn)?shù)據(jù)Table 1 Partial experimental data of chloride ion permeation resistance of concrete
3.2.1 指標(biāo)重要性排序
根據(jù)2.1節(jié)所述,利用RF算法對混凝土抗?jié)B性初始特征指標(biāo)進(jìn)行重要性排序,結(jié)合后向剔除法對特征指標(biāo)進(jìn)行篩選,從而得到用于SVM建模的最優(yōu)指標(biāo)組合。通過在R語言軟件中,載入RF程序包,用于RF模型的構(gòu)建,對初始特征指標(biāo)進(jìn)行重要性評分,根據(jù)式(2)對表1中的數(shù)據(jù)進(jìn)行計(jì)算,可以得到各特征指標(biāo)的重要性排序結(jié)果,如圖2所示。由圖2可以看出,經(jīng)過計(jì)算重要性排在前兩位的特征指標(biāo)依次為水膠比、水泥用量,從工程實(shí)踐經(jīng)驗(yàn)來看,水膠比的變化對混凝土耐久性的影響最為明顯,而水泥用量跟水膠比存在很大的相關(guān)性,因此RF算法得到水膠比和水泥用量的重要性排在前面的結(jié)論合理。
圖2 指標(biāo)的重要性排序圖Fig.2 Importance ranking chart of indexes
圖3 不同特征指標(biāo)組合時(shí)RMSE變化趨勢圖Fig.3 RMSE change trend chart under different combination of characteristic indexes
3.2.2 關(guān)鍵指標(biāo)篩選
根據(jù)2.1節(jié)所述,確定RF模型的兩個(gè)參數(shù)指標(biāo)取值,mtry為4,Ntree為600,同時(shí)采取10折交叉驗(yàn)證來檢驗(yàn)?zāi)P偷木?。在重要性排序結(jié)果的基礎(chǔ)上進(jìn)行指標(biāo)后向剔除,得到不同特征指標(biāo)組合時(shí)均方誤差RMSE的變化趨勢,如圖3所示。
由圖3可以看出,整體上RSEM呈現(xiàn)出先下降后上升的趨勢,這說明了隨著一些不重要指標(biāo)被剔除后,模型的預(yù)測精度得到有效提高;當(dāng)特征指標(biāo)組合的個(gè)數(shù)達(dá)到某一值時(shí),再繼續(xù)對特征指標(biāo)進(jìn)行剔除時(shí)會導(dǎo)致模型預(yù)測精度下降,這說明進(jìn)一步剔除特征指標(biāo)會誤刪掉一些重要的特征指標(biāo)。當(dāng)特征指標(biāo)組合中的指標(biāo)個(gè)數(shù)為6時(shí),均方誤差值最小,模型精度最高。從整體上講,將RF算法與向后剔除法相結(jié)合對初始特征指標(biāo)作出剔除篩選,能夠有效剔除無關(guān)的特征指標(biāo),進(jìn)而提高模型的預(yù)測精度。結(jié)合圖2篩選出的最優(yōu)特征指標(biāo)集如表2所示。
表2 混凝土抗?jié)B性預(yù)測模型輸入及輸出指標(biāo)Table 2 Input and output indexes of prediction model for impermeability of concrete
3.3.1 樣本數(shù)據(jù)獲取與預(yù)處理
在3.2節(jié)指標(biāo)篩選結(jié)果的基礎(chǔ)上,確定SVM預(yù)測模型輸入特征指標(biāo)為水膠比、水泥用量、粉煤灰用量、細(xì)集料用量、粗集料用量、減水劑用量,將氯離子擴(kuò)散系數(shù)作為輸出指標(biāo),通過現(xiàn)場加速試驗(yàn),收集一共116組混凝土抗氯離子滲透試驗(yàn)數(shù)據(jù)作為樣本集,部分?jǐn)?shù)據(jù)見表1。對輸入和輸出特征指標(biāo)數(shù)據(jù)進(jìn)行歸一化處理,將全部樣本隨機(jī)抽取93組樣本構(gòu)成訓(xùn)練集以訓(xùn)練模型,為了檢驗(yàn)?zāi)P偷姆夯阅?,將余?3組樣本作為測試集來驗(yàn)證模型效果。
3.3.2 模型參數(shù)優(yōu)化
圖4 參數(shù)優(yōu)化結(jié)果3D視圖Fig.4 3D view of parameter optimization results
基于MATLAB平臺加載SVM工具箱,選擇網(wǎng)格搜索法結(jié)合5折交叉驗(yàn)證法(5-CV)對SVM模型的參數(shù)進(jìn)行選優(yōu)。將懲罰系數(shù)C的取值范圍設(shè)置在[2-8,28]之間,步距大小為每次將冪指數(shù)增加1的以2為底的冪指數(shù),懲罰系數(shù)C的取值即為2-8、2-7、…27、28,核函數(shù)參數(shù)g的取值范圍設(shè)置與懲罰系數(shù)C相同。參數(shù)優(yōu)化結(jié)果的3D視圖如圖4所示。由圖4可知,懲罰系數(shù)C的最優(yōu)值為5.278,核函數(shù)參數(shù)g的最優(yōu)值為0.574 35,此時(shí)均方誤差為0.000 300 18。說明懲罰系數(shù)C為5.278,核函數(shù)參數(shù)g為0.574 35時(shí),在5-CV驗(yàn)證后的均方誤差值最小。
3.3.3 預(yù)測結(jié)果評價(jià)
根據(jù)參數(shù)優(yōu)選結(jié)果建立混凝土抗?jié)B性預(yù)測模型,利用此模型分別對訓(xùn)練集和測試集進(jìn)行擬合和預(yù)測。圖5為混凝土抗?jié)B性預(yù)測模型對訓(xùn)練集數(shù)據(jù)的預(yù)測結(jié)果,從圖中可以看出,該模型通過對訓(xùn)練樣本的訓(xùn)練,擬合結(jié)果很好,說明該模型對輸入與輸出之間的決策規(guī)律進(jìn)行了充分學(xué)習(xí),其預(yù)測值與實(shí)際值之間誤差非常小。圖6為該訓(xùn)練模型對測試集樣本的預(yù)測結(jié)果,從圖中可以直觀地看出,混凝土抗?jié)B性SVM預(yù)測模型得到的預(yù)測值非常貼近實(shí)際值,預(yù)測效果很好。經(jīng)計(jì)算,訓(xùn)練集中實(shí)際值與預(yù)測值之間的均方誤差為0.000 3,擬合優(yōu)度為0.998,測試集中實(shí)際值與預(yù)測值之間的均方誤差為0.000 4,擬合優(yōu)度為0.996。均方誤差越接近于0,擬合優(yōu)度越接近于1,表示預(yù)測效果越好,可以說明該模型對混凝土抗?jié)B性的預(yù)測效果良好,且具有較好的泛化能力。
為了進(jìn)一步驗(yàn)證預(yù)測結(jié)果是否滿足工程實(shí)踐的要求,根據(jù)公式(12)計(jì)算測試集的預(yù)測值與實(shí)際值的相對誤差。計(jì)算得到測試集中最大相對誤差為4.60%,最小相對誤差為0.03%,平均相對誤差為1.107%,在6%以內(nèi),可以滿足工程實(shí)踐中對誤差的要求。
圖5 抗氯離子滲透模型訓(xùn)練集預(yù)測結(jié)果對比Fig.5 Comparison of prediction results of training set of chloride ion permeation resistance model
圖6 抗氯離子滲透模型測試集預(yù)測結(jié)果對比Fig.6 Comparison of prediction results of testing set of chloride ion permeation resistance model
(1)本文建立了一種基于RF-SVM的混凝土抗?jié)B性預(yù)測模型,該模型首先利用RF算法對混凝土抗?jié)B性的多個(gè)影響因素進(jìn)行指標(biāo)篩選,得到最優(yōu)指標(biāo)集作為SVM模型的輸入指標(biāo),從而剔除了冗余指標(biāo),提高了混凝土抗?jié)B性預(yù)測模型的預(yù)測精度。
(2)以東北某高速公路項(xiàng)目為背景,基于RF算法進(jìn)行混凝土抗?jié)B性指標(biāo)篩選,剔除冗余指標(biāo)后得到的最優(yōu)指標(biāo)集包括水膠比、水泥用量、粗集料用量、細(xì)集料用量、減水劑用量和粉煤灰用量,為基于SVM模型的混凝土抗?jié)B性高精度預(yù)測提供了條件。
(3)通過現(xiàn)場混凝土抗氯離子滲透試驗(yàn)獲取樣本數(shù)據(jù),將氯離子擴(kuò)散系數(shù)作為抗?jié)B性評價(jià)指標(biāo),在最優(yōu)指標(biāo)集的基礎(chǔ)上建立了混凝土抗?jié)B性預(yù)測模型。預(yù)測結(jié)果的最大相對誤差為4.60%,最小相對誤差為0.03%,平均相對誤差為1.107%,預(yù)測結(jié)果精度較高且滿足工程實(shí)踐的要求,說明該預(yù)測模型具有不錯(cuò)的泛化性能,驗(yàn)證了RF-SVM模型在混凝土抗?jié)B性預(yù)測中的可行性及有效性。