何 軍,林廣東,申小軍,徐龍飛,裴莉莉,余 婷
1(中交隧道工程局有限公司,北京 100102)
2(中交一公局集團有限公司,北京 100020)
3(長安大學 公路學院,西安 710064)
4(長安大學 信息工程學院,西安 710064)
隧道在建設(shè)中往往伴隨著地質(zhì)復雜,工程量大,建設(shè)條件惡劣等因素的影響,并且在山體結(jié)構(gòu)中時常分布有裂隙發(fā)育較嚴重風化巖體,這導致隧道施工過程中不可避免地會造成地表沉降,甚至可能會導致地面沉陷、建筑物開裂及管線破壞等情況的發(fā)生[1,2]. 因此對隧道沉降的變化規(guī)律進行科學分析與處理,對最終沉降量做出準確的預測,具有十分重要理論意義與實際應用價值[3,4].
近年來,國內(nèi)外學者對隧道沉降量的分析及預測進行了大量的研究并取得了一定的成果[5,6]. 曾學宏等[7]使用BP (backpropagation)神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡(long short term memory network,LSTM)兩種網(wǎng)絡模型獨立對實際工程中獲取到的兩組地鐵隧道數(shù)據(jù)進行了分析研究,并對兩種模型的預測精準度進行了對比.針對地表沉降的預測,趙振華等[8]采用回歸分析法,使用Peck 公式得到了較好的地表沉降預測. 他們建立的BP 神經(jīng)網(wǎng)絡地表沉降預測模型,同樣獲得了較為理想的預測結(jié)果. 潘愷等[9]提出了動態(tài)灰色時序神經(jīng)網(wǎng)絡組合模型. 對于南京二號線的地鐵沉降數(shù)據(jù),利用3 種算法的組合對其進行分析預測,并對比了其與動態(tài)灰色模型和動態(tài)灰色時序模型的預測精準度. 李偉等[10]提出一種Adaboost.RT 算法集成多種不同基學習模型的隧道預測方法. 針對非線性回歸問題且研究對象是交通隧道沉降的隨機性強的小樣本數(shù)據(jù),可以使用Adaboost算法得到強學習模型,以此得到較優(yōu)的預測精度. 姚凱等[11]利用廣義回歸神經(jīng)網(wǎng)絡參數(shù)少、使用簡單的特點,結(jié)合FOA 算法預測隧道圍巖變形. 明祖濤等[12]分別用規(guī)范雙曲線、修正雙曲線、三點法、Asaoka 法和GM(1,1)模型,結(jié)合某高速鐵路橋隧的沉降觀測數(shù)據(jù),對各模型在鐵路橋隧的準確性、適用性進行了分析. 畢旋旋等[13]使用了小波分析理論對所得到的隧道沉降數(shù)據(jù)序列進行分解重構(gòu)得到高頻分量和低頻分量,進而分別構(gòu)建ARIMA 模型進行預測,最后疊加預測結(jié)果得到最終的沉降值. 莫云等[14]發(fā)現(xiàn)武漢市軌道交通二號線第24 標段的監(jiān)測數(shù)據(jù)滿足Logistic 曲線,故運用Logistic 時間函數(shù)模型對隧道“發(fā)生”“劇變”“平穩(wěn)”的過程進行描述.
基于以上研究,可以發(fā)現(xiàn)已有一些基于機器學習的方法對沉降進行預測,然而以上模型在時間序列規(guī)律性的考慮上還有所欠缺,同時在數(shù)據(jù)預處理方面未能結(jié)合多源數(shù)據(jù)表中的時空域信息進行修復,大多是對異常數(shù)據(jù)直接進行刪除. 因此本文首先對采集到原始沉降監(jiān)測數(shù)據(jù)通過融合多源異構(gòu)數(shù)據(jù)表中的時空信息對缺失及異常數(shù)據(jù)修復,然后采用貝葉斯算法優(yōu)化在眾多項目表現(xiàn)較優(yōu)的XGBoost 集成模型[15,16]對隧道拱頂沉降、地表沉降和周邊收斂數(shù)據(jù)進行演變分析及預測,最后與原始XGBoost 集成模型和常用于時序序列預測的LSTM 時間序列模型進行對比,以證明本文提出的最優(yōu)沉降量預測模型的有效性,從而對隧道沉降變化進行科學的監(jiān)測與預測. 整體實驗流程如圖1.
圖1 整體研究路線
(1)工程概況
以沙嶺壕隧道、十里坡隧道、中坪隧道以及白家莊隧道的實際工程量測沉降統(tǒng)計數(shù)據(jù)為依托,分別對隧道拱頂沉降、地表沉降、周邊收斂進行分析,具體隧道信息如下:
1)沙嶺壕隧道: 沙嶺壕隧道為鄭西高速欒雙段在建分離式隧道,該隧道位于河南省南陽市西峽縣,隧道施工區(qū)域穿越淺埋段5 條,地質(zhì)構(gòu)造復雜,隧道內(nèi)突水涌砂情況頻發(fā),存在6 處溢出泉和流塑粉砂層,圍巖通常情況下基本上是Ⅳ、V 級圍巖,在實際的施工中會遇到反坡涌水、圍巖破碎、地形條件復雜等困難,施工難度大,安全風險高. 隧道左線樁號ZK102+290–ZK103+609,全長1 319 m; 右線樁號K102+228–K103+438,全長1 210 m.
2)十里坡隧道: 十里坡隧道為鄭西高速欒雙段在建分離式隧道,該隧道位于河南省南陽市西峽縣,隧道左線樁號ZK109+840–ZK110+094,全長254 m; 右線樁號K109+733–K109+994,全長261 m.
3)中坪隧道: 中坪隧道是鄭西高速欒雙段在建分離式隧道,該隧道位于河南省南陽市西峽縣,位于兩河口附近,隧道緊鄰311 國道,爆破作業(yè)安全等級要求高.隧道左線樁號ZK108+702–ZK109+159,全長457 m;右線樁號K108+612–K109+115,全長503 m.
4)白家莊隧道: 白家莊隧道為鄭西高速欒雙段在建分離式隧道,該隧道位于河南省南陽市西峽縣,隧道左線樁號ZK104+214–ZK105+526,全長1 312 m; 右線樁號K104+116–K105+416,全長1 300 m.
(2)原始數(shù)據(jù)分析
本文選擇上述4 段隧道為試驗對象. 每段隧道選取左右兩個部分,每個部分又具體的分為地表、拱頂及周邊監(jiān)測位置,這里以白家莊隧道部分采集數(shù)據(jù)為樣例,見表1.
表1 白家莊隧道部分原始數(shù)據(jù)
從原始數(shù)據(jù)可知: 前15 次測量是每天不間斷測量,從第16 次之后,測量周期改為每兩天測一次. 對于不同空間信息的監(jiān)測點,時間采樣信息也不一致,存在時空尺度不對齊的問題. 同時研究表中沉降監(jiān)測量演變規(guī)律可以發(fā)現(xiàn),監(jiān)測初期,隧道每天的累計沉降量都在增加,但增加速率逐漸放緩; 在進行20 次左右的測量即25 天左右后,隧道沉降趨于收斂,僅有微小變化量;在50 天之后的沉降測量值基本不再發(fā)生變化,保持穩(wěn)定. 整體符合“發(fā)生”“劇變”“平穩(wěn)”的變化過程.
(1)時空尺度對齊
由于不同空間位置的沉降監(jiān)測的采樣間隔不同,首先需要對時間序列數(shù)據(jù)進行尺度統(tǒng)一. 在這里,采用平均插值算法對原始數(shù)據(jù)中第17–21 期間隔為2 天的采樣數(shù)據(jù)進行插值,得到采樣間隔為1 天的共26 期沉降監(jiān)測數(shù)據(jù). 同時將采樣間隔時間較長的長期穩(wěn)定不變化的數(shù)據(jù)去掉.
(2)數(shù)據(jù)修復
同時數(shù)據(jù)中存在一些異常和缺失的情況,需要首先對原始數(shù)據(jù)進行修復,以減少異常和缺失數(shù)據(jù)對沉降預測精度的影響,同時避免因數(shù)據(jù)異常導致程序卡頓等問題. 對于孤立點異常和數(shù)據(jù)中部缺失(即頭尾有合理數(shù)據(jù))的監(jiān)測數(shù)據(jù),采用長短時記憶網(wǎng)絡對孤立點異常數(shù)據(jù)及中間的缺失數(shù)據(jù)進行修復; 對于其他異常情況和大量數(shù)據(jù)缺失(后期數(shù)據(jù)連續(xù)缺失)的情況直接對其進行刪除.
根據(jù)修復后的K106-405 樁號的監(jiān)測數(shù)據(jù),分別繪制了該樁號對應的拱頂、地表和周邊收斂的沉降量變化速率、沉降量累計變化值、沉降量累計變化回歸曲線,如圖2 所示. 總體來說,隧道3 個不同位置的變化趨勢基本一致,在25 天后就趨于平穩(wěn).
圖2 沉降量3 項參數(shù)變化
XGBoost 模型基于回歸決策樹,通過固定第一顆回歸樹經(jīng)過第一輪迭代已學習的數(shù)據(jù)特征,增加新的回歸樹以彌補誤差提升精度,前t個集成的模型產(chǎn)生的誤差數(shù)據(jù),會被第t+1 棵樹作為建立時的參考. 即將多個回歸樹前一個輸出與后一棵樹的輸入連接起來(串聯(lián)),以此,隨著回歸樹的不斷加入,損失函數(shù)Obj小于期望閾值,如式(1).
其中,l(yi,)為原始數(shù)據(jù)中指標樣本xi的訓練誤差,?(fk)表示第k顆樹的某種范數(shù)約束,這里可取L1 范數(shù)或L2范數(shù)來實現(xiàn)正則化約束過程; 其中,回歸樹的每片葉子都可以產(chǎn)生一個預測結(jié)果,通常情況下,將該片葉子擁有的訓練集元素的輸出進行累加,然后求均值作為最終輸出; 則XGBoost 模型見式(2).
其中,k是回歸樹的總量,fk是第k棵回歸樹,也是樣本xi的最終預測值.
整個算法的過程如下: 首先進行初始化,然后把第1 棵樹加入預測模型中,接著把第2 棵樹加入預測模型中,以此類推,直至把第t棵樹加入預測模型中:
訓練模型的復雜度見式(5):
其中,q(x)是樣本x在樹中的位置,w是樹葉的得分值,T是該樹葉子結(jié)點的數(shù)目,復雜度也可以表示為式(6).
其中,γ表示葉子個數(shù),w2j表示w的L2 模平方.
機器學習算法中每種模型都具有多個超參數(shù),超參數(shù)的設(shè)置和組合對模型最終的預測效果有很大影響.例如層數(shù)太多導致梯度消失無法訓練,或者學習率過大可能導致收斂效果差,過小又可能收斂速度過慢. 調(diào)參過程是模型優(yōu)化的重要思路,由于本文初始樣本點有限,不適用于遺傳算法和PSO 這些群體優(yōu)化算法,同時網(wǎng)格搜索算法因為要遍歷參數(shù)的所有組合因此優(yōu)化效率也不高. 采用貝葉斯算法對XGBoost 的超參數(shù)進行優(yōu)化可以在樣本點有限的情況下大大提升調(diào)參效率,可以根據(jù)當前已經(jīng)試驗的超參數(shù)組合來預測下一個可能帶來最大收益的組合.
貝葉斯優(yōu)化框架有兩個關(guān)鍵部分: ① 使用概率模型代理原始評估代價高昂的復雜目標函數(shù); ② 利用代理模型的后驗信息構(gòu)造主動選擇策略,即收益函數(shù). 假設(shè)超參數(shù)優(yōu)化的函數(shù)f(x)服從高斯過程,根據(jù)已有的N組試驗的輸入輸出{x,f(x)},計算f(x)的后驗分布p(f(x)|x)來估計f(x).
其中,p(f(x))是先驗概率;p(x|f(x))是樣本x相對于函數(shù)f(x)的條件概率;p(x)是用于歸一化的證據(jù)因子. 即利用高斯隨機過程,使用貝葉斯定義,將假設(shè)的先驗概率分布轉(zhuǎn)換為后驗分布. 后驗概率分布描述通過已觀測數(shù)據(jù)集對先驗進行修正后未知目標函數(shù)的置信度.
為了使得后驗分布接近其真實分布,就需要樣本空間進行足夠多的采樣. 但是超參數(shù)優(yōu)化中每一個樣本的生成成本很高,需要用盡可能少的樣本使得p(f(x)|x)接近于真實分布. 因此需要定義一個收益函數(shù)來判斷一個樣本能否給建模提供更多的收益,收益越大,其修正的高斯過程會越接近目標函數(shù)的真實分布. 常用的收益函數(shù)有改善概率(PI)、期望改善函數(shù)(EI)、高斯過程置信上界(GP-UCB)等. 收益函數(shù)將在新的區(qū)域和局部最優(yōu)解附近尋求全局最優(yōu)解,優(yōu)化目標則是在全集A中尋找使f(x)值達到最大或最小的x集合,如式(8)所示:
本文使用R2和MAE分別作為評價模型的精確度指標和誤差度指標,計算公式如式(9)和式(10).
其中,yi表示原始回歸值,表示原始回歸值的平均,表示預測回歸值,n為待測數(shù)據(jù)總數(shù).
R2(R-square)決定系數(shù)用于衡量原始回歸值和預測回歸值的相關(guān)性,該值越接近1 代表模型擬合效果越好,模型越優(yōu)秀.
MAE(mean absolute error)平均絕對誤差反映原始回歸值和預測回歸值的真實誤差,該值越接近0,表明預測結(jié)果與真實情況平均絕對誤差越小,模型預測結(jié)果越好.
不同類(精度類、誤差類等)評價指標之間沒有明確的精度越高誤差越小的說法,例如R2一般會隨著樣本數(shù)量的增加而增加,不能絕對意義上說明準確程度.同理,誤差類評價指標受某些異常值影響變化明顯,只能從不同角度大概定量反映預測值與真實值之間的誤差. 因此需要結(jié)合不同類指標來綜合評估模型優(yōu)劣.
本文利用十里坡+沙嶺壕+中坪隧道共732 條數(shù)據(jù)來訓練模型,取200 條白家莊隧道數(shù)據(jù)用于測試模型精度,通過指標計算進行對比分析,得到基于貝葉斯優(yōu)化XGBoost 最優(yōu)模型的參數(shù)設(shè)置,如表2 所示. 同時最優(yōu)模型的訓練集和測試集在不同監(jiān)測點的真實值和預測值的對比效果如圖3 所示.
表2 最優(yōu)參數(shù)組
圖3 中黑色曲線為隧道沉降監(jiān)測真實值,灰色曲線為貝葉斯優(yōu)化XGBoost 模型的預測結(jié)果,從圖中可以發(fā)現(xiàn),兩條曲線重合度較高,這表明在不同的沉降監(jiān)測點,貝葉斯優(yōu)化的XGBoost 沉降預測模型的曲線趨勢能夠與隧道監(jiān)測數(shù)據(jù)的周邊收斂、地表沉降和拱頂沉降真實數(shù)據(jù)高精度吻合,預測誤差較小.
圖3 最優(yōu)模型訓練及測試結(jié)果
訓練時序預測較優(yōu)的LSTM 模型[17,18]和原始XGBoost 模型與貝葉斯優(yōu)化的XGBoost 模型進行對比驗證,預測結(jié)果由表3 可得: 總體來說基于貝葉斯優(yōu)化的XGBoost 模型對隧道3 種不同位置的沉降預測效果最好,平均精度最高,達到0.979 4. 同時由圖4 可得優(yōu)化的XGBoost 模型對拱頂沉降,地表沉降和周邊收斂的預測效果均要優(yōu)于LSTM. LSTM 在對拱頂沉降和周邊收斂的預測中精度達到0.9 以上,對地表沉降的預測效果偏低. 綜上,在實際的隧道施工監(jiān)測工程中,建立基于貝葉斯優(yōu)化的XGBoost 隧道沉降模型能更好地掌握隧道沉降變化規(guī)律,服務隧道施工工程要求.
圖4 不同方法預測結(jié)果對比
表3 不同方法預測結(jié)果對比
通過對實體工程隧道沉降監(jiān)測數(shù)據(jù)進行整理,對其中的拱頂沉降、周邊收斂及地表沉降分別進行預測,主要有以下結(jié)論.
(1)采用平均插值方法對時空尺度不對齊的監(jiān)測數(shù)據(jù)進行尺度對齊,對于孤立點異常和部分缺失監(jiān)測數(shù)據(jù),融合時間空間信息采用長短時記憶網(wǎng)絡對其進行修復,大大提高后期沉降預測的準確性和程序可執(zhí)行性.
(2)以沙嶺壕隧道、十里坡隧道、中坪隧道以及白家莊隧道的監(jiān)測點實測數(shù)據(jù)為樣本建立貝葉斯優(yōu)化的XGBoost 模型,分析結(jié)果表明在不同位置的沉降預測中貝葉斯優(yōu)化的XGBoost 模型表現(xiàn)均優(yōu)于LSTM和原始XGBoost 模型,精度可以達到0.979 4,能夠達到工程監(jiān)測要求.
在未來的研究中,可以將重點轉(zhuǎn)向隧道使用過程中的沉降變化量監(jiān)測,檢測和采集更多指標數(shù)據(jù)構(gòu)建隧道使用過程中各項指標的演變模型.