李 偉,嚴 珂,陸慧娟,葉敏超
(中國計量大學 信息工程學院,浙江 杭州 310018)
隧道沉降問題不僅影響著城市軌道交通的發(fā)展,同時對城市居民的生命財產(chǎn)安全都有極大的威脅,因而對隧道沉降的預測研究一直備受關注。國內外學者對隧道的沉降預測進行了大量的研究,研究方法大致可以分為兩類:理論計算經(jīng)驗法和實測數(shù)據(jù)分析法[1]。理論計算經(jīng)驗法以Peck經(jīng)驗公式法為代表,包括數(shù)值分析法、數(shù)值模擬法、半理論解析法和隨機理論模型等。如:WU等提出的基于正態(tài)分布函數(shù)的盾構隧道地下沉降計算方法[2]。ISLAM和GNANENDRAN提出的粘土彈性-粘塑性模型(EVP)對高嶺粘土、香港海洋沉積物粘土和Fukakusa粘土進行了諸多實驗研究[3],均取得了良好的預測效果。ZHU和LI提出一種新的GP模型準確地表達了沉降槽中VL和最大SS的關系,有效地對隧道沉降進行了預測[1]。LI[4]等人使用理論結論法和實驗分析法研究了循環(huán)荷載作用下軟土地基超載預壓低路堤沉降,提出了軟土路堤在循環(huán)荷載作用下沉降的計算公式。GUO[5]等人從時間與沉降的關系入手,從數(shù)學上證明了適用于建筑和路堤工程的線性荷載作用下的沉降曲線為“S”形,在此基礎上,提出了一種新的沉降預測模型——Poison模型,對建筑和路基沉降進行了有效的預測研究。
實測數(shù)據(jù)分析法分為基于統(tǒng)計學的方法和機器學習方法,尤其是機器學習的研究應用,為解決隧道沉降預測問題提供了許多新的解決思路。如:龍熙華等人分析了地鐵隧道沉降因素并結合BP神經(jīng)網(wǎng)絡提出ANP-BP模型對西安地鐵隧道進行了精準預測[6];OCAK等針對EPBM(earth pressure balance machines)隧道地表沉降,采用SVM進行沉降預測[7],試驗結果證明,SVM具有較高的適用性;AZADI和POURAKBAR等提出使用有限元法對隧道周邊的建筑進行沉降研究,然后使用神經(jīng)網(wǎng)絡對各種沉降情況進行分析,最終得出對隧道沉降的預測結論[8];MOGHADDASI等使用了ICA優(yōu)化的ANN算法對隧道沉降進行了預測研究[9]。
理論計算經(jīng)驗法的有效性取決于土體模型的合理性和土體參數(shù)的獲取方法,所以理論計算經(jīng)驗法的泛化性較差;而實測數(shù)據(jù)分析法的有效性取決于大量的樣本數(shù)據(jù),因而泛化性較好,但是因為使用單一的模型,所以對復雜的非線性回歸問題預測精度不高。
時間序列是指系統(tǒng)中某一變量的觀測值按時間順序排序成一個序列[10],它是受系統(tǒng)中其它各種因素影響的總結果。通過對此序列的研究,可分析出事物的變化特征和發(fā)展趨勢、規(guī)律。時間序列現(xiàn)已被廣泛應用于許多方面,如工程中隧道沉降,經(jīng)濟領域中的金融股票等。
本文研究數(shù)據(jù)即為單維時間序列數(shù)據(jù),所以鑒于樣本數(shù)據(jù)為隨機性極強的單維時間序列,同時研究的問題是復雜的非線性回歸問題,因而本文提出使用Adaboost.RT算法集成多種學習模型的方法對隧道沉降進行預測研究。
集成學習理論基礎源于KEARNS和VALIANT提出的可學習性(Probably approximately correct, PAC)學習模型[11]。其主要思想是訓練若干學習器后,使用一定的策略將學習器結合得到一個比任意單個學習器效果更好的強學習器。
Bagging和Boosting是目前使用最多的兩種集成學習算法,二者都已有許多成功的應用。然而BAUER等人的研究表明在整體模型中作為Boosting家族最具代表性的Adaboost算法效果普遍優(yōu)于Bagging算法[12]。因而本文選用Adaboost作為提升算法。
AdaBoost是一種迭代提升算法,其核心思想是:根據(jù)隨迭代次數(shù)不斷更新的學習樣本權重確定一個由不同弱學習器構成的強學習器。最初所有訓練樣本的權重被賦予相等值,隨著訓練迭代樣本權重不斷的更新,預測誤差大的樣本權重將增加,這樣便加大了弱學習器對難以預測樣本的關注以實現(xiàn)更高精度的預測。最后根據(jù)樣本權重、預測誤差等將弱學習器加權整合得到唯一的強學習器模型。
最初的Adaboost算法被用來解決分類問題,如Adaboost.M1和Adaboost.M2[13]算法。后來Adaboost被應用到解決回歸問題,便出現(xiàn)了Adaboost.R,Adaboost.R2[14-15]和Adaboost.RT[16]算法。
Adaboost.RT算法是SOLOMATINE和SHRESTHA[16]在Adaboost.R和Adaboost.R2等Adaboost回歸算法的基礎上做出的改進算法,他們在Adaboost算法中引入了一個閾值,通過對訓練誤差和閾值的比較將訓練集分成好壞兩類,從而將回歸問題轉化為簡單的二分類問題。Adaboost.RT算法已被廣泛應用于諸多工業(yè)和經(jīng)濟領域回歸問題。
Adaboost.RT算法流程如下:
第一步 輸入,一組訓練樣本集W={(x1,y1),(x2,y2),…,(xm,ym)},弱學習器;
第三步 訓練,對于t=1到T進行迭代,
依據(jù)權值分布Dt對原始訓練集經(jīng)行采樣,并使用采樣樣本數(shù)據(jù)訓練弱學習器,
第四步 輸出最終的強預測器:
為獲取泛化性能強的集成強學習模型,集成中的弱學習器應盡可能相互獨立,但在實際任務中無法做到。大多數(shù)研究者們都是選用相同的基學習模型并使用不同的訓練樣本訓練以得到不同的弱學習器。本文選擇使用不同的基學習模型作為弱學習器來得到一個泛化性強的強學習模型。然而,因為研究的隧道工程數(shù)據(jù)量較少,是一個小樣本數(shù)據(jù),所以需要適合處理小樣本數(shù)據(jù)的模型;同時考慮到模型的訓練會花費不少的時間,因而選擇了三種不同的學習能力強且適合處理小樣本數(shù)據(jù)的基學習模型——SVR,BP,ELM作為基學習器。
SVR從SVM支持向量機發(fā)展而來[17],具有很強的泛化能力,可以較好地解決小樣本、過學習、高維度以及局部最小等問題;BP神經(jīng)網(wǎng)絡[18]具有較強的自適應性、自組織性、自學習性和非線性映射能力。它克服了傳統(tǒng)反饋方法的不足,近年來得到了越來越廣泛的應用。ELM極限學習機[19]較傳統(tǒng)的梯度下降算法具有更快的收斂速度和較高的預測精度,并易于獲取全局最優(yōu)。
本文使用Adaboost.RT算法訓練三種學習模型得到不同弱學習器,然后加權獲得最終的強學習器。Adaboost.RT集成三種不同基學習器的算法描述。
算法1:Adaboost.RT集成三種基學習模型
輸入:訓練集X={(x1,x2,x3,y1),(x2,x3,x4,y2),…,(xm,xm+1,xm+2,ym)};
三種基學習模型L1,L2,L3.
迭代次數(shù)T=3.
閾值φ,樣本權重Dt
過程:
2)fort=1,2,Tdo;
3)依據(jù)樣本權重Dt劃分訓練集,訓練基學習器Lt:ft(x)=Lt(X,Dt)→y,
7)end;
在Adaboost.RT算法中閾值的選取對算法的效果具有很大的影響,然而目前并沒有一種確切可靠的閾值自動選擇算法,所以本文采用手動調整閾值的方式,重復不斷地調整閾值。
本文數(shù)據(jù)來源于隧道工程實際采集的時間序列數(shù)據(jù),工程項目為珠海市2015—2016年交通隧道上方采集的地表沉降數(shù)據(jù)。數(shù)據(jù)為工程每個采集點按時間順序依次記錄的地表沉降數(shù)值,所以是單維的時間序列數(shù)據(jù)。實驗隨機選取部分(采集點序號:180~250)實測數(shù)據(jù)進行預測研究。
因為樣本數(shù)據(jù)為一維時間序列,存在樣本維度過低問題,所以本文使用灰色理論中的等維新息方法[20]將原單維數(shù)據(jù)拓展成多維數(shù)據(jù)。經(jīng)多次實驗驗證,取歷史數(shù)據(jù)數(shù)為3,即每次使用前三個歷史點預測第四個點,這樣原本單維樣本數(shù)據(jù)便拓展成為三維樣本數(shù)據(jù),以此解決維度過低問題。
實驗選取珠海軌道交通工程采集點數(shù)據(jù)進行仿真,通過多次訓練調整閾值,得到最終的實驗結果。實驗擬合如圖1。
圖1 預測擬合曲線Figure 1 Prediction fitting curve
選取回歸模型通用的3個評價標準對各個方法的性能進行評價,RMSE(Root mean squared error)均方根誤差,MAE(Mean absolute error)平均絕對誤差,MAPE(mean absolute percent error)平均絕對百分比誤差。各評價指標計算公式如下:
(1)
(2)
(3)
各個方法性能指標結果如表1。
表1 Adaboost集成多模型算法和SVR、BP network以及ELM性能比較Table 1 Performance comparison of Adaboost integrating multiple method algorithm with SVR,BP network and ELM
本文同時做了與Adaboost.RT算法集成單一模型方法的對比實驗。為與所提的方法保持一致,且在實驗中發(fā)現(xiàn)增加集成的模型數(shù)量,最終的強學習器預測效果沒有明顯的提升,所以對比實驗中亦選擇訓練三個弱學習器模型得到最終的強學習器,每個方法預測性能結果如表2。
表2 Adaboost集成多模型方法與Adaboost集成SVR、Adaboost集成BP network、Adaboost集成ELM方法性能比較Table 2 Performance comparison of Adaboost integrating multiple models method with Adaboost integrating SVR methodl, Adaboost integrating BP network method and Adaboost integrating ELM method
圖1是Adaboost.RT集成三種模型預測結果與三種模型各自的預測結果擬合曲線,從圖中可以明顯的看出,Adaboost.RT集成多種模型的方法在預測精度上有較為明顯的提升;表1是各種方法預測性能數(shù)據(jù)對比,無論是RMSE、MAE還是MAPE,均是Adaboost.RT集成多學習模型的方法表現(xiàn)最好,魯棒性最強。
為繼續(xù)驗證基于Adaboost.RT集成多模型算法對隧道沉降時間序列的預測效果,本文同時做了與Adaboost.RT集成SVR、Adaboost.RT集成BP和Adaboost.RT集成ELM方法的對比分析。從表2可以看出在預測精度和泛化性上,使用Adaboost.RT集成多學習模型比使用Adaboost.RT算法集成任意單一模型方法表現(xiàn)都要好。所以,我們得出使用Adaboost.RT算法集成多學習模型的方法可以有效地應用于隧道沉降時間序列地預測中。
針對目前隧道沉降預測單一模型或統(tǒng)計方法預測精度較低、泛化性差等問題,本文提出使用Adaboost提升算法訓練提升不同的弱學習模型,加權后得到一個強學習模型。仿真實驗結果表明,本文使用Adaboost.RT集成訓練多種弱學習器而得到的強學習器模型,在對隧道沉降的預測研究中不論是預測精度還是泛化性上都要優(yōu)于任意單一的學習預測模型。所以此方法可以有效的應用于實際工程中對隧道沉降的預測研究。后續(xù)工作可從Adaboost集成何種基學習模型或改進Adaboost算法等方面進行研究。