黃 思 嵐,楊 杰,屈 旭 東
(1.西安理工大學(xué) 水利水電學(xué)院,陜西 西安 710048; 2.西安理工大學(xué) 西北旱區(qū)生態(tài)水利工程國家重點(diǎn)實(shí)驗(yàn)室培育基地,陜西 西安 710048)
對混凝土壩變形監(jiān)測數(shù)據(jù)進(jìn)行分析是壩體及壩基安全性態(tài)評價的重要內(nèi)容[1-2],而通過各種數(shù)學(xué)、力學(xué)、有限元等方法對監(jiān)測數(shù)據(jù)建立監(jiān)測模型是了解大壩安全的重要定量分析方法。目前,應(yīng)用較多的混凝土壩安全監(jiān)測模型有統(tǒng)計模型、確定性模型、混合型模型和組合模型等[3],不同的模型具有不同的優(yōu)缺點(diǎn)[4-6],有的具有較強(qiáng)的非線性擬合能力[7],有的具有自學(xué)習(xí)能力[8]。但多數(shù)監(jiān)測模型對監(jiān)測數(shù)據(jù)在完整性、代表性、有效性等方面的要求較高,對于非穩(wěn)定性數(shù)據(jù)序列則常會表現(xiàn)出模型預(yù)測精度不高、泛化性較差、受訓(xùn)練樣本分布影響較大問題,影響了模型的可靠性和實(shí)用性。因此,如何合理選取影響大壩變形的影響因子,并對其監(jiān)測數(shù)據(jù)進(jìn)行預(yù)處理,從而保證數(shù)據(jù)的可靠性,最終提高監(jiān)測模型的精確性、穩(wěn)定性及泛化性是目前安全監(jiān)測研究的熱點(diǎn)問題之一[9-10]。
針對上述問題,本文引入鄰域粗糙集理論(Neighborhood Rough Set,NRS)和隨機(jī)森林算法(Random Forest,RF)。鄰域粗糙集理論[11]可對影響混凝土壩變形的影響因子進(jìn)行約簡,消除冗余信息,能有效處理復(fù)雜變量間的多重共線性問題,從而提高監(jiān)測模型的解釋能力。隨機(jī)森林算法[12-14]適用于非穩(wěn)定性數(shù)據(jù),且不易出現(xiàn)過擬合現(xiàn)象,預(yù)測精度較高?;谏鲜鰞煞N方法,建立NRS-RF安全監(jiān)測模型,從而實(shí)現(xiàn)對混凝土壩變形的高精準(zhǔn)預(yù)測。
經(jīng)典粗糙集理論是由Pawlak教授提出[15],核心理論是其不需要提供與相關(guān)問題數(shù)據(jù)集合之外的任何先驗(yàn)信息,并經(jīng)過屬性約簡來找出數(shù)據(jù)內(nèi)的隱藏信息。但經(jīng)典粗糙集理論在對連續(xù)型數(shù)據(jù)進(jìn)行處理時有一定的局限性,需要先用離散化方法將連續(xù)型屬性轉(zhuǎn)化為符號性數(shù)據(jù)[16],由于這一處理過程改變了數(shù)據(jù)初始的屬性性質(zhì),會造成數(shù)據(jù)原始的信息損失,導(dǎo)致結(jié)果分析的不精確[17]。為了解決經(jīng)典粗糙集方法的這一不足,Lin[18]提出了鄰域系統(tǒng),在此基礎(chǔ)上胡清華[19]等進(jìn)一步提出了鄰域粗糙集理論。鄰域粗糙集不僅能對離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù)進(jìn)行處理與約簡,還保留了數(shù)據(jù)的原始信息。
對于論域中的任一xi∈U,B?C,xi的鄰域表達(dá)式為
δB(xi)=xj|xj∈U,ΔB(xi,xj)≤δ
(1)
式中:Δ為距離函數(shù),δ為鄰域大小。
(2)
由此,可定義決策屬性D對條件屬性B的依賴度,其表達(dá)式為
γB(D)=POSB(D)/U
(3)
式中:γB(D)反映了條件屬性B逼近于決策屬性D的能力,其中,0≤γB(D)≤1。正域越大,說明決策屬性D對條件屬性B的依賴度越大,如果γB(D)的值越趨近于1,則決策屬性D越依賴于條件屬性B。γB(D)是單調(diào)的,假設(shè)B1?B2?…?C,則γB1(D)≤γB2(D)≤…≤γC(D)。
在鄰域決策系統(tǒng)中,B?C,a∈B,則可將屬性a相對于B的重要度定義為
Sig(a,B,D)=γB(D)-γB-a(D)
(4)
如果B滿足:① ?a∈B,γB-a(D)<γB(D),②γB(D)=γA(D)這兩個條件,則稱B?C是A的一個約簡。為了找到合適的屬性約簡方法,胡清華[19]等提出了基于鄰域模型的前向貪心數(shù)值屬性約簡,此算法是根據(jù)屬性集合重要度為指標(biāo)構(gòu)造出貪心式屬性約簡算法。算法的核心思想是以空集為起點(diǎn),計算全部剩余屬性的重要度,然后選擇最大重要度值的屬性加入約簡集合中,直到所有剩余屬性的重要度為0,之后加入新的屬性,系統(tǒng)的依賴性函數(shù)值不再發(fā)生變化。輸入:鄰域決策系統(tǒng)〈U,C∪D,V,f〉和鄰域半徑集合;輸出:約簡red。算法的過程如下:
(1) 計算出每個屬性ai的決策正域,找到最大正域;
(2) 對每個ai∈C-red,計算Sig(ak,red,D)=γred∪ai(D)-γred(D),在此定義γφ(D)=0;
(3) 選擇滿足Sig(ak,B,D)=maxi{Sig(ai,red,B)}的屬性ak。
(4) If Sig(ak,red,D)>0,
red∪ak→red
go to step 2
else
returnred
(5) end。
隨機(jī)森林是一種統(tǒng)計學(xué)習(xí)理論,已在很多領(lǐng)域有了一定的應(yīng)用[20-22]。其算法是由Breiman[23]提出的一種由多個決策樹組成的分類回歸模型。選取Bootstrap重抽樣抽樣方法從訓(xùn)練集中隨機(jī)抽取樣本集,隨機(jī)森林的決策樹是基于CART算法進(jìn)行節(jié)點(diǎn)分裂,依照規(guī)則,對樣本集進(jìn)行一分為二的分割,以二分遞歸方式來形成決策樹。采用袋裝法和隨機(jī)子空間法進(jìn)行訓(xùn)練樣本的抽樣和決策樹的生成,每棵決策樹在生長過程中不進(jìn)行剪枝,盡最大可能生長,將生成的多棵決策樹組成隨機(jī)森林分類器,使用該分類器對數(shù)據(jù)進(jìn)行分類,對于得出的結(jié)果采用投票方式?jīng)Q定新樣本的類別,來進(jìn)行數(shù)據(jù)的預(yù)測。
(1) 訓(xùn)練集中有M個樣本,利用Bootstrap隨機(jī)且可放回地重復(fù)抽取n個不同的樣本集作為訓(xùn)練集來構(gòu)建決策樹,每次未被抽中的數(shù)據(jù)組成n組袋外數(shù)據(jù)(out-of-bag,OOB)。
(2)n個樣本集生成相對應(yīng)的n棵決策樹,每棵決策樹的葉節(jié)點(diǎn)從訓(xùn)練集的p個變量中任意抽取mtry個變量,從中選擇最優(yōu)屬性進(jìn)行分裂生長。
(3) 每棵決策樹自然生長不剪枝。
(4) 利用測試樣本對隨機(jī)森林模型進(jìn)行測試,n個決策樹產(chǎn)生n個結(jié)果,最后的預(yù)測結(jié)果由服從多數(shù)決定原則的投票策略來預(yù)測。
隨機(jī)森林模型參數(shù)包含ntree和mtry,這兩個參數(shù)對模型預(yù)測的精度和穩(wěn)定性有重要的影響。ntree是指隨機(jī)森林模型中產(chǎn)生的決策樹的個數(shù),一般不少于100。mtry是指決策樹分裂時產(chǎn)生的節(jié)點(diǎn)個數(shù),影響著決策樹之間的聯(lián)系性、算法的強(qiáng)度及模型的精確度,根據(jù)文獻(xiàn)[24]得到:
mtry=log2s
(5)
(6)
式中:s為模型輸入變量個數(shù),[·]表示向下取整。隨機(jī)森林模型使用自舉法Bootstrap得到不同參數(shù)下的OOB誤差,選取誤差最小的參數(shù)值為最優(yōu)參數(shù)。
根據(jù)混凝土壩結(jié)構(gòu)性態(tài)的一般規(guī)律可知,壩體在水壓力、泥沙壓力、溫度、地震荷載等影響因素作用下,會產(chǎn)生變形、應(yīng)力、應(yīng)變、滑動力、裂縫開度、滲流等效應(yīng)量[2]。而這些效應(yīng)量呈現(xiàn)出非線性發(fā)展的趨勢,因此采用一般的多元線性回歸難以解決混凝土壩安全性態(tài)的預(yù)測問題,本文提出用鄰域粗糙集和隨機(jī)森林方法來對混凝土壩變形進(jìn)行預(yù)測。同時,為了準(zhǔn)確獲取核心影響因子,減輕隨機(jī)森林模型的運(yùn)算量,采用鄰域粗糙集對初始數(shù)據(jù)進(jìn)行屬性約簡,以消除冗余信息來提高隨機(jī)森林算法的預(yù)測精度?;诖?,本文構(gòu)建基于NRS-RF的混凝土壩變形監(jiān)測模型,其建模流程如下(見圖1)。
圖1 基于NRS-RF的混凝土壩變形監(jiān)測模型Fig.1 Concrete dam deformation monitoring model based on NRS-RF
(1) 采用統(tǒng)計學(xué)方法對混凝土壩監(jiān)測數(shù)據(jù)進(jìn)行粗差處理,確保監(jiān)測數(shù)據(jù)的可靠性,同時將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。
(2) 采用鄰域粗糙集對影響混凝土壩變形的影響因素進(jìn)行屬性約簡,得到核心影響因素。
(3) 將核心影響因素作為隨機(jī)森林模型的輸入變量。
(4) 通過訓(xùn)練集進(jìn)行模型訓(xùn)練,利用Bootstrap抽樣方法進(jìn)行隨機(jī)抽樣,獲得隨機(jī)訓(xùn)練樣本,通過分析OOB誤差與參數(shù)ntree的關(guān)系曲線,確定模型最優(yōu)參數(shù)。
(5) 將測試集核心影響因素輸入到訓(xùn)練好的最優(yōu)參數(shù)預(yù)測模型,獲得相應(yīng)的變形預(yù)測結(jié)果。
周寧水電站位于福建省境內(nèi),總裝機(jī)容量250 MW,水庫總庫容為4 700萬m3,設(shè)計洪水位633.00 m。電站樞紐攔河壩為碾壓混凝土重力壩,建基面高程562.00 m,最大壩高73.40 m。該混凝土壩壩頂水平位移監(jiān)測采用引張線法,共布置11個測點(diǎn),其中工作測點(diǎn)9個,分設(shè)于每個壩段頂部;校核基點(diǎn)2個,分設(shè)于引張線左、右兩端,以校測引張線端點(diǎn)位移(見圖2)。
圖2 大壩壩頂引張線測點(diǎn)平面布置Fig.2 Plane of monitoring and measuring points for extension line at the dam top
按照模型因子選取準(zhǔn)則,選定該工程壩頂引張線2010年1月1日至2011年8月25日EX1測點(diǎn)水平位移數(shù)據(jù)(向下游為正,反之為負(fù))為模型因變量樣本,庫區(qū)壩前水深(以建基面高程562.00 m為基準(zhǔn)水深)、氣溫及其衍生變量數(shù)據(jù)(水壓分量取2008年1月1日為基準(zhǔn)日,壩前水深為68.81 m)為模型自變量(共計10個)樣本,共計602個樣本。對原始樣本數(shù)據(jù)進(jìn)行預(yù)處理(粗差剔除和自變量數(shù)據(jù)標(biāo)準(zhǔn)化處理),訓(xùn)練樣本個數(shù)為571,測試樣本個數(shù)為31,并以此為基礎(chǔ),進(jìn)行基于OLS和NRS-RF的混凝土壩變形安全預(yù)測模型的應(yīng)用研究。水位過程線如圖3所示,溫度過程線如圖4所示,經(jīng)過粗差處理的EX1測點(diǎn)水平位移過程線如圖5所示,由圖3~5可知,溫度對壩體水平位移有重要影響,溫度越高,大壩向上游的變形位移越大,溫度降低,則向下游的位移增大;水位升高,其向下游的變形位移增大,反之則向上游的位移增大。
圖3 水位變化過程線Fig.3 Water level process line
圖4 溫度變化過程線Fig.4 Temperature process line
圖5 位移過程線Fig.5 Displacement process line
因此,本文選取水位分量、時效分量、溫度分量作為模型的主要影響因素來分析,構(gòu)建如下的混凝土壩變形的統(tǒng)計模型[2]:
δ=δH+δT+δθ=a0+a1H+a2H2+a3H3+b1T1+
b2T5+b3T20+b4T60+b5T90+c1θ+c2lnθ
(7)
式中:a0為常數(shù)項,a1~a3,b1~b5,c1~c2為回歸系數(shù);H,H2,H3為水位變量;Ti為監(jiān)測前i天(或旬)的氣溫和水溫的均值,i=1,5,20,60,90d;θ為相對于始測日的累計時間除以100。
根據(jù)以上選取的監(jiān)測數(shù)據(jù)進(jìn)行鄰域粗糙集屬性約簡。在此鄰域決策系統(tǒng)內(nèi)DS=〈U,A,V,f〉,U=x1,x2,x3,…,xn為樣本空間,A={a1,a2,a3,…,a11}為條件屬性和決策屬性集合,其中條件屬性C=a1,a2,a3,…,a10分別表示水位變量H,H2,H3;時效變量θ,lnθ;監(jiān)測前5 d的溫度變量T5、監(jiān)測前20 d的溫度變量T20、監(jiān)測前60 d的溫度變量T60、監(jiān)測前90 d的溫度變量T90、監(jiān)測前1 d的溫度變量T1。決策屬性D=a11為大壩變形值。采用MATLAB軟件對監(jiān)測數(shù)據(jù)進(jìn)行條件屬性約簡,設(shè)置將屬性重要度低于0.3的條件屬性剔除,約簡后得到符合要求的條件屬性。約簡結(jié)果如表1所示。
表1 鄰域粗糙集屬性約簡結(jié)果Tab.1 Neighborhood Rough Set attribute reduction results
由表1可以看到:屬性重要度低于0.3的條件屬性(水位變量a3,時效變量a4、a5,溫度變量a6、a9) 是被約簡的冗余屬性,而表1中被篩選出來的條件屬性對決策屬性(大壩變形a11)的影響程度較大,且起著關(guān)鍵作用,其中監(jiān)測前20 d的溫度變量T20(a7) 的屬性重要度最大,對決策屬性的影響程度最大。
4.4.1模型輸入變量
根據(jù)上述鄰域粗糙集屬性約簡分析結(jié)果,將預(yù)測模型的輸入變量選為H,H2,T20,T60,T1作為隨機(jī)森林模型的輸入變量。
4.4.2隨機(jī)森林參數(shù)優(yōu)化選取
根據(jù)上文所述,mtry參數(shù)的選取與輸入變量的個數(shù)有關(guān),通過鄰域粗糙集約簡后的結(jié)果得出輸入變量的個數(shù)為5個,因此,mtry=1;由圖6可知,當(dāng)ntree的值等于2 800時誤差最小,因此,ntree=2 800。
圖6 ntree與袋外誤差的關(guān)系Fig.6 Reletionship between ntree and OOB error
4.4.3結(jié)果分析
本文選取監(jiān)測點(diǎn)EX1 2010年1月1日至2011年7月25日的監(jiān)測數(shù)據(jù)進(jìn)行訓(xùn)練,圖7為前100個訓(xùn)練數(shù)據(jù)與擬合數(shù)據(jù)對比結(jié)果。由圖7可知,訓(xùn)練期的位移值在-4.87~2.28 mm之間波動,NRS-RF的擬合數(shù)據(jù)與實(shí)測數(shù)據(jù)的變化趨勢幾乎相同,且以均方根誤差作為模型擬合的評價指標(biāo),NRS-RF模型的擬合誤差為0.093,OLS模型的擬合誤差為0.868,由此可以說明NRS-RF模型擬合的準(zhǔn)確性高、誤差小,效果較好。選取2011年7月26日至2011年8月25日的監(jiān)測數(shù)據(jù)進(jìn)行預(yù)測,由圖8可知,預(yù)測期的位移值在-4.62~1.94 mm之間波動,NRS-RF模型預(yù)測的趨勢與實(shí)測數(shù)據(jù)的變化趨勢較為接近。因此,NRS-RF模型預(yù)測精度較高。
圖7 訓(xùn)練實(shí)測數(shù)據(jù)與擬合數(shù)據(jù)對比Fig.7 Comparision of training measured data and fitted data
圖8 實(shí)測數(shù)據(jù)與預(yù)測數(shù)據(jù)對比Fig.8 Comparison of measured data and forecasted data
4.4.4模型預(yù)測性能分析
為了對NRS-RF模型進(jìn)行預(yù)測性能分析,采用可以反映實(shí)測值和預(yù)測值誤差實(shí)際情況的均方根誤差RMSE(root-mean-square error)、平均絕對誤差MAE(Mean Absolute Error)及可反映實(shí)測值與預(yù)測值之間的相關(guān)程度的決定系數(shù)R2(R-squared)為模型評價指標(biāo)。
(8)
(9)
(10)
分析圖8和表2可知:相比于傳統(tǒng)的統(tǒng)計學(xué)方法OLS模型的預(yù)測結(jié)果和各項評價指標(biāo),基于NRS-RF的混凝土壩變形監(jiān)測模型預(yù)測的水平位移RMSE低于0.3,MAE低于0.2,均處于較低的區(qū)間。因此,基于NRS-RF的混凝土壩變形預(yù)測模型預(yù)測性能較佳,預(yù)測結(jié)果更接近真實(shí)數(shù)據(jù)。
表2 模型預(yù)測性能比較Tab.2 Comparison of predictive performance of different models
本文針對目前混凝土壩變形監(jiān)控模型精準(zhǔn)度、穩(wěn)定性及泛化性等方面的不足,提出基于鄰域粗糙集與隨機(jī)森林混凝土壩變形監(jiān)控模型。NRS-RF監(jiān)控模型的組合優(yōu)勢是:基于鄰域粗糙集模型的前向貪心數(shù)值屬性約簡來對混凝土壩變形影響因素進(jìn)行屬性重要度約簡,進(jìn)而得到核心影響因素。通過實(shí)例驗(yàn)證,建立評價指標(biāo)體系,進(jìn)行模型預(yù)測性能分析,證實(shí)了NRS-RF組合模型的均方差和平均絕對誤差均較小,相關(guān)程度的決定系數(shù)較大,說明NRS-RF模型擬合效果較好、預(yù)測精度較高。