陳詩怡楊 杰程 琳鄭東健胡宸瑞
(1.西安理工大學(xué) 水利水電學(xué)院,西安710048;2.西安理工大學(xué) 西北旱區(qū)生態(tài)水利國(guó)家重點(diǎn)實(shí)驗(yàn)室,西安710048;3.河海大學(xué) 水利水電學(xué)院,南京210098;4.福建省電力有限公司 莆田供電公司,福建 莆田351100)
我國(guó)是當(dāng)今世界上擁有水庫大壩數(shù)量最多的國(guó)家,水利工程的安全可靠運(yùn)行直接關(guān)系到人民生命與財(cái)產(chǎn)安全,如何保障水庫長(zhǎng)期安全可靠運(yùn)行一直是眾多學(xué)者們的關(guān)注重點(diǎn)與研究熱點(diǎn).混凝土壩憑借其安全可靠的性能一直是我國(guó)大壩建設(shè)的推薦壩型之一,其壩址多位于高山峽谷,常面臨人工運(yùn)行維護(hù)困難的問題.同時(shí),混凝土壩運(yùn)行期外部環(huán)境復(fù)雜[1],影響因素較多[2],進(jìn)一步加劇了后期監(jiān)測(cè)、饋控的困難.作為真實(shí)、直接、準(zhǔn)確反映混凝土壩安全性態(tài)的典型物理量之一,大壩變形監(jiān)測(cè)分析常被用于饋控混凝土壩壩體結(jié)構(gòu)運(yùn)行安全.因此,如何依據(jù)混凝土壩變形與環(huán)境量監(jiān)測(cè)資料,建立起精準(zhǔn)、高效的混凝土壩變形監(jiān)測(cè)模型是大壩安全監(jiān)控研究的重要問題,也是實(shí)現(xiàn)快速反應(yīng)、準(zhǔn)確預(yù)測(cè)混凝土壩性態(tài)演化趨勢(shì)分析的基礎(chǔ)問題.
混凝土壩變形預(yù)測(cè)的精度通常受到影響因子的選取和建模方法的影響.現(xiàn)有建模方法主要有以下幾類:確定性模型、統(tǒng)計(jì)模型、組合模型以及混合模型.確定性模型與統(tǒng)計(jì)模型最為常用[3],但無法明確大壩材料參數(shù)及邊界條件,模型無法精確簡(jiǎn)化;傳統(tǒng)統(tǒng)計(jì)模型結(jié)構(gòu)簡(jiǎn)單易于識(shí)別,但無法考慮復(fù)雜因素的多重線性問題,其預(yù)測(cè)效果一般[4].近年來,隨著大壩安全監(jiān)控、人工智能等理論的迅速發(fā)展,其在處理監(jiān)控模型因子不確定性及非線性等問題上顯現(xiàn)出巨大的優(yōu)勢(shì).如人工神經(jīng)網(wǎng)絡(luò)等模型,具有較強(qiáng)的非線性和自學(xué)能力[5],但理論體系不完備;而作為一種新的機(jī)器學(xué)習(xí)技術(shù),隨機(jī)森林(RF)[6]理論體系完備,已在醫(yī)學(xué)[7]、金融學(xué)、生物學(xué)[8]等領(lǐng)域得到了廣泛的應(yīng)用,其算法特點(diǎn)同樣適用于解決混凝土大壩監(jiān)測(cè)數(shù)據(jù)分析中的非線性和共線性問題.對(duì)于影響因子優(yōu)選方法,常用的混凝土壩變形監(jiān)測(cè)模型影響因子確定方法包括:先驗(yàn)知識(shí)法[9]、主成分分析法[10]、灰色關(guān)聯(lián)度分析法[11]等.先驗(yàn)知識(shí)法方便計(jì)算、效率高但過于依托歷史經(jīng)驗(yàn),計(jì)算結(jié)果誤差較大;主成分分析法避免了因子相關(guān)性影響,但當(dāng)因子共線性較差時(shí)指標(biāo)計(jì)算精度不高,且無法進(jìn)行回歸計(jì)算;灰色關(guān)聯(lián)度分析法避免了原始信息不足的缺陷但未明確因子判斷準(zhǔn)則.因此,在混凝土壩變形預(yù)測(cè)模型影響因子的選擇上存在不完善等問題,隨機(jī)森林(RF)算法在運(yùn)算量無明顯改善的情況下提高了預(yù)測(cè)精度,同時(shí)對(duì)缺少和非平衡的數(shù)據(jù)比較穩(wěn)健,能很好的預(yù)測(cè)多變量.
因此,針對(duì)變形監(jiān)測(cè)數(shù)據(jù)的非線性特點(diǎn)本文提出了一種基于Copula理論和隨機(jī)森林算法(RF)的混凝土變形預(yù)測(cè)模型,能夠有效地處理、分析和預(yù)測(cè)混凝土重力壩變形監(jiān)測(cè),從而實(shí)現(xiàn)影響因子集的優(yōu)選和重要性度量,提高了模型的預(yù)測(cè)精度及泛化性,更加真實(shí)的反應(yīng)大壩的工作性態(tài).
1959年Sklar提出Copula理論[12];2006年Nelsen進(jìn)一步完善了其理論體系.Copula理論提出對(duì)于任意一個(gè)多元聯(lián)合分布,皆能夠進(jìn)一步細(xì)分為一個(gè)Copula函數(shù)以及其所對(duì)應(yīng)的邊緣分布.Copula函數(shù)將變量的邊緣分布函數(shù)和它們的聯(lián)合分布連接在一起,且不要求邊緣分布為同一個(gè)函數(shù).
Copula函數(shù)的定義是在n維空間[0,1]n的聯(lián)合分布函數(shù),其邊緣分布是[0,1]上的均勻分布,其可表示為:
式中:F(x1,…,xn)為變量xn的聯(lián)合分布函數(shù);un=F(xn)為變量xn的邊緣分布函數(shù);θ為Copula函數(shù)參數(shù);C(·)為Copula函數(shù).
Copula函數(shù)中通常采用相關(guān)系數(shù)描述變量間的相關(guān)性,但相關(guān)系數(shù)僅能夠反映變量間的線性相關(guān)情況,無法刻畫非線性相關(guān)性.對(duì)此,通過對(duì)Copula函數(shù)的隨機(jī)變量做嚴(yán)格的單調(diào)增變換,從而使Copula函數(shù)能通過相關(guān)性測(cè)度實(shí)現(xiàn)變量非線性相關(guān)關(guān)系的刻畫,常用的相關(guān)性測(cè)度包括:Kendall秩相關(guān)系數(shù)、Spearman相關(guān)系數(shù)ρ 和Gini關(guān)聯(lián)系數(shù)γ.由于Kendall秩相關(guān)系數(shù)和Spearman相關(guān)系數(shù)ρ 僅能夠處理隨機(jī)變量的變化方向一致問題,而Gini關(guān)聯(lián)系數(shù)γ能夠衡量隨機(jī)變量變化方向和變化程度一致性,故本文選擇Gini關(guān)聯(lián)系數(shù)進(jìn)行變量非線性相關(guān)性度量.
設(shè)從二維向量(X,Y)中選取容量為n的樣本(x1,y1),(x2,y2),…,(xn,yn),其中X、Y為隨機(jī)變量.將x1,…,xn按從小到大順序排列后,xi的名次ri稱為它的秩,同樣yi在y1,…,yn中的名次(秩)記為si,Gini關(guān)聯(lián)系數(shù)γ計(jì)算公式如下:
式中:int(·)表示為取整函數(shù).
常見的Copula 函數(shù)分布族分為橢圓分布族Copula函數(shù)和阿基米德分布族Copula函數(shù).其中,橢圓分布族具有性質(zhì)簡(jiǎn)單、應(yīng)用廣泛的特點(diǎn),包含正態(tài)Copula函數(shù)和t-Copula函數(shù);阿基米德分布族,常用的有Gumbel Copula、Clayton Copula和Frank Copula.考慮到t-Copula函數(shù)對(duì)隨機(jī)變量間相關(guān)關(guān)系的變化敏感度強(qiáng),且能較好地刻畫尾部相關(guān)關(guān)系,因此本研究采用橢圓分布族的t-Copula函數(shù)進(jìn)行計(jì)算.
在確定模型中,對(duì)于Copula函數(shù)模型中未知參數(shù)的選擇,常采用分布估計(jì)、最大似然估計(jì)、半?yún)?shù)估計(jì)和非參數(shù)估計(jì).IMF 估計(jì)具有計(jì)算量小、便于實(shí)現(xiàn)的特點(diǎn),本文采用IMF估計(jì)確定Copula函數(shù)模型中未知參數(shù),其基本思想是將Copula函數(shù)的參數(shù)和邊緣分布函數(shù)的參數(shù)分步進(jìn)行估算.其實(shí)現(xiàn)步驟如下:
1)首先,根據(jù)X、Y的邊緣分布建立對(duì)應(yīng)的樣本(xi,yi)對(duì)數(shù)似然函數(shù),即
2)利用極大似然估計(jì)法求出θ1、θ2的極大似然估計(jì)值,即
3)最后求出Copula函數(shù)中的未知參數(shù)θ 的估計(jì)值,即
其中,(xi,yi)(i=1,2,…,n)為取自二維向量(X,Y)的一組樣本,相應(yīng)的隨機(jī)變量X、Y的邊緣函數(shù)分別為F(x,θ1),G(y,θ2),邊緣密度函數(shù)分別為f(x,θ1)、g(y,θ2),其中θ1和θ2是兩個(gè)未知參數(shù),^θ1和^θ2分別是θ1、θ2的極大似然估計(jì)值.
隨機(jī)森林(RF)是由Breiman 和Culter在2001年提出的理論,是根據(jù)貝爾實(shí)驗(yàn)室所提出的隨機(jī)決策樹方法把分類樹組合成隨機(jī)森林.即從原始數(shù)據(jù)進(jìn)行重采樣,主要使用boot-strap方法生成多個(gè)樣本.然后為每個(gè)自舉樣本構(gòu)建分類樹,最終通過集成所有決策樹的預(yù)測(cè)結(jié)果,確定投票數(shù)最多的為最終預(yù)測(cè)結(jié)果.隨機(jī)森林通過集成學(xué)習(xí)的思想,克服了隨機(jī)決策樹過擬合的問題,對(duì)缺失數(shù)據(jù)、不平衡樣本和異常值比較穩(wěn)健,有較高的預(yù)測(cè)準(zhǔn)確率,且運(yùn)算量沒有顯著提高,被譽(yù)為當(dāng)前最好的算法之一.
隨機(jī)森林是由一系列樹狀分類器{h(x,θk)},k=1,…所構(gòu)建而成的一個(gè)分類器,樹狀分類器的數(shù)量以k 表示,輸入樣本向量以x表示,θk所表示的是獨(dú)立同分布的隨機(jī)向量,即第k棵數(shù)的參數(shù)向量,一個(gè)輸入向量x的預(yù)測(cè)值y為所有樹{h(x,θk)},k=1,…的輸出結(jié)果的平均值.假定對(duì)獨(dú)立分布的X、Y 訓(xùn)練樣本集中抽取出,那么隨機(jī)森林預(yù)測(cè)值的均方泛化誤差計(jì)算公式為:
當(dāng)隨機(jī)森林中的決策樹數(shù)量達(dá)到一定需求時(shí),隨機(jī)森林的泛化誤差收斂于一個(gè)有限值,所以隨機(jī)森林能有效地避免過擬合,提高了模型對(duì)數(shù)據(jù)的適應(yīng)性.
綜上所述,隨機(jī)森林算法流程如下:
1)原始數(shù)據(jù)含有N 個(gè)樣本,利用boot-strap進(jìn)行隨機(jī)抽樣,抽取k個(gè)訓(xùn)練樣本并形成對(duì)應(yīng)的決策樹,各樣本容量和原始數(shù)據(jù)集相同,其中每次未被抽中的樣本組成k 個(gè)袋外數(shù)據(jù).
2)設(shè)原始數(shù)據(jù)變量個(gè)數(shù)為P,隨機(jī)抽取m個(gè)變量作為子集分裂,利用CART 方法子集再進(jìn)行分裂,每棵樹進(jìn)行自行生長(zhǎng),不剪枝,根據(jù)分枝優(yōu)度準(zhǔn)則選取最優(yōu)分枝.
3)將生成的k 棵決策樹組成隨機(jī)森林,分別采取獨(dú)立同分布的訓(xùn)練樣本對(duì)每棵決策樹進(jìn)行訓(xùn)練,對(duì)結(jié)果進(jìn)行投票或者取平均值得到新的回歸分析或分類預(yù)測(cè)結(jié)果,即RF的最終結(jié)果.RF模型無需再進(jìn)行專門的交叉驗(yàn)證,通常采用袋外數(shù)據(jù)在訓(xùn)練好的模型中進(jìn)行模型測(cè)試.
基于Copula-RF的大壩變形預(yù)測(cè)方法建模步驟如下.
步驟1:對(duì)實(shí)測(cè)數(shù)據(jù)利用圖表法和統(tǒng)計(jì)學(xué)方法進(jìn)行粗差剔除處理,為建立預(yù)測(cè)模型提供可靠的數(shù)據(jù)基礎(chǔ).
步驟2:采用Copula理論并選擇合適的函數(shù),對(duì)水位、氣溫等變量進(jìn)行標(biāo)準(zhǔn)化處理并進(jìn)行相關(guān)性計(jì)算,獲得各變量間的相關(guān)性參數(shù),對(duì)比得出準(zhǔn)確的代表性影響因子.
步驟3:將處理后的數(shù)據(jù)作為原始樣本集,優(yōu)選出的影響因子及其推導(dǎo)量作為模型自變量樣本集、測(cè)點(diǎn)的位移量作為模型因變量樣本.
步驟4:采用boot-strap方法對(duì)進(jìn)行隨機(jī)抽樣,獲得模型袋外數(shù)據(jù)與訓(xùn)練樣本;對(duì)不同參數(shù)之下所對(duì)應(yīng)的袋外誤差加以比對(duì),甄選出其中誤差最小時(shí)的m和n 值作為模型最優(yōu)參數(shù)值;最終利用訓(xùn)練集建模,對(duì)測(cè)試集進(jìn)行預(yù)測(cè).
綜上所述,基于Copula-RF算法的混凝土壩應(yīng)力預(yù)測(cè)模型的建模流程如圖1所示.
圖1基于Copula-RF的混凝土變形預(yù)測(cè)模型流程圖
通過上述步驟,建立了Copula-RF大壩變形安全監(jiān)控模型,并將其應(yīng)用于某水利樞紐工程的監(jiān)測(cè)數(shù)據(jù)分析工作中,以驗(yàn)證模型的有效性.該項(xiàng)工程水庫總庫容為4 700萬m3,總裝機(jī)容量為250 MW,設(shè)計(jì)洪水位633 m.工程由攔河壩、泄水建筑物、輸水系統(tǒng)、地下廠房及地面開關(guān)站等建筑物組成.攔河壩為碾壓混凝土重力壩,基礎(chǔ)海拔562 m,最大壩高72.4 m,壩頂高程634.4 m,壩頂長(zhǎng)206 m,壩頂寬7.5 m.
圖2混凝土壩觀測(cè)點(diǎn)平面布置圖
該工程混凝土壩變形監(jiān)測(cè)包括壩頂水平位移、垂直位移等項(xiàng)目.壩體共布置11個(gè)測(cè)點(diǎn),其中工作測(cè)點(diǎn)9個(gè),分設(shè)于每個(gè)壩段頂部;校核基點(diǎn)2個(gè),分設(shè)于引張線左、右兩端.壩頂水平位移監(jiān)測(cè)采用引張線法,引張線固定端布置在壩右側(cè)01+107.025處,導(dǎo)向端布置在壩左側(cè)0+93.50處,全長(zhǎng)200.75 m.引張線監(jiān)測(cè)自動(dòng)化系統(tǒng)的觀測(cè)頻率為1次/d.
通過資料分析和經(jīng)驗(yàn)知識(shí),混凝土壩變形主要考慮水壓、溫度和時(shí)效的影響,故引入水壓因子HU、HD、(H-H0)1、(H-H0)2、(H-H0)3,溫度因子T、T5、T20、T60、T90,時(shí)效因子θ、ln(θ),共12個(gè)備選因子,構(gòu)成備選影響因子集:{HU,HD,(H-H0)1,(H-H0)2,(H-H0)3,T、T5、T20、T60、T90,θ、ln(θ)},其中:HU、HD分別代表上下游月平均庫水位,H為觀測(cè)日水深,H0為初始監(jiān)測(cè)日水深;Ti為前i天溫度平均值,i=5,20,60,90;θ 為資料初始監(jiān)測(cè)日t0到觀測(cè)日t的累計(jì)天數(shù)除以100,θ=(t-t0)/100.
為了準(zhǔn)確獲得具有代表性的輸入因子,首先對(duì)原始環(huán)境數(shù)據(jù)進(jìn)行預(yù)處理:粗差剔除和標(biāo)準(zhǔn)化(監(jiān)測(cè)數(shù)據(jù)大小在[0,1]范圍內(nèi)),再運(yùn)用Copula理論對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行非線性相關(guān)性檢驗(yàn).隨后,將備選因子集作為X,將效應(yīng)量即引張線EX7測(cè)點(diǎn)的水平位移(向下游為正,反之為負(fù))作為Y.對(duì)備選因子進(jìn)行篩選結(jié)果見表1.
表1備選因子非線性相關(guān)系數(shù)
根據(jù)表1非線性相關(guān)性評(píng)價(jià)結(jié)果:t-Copula函數(shù)和Gaussian-Copula函數(shù)分析結(jié)果較為一致,兩者相互驗(yàn)證,確保了分析結(jié)果的可靠性.但考慮到t-Copula函數(shù)對(duì)于隨機(jī)變量之間的相關(guān)關(guān)系的變化敏感度更強(qiáng),即非線性相關(guān)系數(shù)變幅較大,因此,t-Copula函數(shù)分析結(jié)果能更好地表達(dá)各因子間的關(guān)系.同時(shí)將非線性相關(guān)系數(shù)按照從大到小排列可知,(H-H0)2、HD和ln(θ)這3個(gè)因子的非線性相關(guān)系數(shù)明顯小于其他因子,因此確定預(yù)測(cè)模型輸入因子集為:{HU,(H-H0),(H-H0)3,T,T5,T20,T60,T90,θ}.
輸入因子集中各因子相對(duì)EX7測(cè)點(diǎn)水平位移的相關(guān)程度分別為:0.38,0.379 9,0.355 4,-0.737 7,0.758 0,-0.772 5,-0.770 1,-0.703 6,-0.333 5.
根據(jù)模型輸入因子集的選擇,本文選取2016年6月2日至2018年10月22日實(shí)測(cè)數(shù)據(jù)(水壓分量取2008年1月1日為基準(zhǔn)日,壩前水深為68.81 m)作為自變量樣本.壩頂引張線EX7測(cè)點(diǎn)水平位移實(shí)測(cè)數(shù)據(jù)為因變量樣本.模型共869 組實(shí)測(cè)數(shù)據(jù)為總樣本,其中選取719個(gè)樣本作為訓(xùn)練樣本,剩余150個(gè)樣本作為測(cè)試樣本,以此為基礎(chǔ)進(jìn)行基于Copula-RF的混凝土壩變形預(yù)測(cè)模型的應(yīng)用研究.圖3~5分別為水位、溫度過程線及EX7測(cè)點(diǎn)水平位移過程線圖.
圖3水位過程線圖
圖4溫度過程線圖
圖5 EX7測(cè)點(diǎn)水平位移過程線圖
隨機(jī)森林模型主要需設(shè)置兩個(gè)參數(shù):決策樹的個(gè)數(shù)n 和決策樹節(jié)點(diǎn)每次劃分時(shí)隨機(jī)抽取的候選變量個(gè)數(shù)m.本文通過試驗(yàn)得出決策樹個(gè)數(shù)和袋外誤差的關(guān)系曲線圖,當(dāng)決策樹個(gè)數(shù)n為18時(shí)誤差變小且趨于穩(wěn)定,故n取18.當(dāng)m=29時(shí)最優(yōu),圖6為袋外誤差和決策樹個(gè)數(shù)關(guān)系圖.
圖6袋外誤差和決策樹個(gè)數(shù)關(guān)系圖
利用已訓(xùn)練好的Copula-RF模型,對(duì)經(jīng)過處理和因子優(yōu)選后標(biāo)準(zhǔn)化監(jiān)測(cè)數(shù)據(jù)進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果與基于最小二乘回歸的混凝土壩變形預(yù)測(cè)模型計(jì)算結(jié)果進(jìn)行對(duì)比分析,結(jié)果如圖7~9所示.
圖7測(cè)點(diǎn)EX7各模型混凝土壩變形擬合值和實(shí)測(cè)值過程線
圖8測(cè)點(diǎn)EX7各模型混凝土壩變形擬合殘差效果
圖9測(cè)點(diǎn)EX7各模型混凝土壩變形預(yù)測(cè)值和實(shí)測(cè)值過程線
由圖7~9 可看出,與實(shí)測(cè)值對(duì)比.對(duì)于訓(xùn)練樣本,其Copula-RF模型計(jì)算值與實(shí)測(cè)值過程線擬合效果好,訓(xùn)練期的位移在2.69~-1.77 mm之間變化,兩者變化趨勢(shì)基本一致.Copula-RF模型的擬合殘差較小,擬合精度較高.對(duì)于預(yù)測(cè)樣本,大壩實(shí)測(cè)水平位移在0.62~-1.5 mm之間波動(dòng),位移的實(shí)測(cè)值處于相對(duì)穩(wěn)定的狀態(tài),Copula-RF模型的預(yù)測(cè)性能較好.
為了驗(yàn)證基于Copula-RF 的混凝土壩變形預(yù)測(cè)模型的有效性與優(yōu)異性,將其與基于最小二乘回歸的混凝土壩變形預(yù)測(cè)模型分析結(jié)果進(jìn)行對(duì)比,采用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)及平均誤差平方和(MASE)3個(gè)評(píng)價(jià)指標(biāo)來衡量預(yù)測(cè)精度,各模型的評(píng)價(jià)指標(biāo)計(jì)算結(jié)果見表2.由表2可知,利用本模型求得的三個(gè)指標(biāo)比最小二乘法模型計(jì)算結(jié)果小,說明其預(yù)測(cè)精度及泛化性較好.
表2模型預(yù)測(cè)性能比較
因此,基于Copula-RF的混凝土壩變形監(jiān)測(cè)模型預(yù)測(cè)變形值與實(shí)測(cè)值接近,且優(yōu)于最小二乘回歸方法,能夠有效地實(shí)現(xiàn)混凝土變形趨勢(shì)預(yù)測(cè),本文所建立的Copula-RF的混凝土壩變形監(jiān)測(cè)模型是切實(shí)可行的.
考慮到混凝土壩變形監(jiān)測(cè)數(shù)據(jù)具有非線性、非平穩(wěn)等特點(diǎn),本文采用Copula函數(shù)對(duì)各影響因子進(jìn)行非線性相關(guān)分析,為建立隨機(jī)森林模型提供最優(yōu)因子集.相較于傳統(tǒng)的基于最小二乘回歸的混凝土壩變形預(yù)測(cè)模型,Copula-RF 模型具有較高的預(yù)測(cè)精度,與此同時(shí),還能對(duì)泛化性加以有效保證.通過對(duì)OOB誤差的使用,對(duì)泛化誤差進(jìn)行直接估計(jì),無需對(duì)交叉驗(yàn)證的步驟加以延長(zhǎng),建立了混凝土壩變形預(yù)測(cè)的新模型.