傅露瑩 齊慧君 李同春 姜鵬輝 杜效鵠
(1.河海大學(xué) 水利水電學(xué)院, 南京 210098;2.水電水利規(guī)劃設(shè)計總院, 北京 100120)
大壩變形過程中會受多種復(fù)雜因素影響,如降雨、光照、溫度、滲流等因素,導(dǎo)致數(shù)據(jù)波動頻繁,真實的數(shù)據(jù)特征不能很好地被模擬出來,因此挖掘出波動數(shù)據(jù)的隱藏信息具有重要意義,小波分析[1]的發(fā)展一定程度上改善了非平穩(wěn)的監(jiān)測資料的統(tǒng)計分析質(zhì)量,但由于模型的基函數(shù)不存在自適應(yīng)性,因此如果想要在分離數(shù)據(jù)的同時保證損失降到最低,就無法通過單一的小波變換實現(xiàn).而經(jīng)驗?zāi)B(tài)分解(EMD)是一種處理非平穩(wěn)數(shù)據(jù)常用的方法,該方法依據(jù)信號自身的時間尺度特征對信號進(jìn)行分解,具有自適應(yīng)性.任超等[2]對大壩位移序列進(jìn)行經(jīng)驗?zāi)B(tài)分解,有效分離出隱含在時序中的非線性高頻波動成分和低頻趨勢成分,一定程度上提高了大壩變形預(yù)測精度,但EMD易出現(xiàn)模態(tài)混疊,為解決上述問題引入完全自適應(yīng)噪聲集合經(jīng)驗?zāi)B(tài)分解(CEEMDAN),武新章等[3]將CEEMDAN 應(yīng)用到風(fēng)電預(yù)測中,也證實了CEEMDAN 能有效克服模態(tài)混疊現(xiàn)象.
隨著人工智能的發(fā)展,隨機森林(RF)[4]、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[5]等機器學(xué)習(xí)方法已被用于預(yù)測大壩位移,并取得了不錯的效果,雖然這些模型可以處理非線性相關(guān)的數(shù)據(jù),但其很難捕捉變化幅度較大的數(shù)據(jù)彼此之間的關(guān)系,因此針對數(shù)據(jù)的非平穩(wěn)性,將數(shù)據(jù)預(yù)測模型和數(shù)據(jù)分離模型相結(jié)合能夠極大提高預(yù)測準(zhǔn)確率.鄭旭東等[6]利用EMD 和PCA 模型結(jié)合對觀測數(shù)據(jù)進(jìn)行分析,從而構(gòu)建映射矩陣進(jìn)行轉(zhuǎn)換,實現(xiàn)消噪效果,但位移的波動不一定是觀測儀器引起的誤差,更多的是由環(huán)境因素導(dǎo)致的波動,不能完全去除,馬佳佳等[7]將EEMD 和LSTM、MLR模型結(jié)合起來應(yīng)用到大壩位移預(yù)測中,有效提高了預(yù)測精度,但并未考慮分量與輸入變量之間的相關(guān)性.鑒此,本文提出了CEEMDAN-PCCs-TCN-XGBoost組合預(yù)測模型,通過CEEMDAN 算法提取數(shù)據(jù)趨勢,Pearson相關(guān)系數(shù)提取復(fù)雜因素的相關(guān)性,同時應(yīng)用TCN 算法和XGBoost算法分別進(jìn)行預(yù)測,最后將預(yù)測結(jié)果累加作為最終的預(yù)測結(jié)果,將該模型應(yīng)用到某重力壩工程來驗證模型的可行性,并與傳統(tǒng)模型和EEMD-LSTM-MLR 等模型預(yù)測結(jié)果對比驗證準(zhǔn)確性,具有較高的工程應(yīng)用價值.
本文通過信號分解技術(shù)對原始位移數(shù)據(jù)進(jìn)行預(yù)處理.使用CEEMDAN 方法的主要原因是由于CEEMDAN 比EMD 和EEMD[8]具 有 更 好 的 反 模 式混合性能,通過加入經(jīng)EMD 分解后含輔助噪聲的IMF分量,并在分解得到的每一階IMF 分量后都進(jìn)行總體平均計算,有效解決白噪聲從高頻到低頻的傳遞問題,提升分解效果,具體步驟如下:
第1步:在待分析信號S(t)中添加自適應(yīng)性白噪聲B i(t),CEEMDAN 一階分量見式(1).
式中:T表示添加噪聲的總次數(shù),本文取50次;i表示添加噪聲次數(shù).
第2步:構(gòu)造下一個分解信號S(t)=S(t)+αi B i(t),得到IMF2.
第3步:重復(fù)前兩步直到結(jié)束,最終余項見式(2).
式中:c表示產(chǎn)生IMF的個數(shù).
樣本熵(SampEn)是一種時間序列復(fù)雜性測度方法,是對近似熵算法的改進(jìn),其結(jié)果的精度優(yōu)于近似熵.使用一種非線性動力學(xué)參數(shù)SE 來判斷序列復(fù)雜度和序列隨著維數(shù)變化而產(chǎn)生新模式的概率大小,SE會隨著序列復(fù)雜程度的增加和生成新模式概率的提高而增大.樣本熵只需少量數(shù)據(jù)即可,對時間序列數(shù)據(jù)的自相似性和復(fù)雜性程度進(jìn)行定量分析,因此在工程領(lǐng)域得到廣泛應(yīng)用,具體算法理論參見文獻(xiàn)[9-10].
經(jīng)過CEEMDAN 分解后的位移原始序列產(chǎn)生若干IMF 分量,為了簡化計算模型,通過減少執(zhí)行指令,從而提高整體的運行速度,本研究通過樣本熵對分解后的IMF分量序列進(jìn)行重構(gòu).
Pearson相關(guān)系數(shù)方法(PCCs)是能夠衡量一對隨機序列之間相關(guān)程度的一種統(tǒng)計學(xué)方法,可以定量地衡量波動數(shù)據(jù)和多種因素之間的相關(guān)關(guān)系,其取值范圍在[-1,1]之間,其中1表示完全正相關(guān),相關(guān)系數(shù)的絕對值越大,相關(guān)性越強.
時間卷積網(wǎng)絡(luò)(TCN)針對時序數(shù)據(jù)模型以CNN模型為基礎(chǔ),增加了入因果卷積、膨脹卷積和殘差鏈接3種特殊結(jié)構(gòu).TCN 模型在處理序列數(shù)據(jù)方面明顯優(yōu)于一般的循環(huán)結(jié)構(gòu),如LSTM 和GRU,并且在相同容量的情況下,它們比循環(huán)結(jié)構(gòu)具有更長的內(nèi)存,梯度穩(wěn)定、感受靈活、并行性好.
膨脹因果卷積可以通過調(diào)節(jié)感受尺寸受層數(shù),卷積核尺寸和膨脹系數(shù)以滿足不同長度序列感知需求,從而解決CNN 中時間建模長度受卷積核尺寸限制這一難題,殘差鏈接被證明是訓(xùn)練深層網(wǎng)絡(luò)的有效方法,它使得網(wǎng)絡(luò)可以以跨層的方式傳遞信息.一個殘差塊包含兩層的卷積和非線性映射,在每層中還加入了Weight Norm 和Dropout來正則化網(wǎng)絡(luò).TCN 的結(jié)構(gòu)簡圖如圖1所示.
圖1 TCN 結(jié)構(gòu)簡圖
設(shè)一維序列的輸入l={s1,s2,…,s n-1}∈R n與卷積核f:{0,…,n-1}→R,其序列元素s的卷積運算F的表達(dá)式:
式中:*為卷積運算;n為卷積核尺寸;d為擴(kuò)張系數(shù),d越大,間隔步長越大,越能夠捕獲到更長時間序列的狀態(tài)知識,本文選擇d為[1,2,4,8].
XGBoost是一種高效的梯度提升決策樹算法.在原有的GBDT 基礎(chǔ)上進(jìn)行了改進(jìn),使得模型效果得到大大提升.重要的是,XGBoost是一個集成模型,作為一種前向加法模型,他的核心是融合了集成Boosting思想,將多個弱學(xué)習(xí)器通過一定的方法整合為一個強學(xué)習(xí)器.即用多棵樹共同決策,并且用每棵樹的結(jié)果都是目標(biāo)值與之前所有樹的預(yù)測結(jié)果之差并將所有的結(jié)果累加即得到最終的結(jié)果,以此達(dá)到整個模型效果的提升,并且在目標(biāo)函數(shù)中使用歸一化,以降低模型的復(fù)雜性,防止過擬合,加快學(xué)習(xí)過程.它由決策樹的有效實現(xiàn)組成,以生成一個組合模型,其預(yù)測性能優(yōu)于單獨使用的單個技術(shù),輸出函數(shù)計算如下:
本文提出的CEEMDAN-PCCs-TCN-XGBoost組合預(yù)測模型,步驟如下:
1)利用CEEMDAN 方法對數(shù)據(jù)進(jìn)行分解,得到各IMF分量,根據(jù)樣本熵值的大小將分量重構(gòu)為趨勢項和波動項,趨勢項用HST 模型表示,波動項根據(jù)Pearson相關(guān)系數(shù)提取相關(guān)性大的作為輸入變量.
2)使用時間卷積網(wǎng)絡(luò)和XGBoost算法分別對重構(gòu)后的位移分量進(jìn)行預(yù)測,將全部的預(yù)測值相加得到最終的位移預(yù)測值.將位移預(yù)測結(jié)果與實測值進(jìn)行誤差分析,并與其他算法結(jié)果進(jìn)行對比.
CEEMDAN-PCCs-TCN-XGBoost 模型步驟如圖2所示.
圖2 CEEMDAN-PCCs-TCN-XGBoost模型步驟
以位于中國云南省某重力壩為例,壩頂高程為1 002 m,共19個壩段.為監(jiān)測大壩水平位移,在1、7、12、17及19 號壩段上布設(shè)正倒垂線,共計18 個測點,其中12 號為溢流代表性壩段,也是最主要的壩段,布置了3條不同錨固深度組成的倒垂線組,用以相互校核和比較不同深度的基巖變形的測值的大小,測點布置如圖3所示.樣本選取12號壩段的一個監(jiān)測點的倒垂線測點數(shù)據(jù)為測試案例,選取1999年7月15日到2005年10月9日之間共計574組數(shù)據(jù)的水平位移數(shù)據(jù)組成的時間序列,在輸入數(shù)據(jù)前將數(shù)據(jù)進(jìn)行歸一化處理.
圖3 正倒垂測點布置
大壩測點采集的原始位移數(shù)據(jù)受復(fù)雜條件的影響,監(jiān)測數(shù)據(jù)難免會包含高頻的波動,對模型分析的準(zhǔn)確性造成影響.為進(jìn)一步掌握數(shù)據(jù)的變化規(guī)律,從而獲取更多數(shù)據(jù)內(nèi)部的特征信息,本研究采用CEEMDAN 算法對原始位移數(shù)據(jù)進(jìn)行分解,分解完的各IMF分量和殘差如圖4所示.
圖4 位移數(shù)據(jù)CEEMDAN 分解結(jié)果
原始數(shù)據(jù)分解后得到9 個不同尺度的IMF 分量,頻率由高到低,對應(yīng)的IMF 圖像越來越平滑,考慮到直接對全部分解分量進(jìn)行預(yù)測,不僅計算量迅速增加,還會由于模型復(fù)雜導(dǎo)致預(yù)測結(jié)果偏差較大.因此需要將分解后的位移分量進(jìn)行重構(gòu)來提高預(yù)測精度.
樣本熵的模式維數(shù)取2,相似容限r(nóng)取25%的原序列標(biāo)準(zhǔn)差,根據(jù)樣本熵值分析各位移分量數(shù)據(jù)的復(fù)雜混亂程度以此重構(gòu)位移分量,樣本熵值越大,自我相似性就越低,產(chǎn)生新模式的概率越高,時間序列就越復(fù)雜,計算結(jié)果見表1.
表1 原始位移分量的樣本熵
將分量根據(jù)計算結(jié)果大小進(jìn)行重構(gòu),IMF3、IMF4值比較接近將其進(jìn)行對比,為了使數(shù)據(jù)更趨近于理想的位移趨勢變化,選擇更平滑的曲線,將值最大的4個分量合并作為波動項進(jìn)行預(yù)測,將其他相似性高的分量合并作為趨勢項使用HST 模型進(jìn)行預(yù)測,重構(gòu)的趨勢項與原位移序列前后對比如圖5 所示,趨勢項與原序列前后基本一致,說明降噪方法保留了監(jiān)測數(shù)據(jù)的原始特征.
圖5 重構(gòu)前后的對比
趨勢項特征明顯,主要以環(huán)境變量(水位、溫度和時間)為自變量,以影響變量(如變形、開裂或滲流)為因變量,建立回歸模型.一般回歸模型可表示為:
式中:y為效應(yīng)變量;H表示上游庫水位;a i、b i和c i表示回歸系數(shù);t表示觀測天數(shù);θ=t/100.
波動項波動變化幅度較大,眾多的監(jiān)測資料表明,波動項的波動變化和庫水位、壩體溫度的變化相關(guān)性較大,而原始的水位、溫度數(shù)據(jù)同樣波動幅度較大,隨機性較高,有必要對數(shù)據(jù)進(jìn)行分解以清除數(shù)據(jù)噪音并提取關(guān)鍵信息,選取測量得到的庫水位數(shù)據(jù)和壩體內(nèi)溫度計測量得到的溫度數(shù)據(jù)如圖6所示,數(shù)據(jù)波動頻繁,變化特征不明顯,故采用CEEMDAN 算法對水位數(shù)據(jù)、溫度數(shù)據(jù)進(jìn)行分解如圖7所示.
圖6 上游水位和溫度變化趨勢
圖7 CEEMDAN 分解結(jié)果
再利用Pearson相關(guān)系數(shù)分別分析波動項分量和各分量之間的相關(guān)性,選取相關(guān)性強的作為輸入變量,選取分量結(jié)果見表2.
表2 最終選取的分量與波動項的相關(guān)系數(shù)
本研究采用TCN 算法對趨勢項進(jìn)行預(yù)測,采用一維卷積網(wǎng)絡(luò),在Tensorflow 下實現(xiàn),卷積核大小為8,采用Adam 優(yōu)化器,學(xué)習(xí)速率為0.001,而波動項因為相關(guān)性較差采用高效的隨機梯度提升實現(xiàn)的XGBoost算法預(yù)測,選擇Pearson相關(guān)系數(shù)較高的分量作為輸入變量,每次迭代的模型選擇gbtree.預(yù)測結(jié)果如圖8所示.
圖8 位移預(yù)測結(jié)果
為了證明此模型的準(zhǔn)確性,本研究選取SVM、EMD-SVM、EEMD-ARIMA、EEMD-LSTM-MLR 模型對原位移序列進(jìn)行對比試驗,截取測試集進(jìn)行比較,預(yù)測結(jié)果如圖9 所示,各模型評價指標(biāo)對比見表3.由結(jié)果可知,本研究提出的CEEMDAN-PCCs-TCN-XGBoost模型相比于其他模型對大壩位移預(yù)測的擬合效果更高.
表3 各模型評價指標(biāo)對比
圖9 各模型預(yù)測結(jié)果對比
為了更準(zhǔn)確的量化模型預(yù)測效果,本文選取均方根誤差ERMS對極值點的預(yù)測偏差進(jìn)行比較、平均絕對誤差EMA對區(qū)間平均預(yù)測誤差進(jìn)行比較、平均絕對百分比誤差EMAP用來體現(xiàn)預(yù)測值與實測值之間的偏離程度以及擬合系數(shù)R2比較預(yù)測曲線與實測位移曲線擬合程度.本文提出的CEEMDAN-PCCs-TCN-XGBoost模型的ERMS、EMA、EMAP指標(biāo)相較于SVM 模型減小了72.72%、77.77%、79.58%,且R2指標(biāo)提高了39.58%;相較于EMD-SVM 模型減小了66.67%、71.42%、73.39%,且R2指標(biāo)提高了21.87%;而對比EEMD-ARIMA 模型和EEMD-LSTM-MLR模型的ERMS、EMA、EMAP指標(biāo),分別減少了57.14%、60%、63.29%和50%、60%、63.75%,R2指 標(biāo) 提 高了10.41%和9.38%,位移預(yù)測精度相較于別的模型都有明顯的提升,驗證了模型的準(zhǔn)確性.
同時為了驗證模型的可行性,進(jìn)一步采用其他測點進(jìn)行驗算,另選測點進(jìn)行模型可行性的驗證,結(jié)果如圖10所示.由結(jié)果可知,該模型適用于不同測點,驗證了模型的可行性.
圖10 其他測點預(yù)測結(jié)果
本研究提出了基于CEEMDAN-PCC-TCN-XGBoost模型的位移預(yù)測方法,將模型運用到實例中,研究結(jié)果表明:
1)CEEMDAN 使得數(shù)據(jù)變得光滑特征明顯,有效避免模態(tài)混疊現(xiàn)象,且相較于EMD-SVM、EEMDARIMA、EEMD-LSTM-MLR 等 模 型CEEMDANPCCs-TCN-XGBoost模型預(yù)測精度得到大幅度提升,能更好的模擬波動數(shù)據(jù)的變化特征,并且得到了水位和溫度分量對位移波動影響大.
2)從結(jié)果來看,對波動項的預(yù)測精度有待提高,因此未來還要繼續(xù)發(fā)掘波動項和其他輸入變量的變化相關(guān)性,提高波動項的預(yù)測精度.