張健飛 葉亮 王磊
摘 要:混凝土壩變形測點數據丟失或者新增測點測量時間太短都會導致這部分測點的數據量不足,使得變形預測精度受到影響。為了提高這些小數據量測點的變形預測精度,提出了將時域卷積網絡(TCN)與遷移學習相結合的變形預測方法。以數據量充足的測點為源域,以缺少數據的測點為目標域,將在源域上訓練好的TCN 模型的結構和參數遷移到目標域模型中,固定其中的凍結層參數,利用目標域中的數據對目標域模型可調層參數進行調整。同時,采用動態(tài)時間規(guī)整選擇與目標域數據序列相似度最高的監(jiān)測數據作為最佳源域數據,提升遷移學習效果。工程實例分析表明:遷移學習后的目標域模型的均方根誤差和平均絕對誤差與利用足量數據訓練的TCN 模型的預測誤差相比,差異僅分別為1.73%和8.09%,小數據量情況下TCN 預測模型的精度得到了提高。
關鍵詞:時域卷積網絡;遷移學習;動態(tài)時間規(guī)整;變形預測
中圖分類號:TV698.1 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.04.024
引用格式:張健飛,葉亮,王磊.基于TCN 和遷移學習的混凝土壩變形預測方法[J].人民黃河,2024,46(4):142-147.
混凝土壩是大壩的主要壩型之一,目前全球壩高250 m 以上的大壩超過一半為混凝土壩。這些混凝土壩在運行過程中受到循環(huán)荷載、環(huán)境侵蝕、人為破壞及自然災害等因素作用,局部和整體安全性能將逐步下降。變形是一種能夠直觀反映混凝土壩安全狀態(tài)的綜合效應量。通過大壩變形分析和預測,能夠實時掌握大壩工作性態(tài)、及時診斷大壩異常,因此依據實測數據建立變形預測模型對混凝土壩的安全運行具有重要意義[1] 。目前,應用較廣的混凝土壩變形預測模型主要有統(tǒng)計模型、確定性模型、混合模型、組合模型、時空分布模型和人工智能模型等[2] 。
隨著深度學習的快速發(fā)展,長短期記憶網絡(LongShort?Term Memory,簡稱LSTM)和卷積神經網絡(Convo?lutional Neural Networks,簡稱CNN)等深度神經網絡已經在混凝土壩變形預測中得到了應用。其中LSTM 在長時間序列數據學習訓練中克服了梯度爆炸和梯度消失的瓶頸,具有較強的長序列數據學習能力,在混凝土壩變形預測中研究成果較多[3-5] ,但LSTM 模型的每一步預測都依賴上一步的隱藏狀態(tài),并行性較差,且存在訓練耗時長、處理長序列時容易丟失信息等問題[6] 。時域卷積網絡( Temporal Convolutional Network, 簡稱TCN)的提出為時間序列建模提供了一種新的思路。TCN 由具有相同輸入和輸出長度的膨脹因果卷積層組成,具有占用內存小、梯度穩(wěn)定、并行性好和感受野靈活的優(yōu)點,較之LSTM 等循環(huán)神經網絡,概念更加簡潔明了,記憶能力更加長久[7] ,已經在降水量預測[8] 、天氣預測[9] 和用電量預測[10] 等方面得到了較多應用,并開始用于大壩變形預測[11] 。
LSTM 和TCN 等深度學習模型雖然都取得了優(yōu)良的預測效果,但是其訓練需要足夠長的連續(xù)監(jiān)測序列數據。實際工程中,有的大壩變形測點因儀器故障、誤操作等而造成前期監(jiān)測數據大量丟失,有的新建測點因監(jiān)測周期短而使得監(jiān)測數據偏少。對于這些監(jiān)測數據不足的情況,深度學習模型容易出現過擬合,模型的泛化性能變差、預測精度下降。因此,有必要研究在缺少監(jiān)測數據條件下的深度學習預測模型的有效訓練問題。遷移學習是一種將源域中學習到的知識遷移到目標域的學習過程。采用遷移學習,可以將具有足量數據的同類或者不同類測點的信息遷移到數據量不足的測點,從而在一定程度上解決訓練樣本不足的問題,分為基于模型、基于實例、基于特征和基于關系的遷移學習4 類。目前,在時間序列預測領域,基于模型的遷移學習研究較多,其次是基于實例的遷移學習,而基于特征和關系的遷移學習相對較少。王學智等[12] 提出了一種土壤濕度時空預測模型,采用三維卷積層和長短期記憶網絡提取源域中的空間和時間特征,利用目標數據集對網絡參數進行微調。史凱鈺等[13] 以數據充足的光伏系統(tǒng)為源域,以數據有限的光伏系統(tǒng)為目標域,建立了一種基于LSTM 的光伏發(fā)電功率預測模型。Ma 等[14] 提出了一種基于遷移學習的雙向LSTM 空氣質量預測模型,以小時間分辨率數據為源數據,以大分辨率數據為目標數據,采用源數據對模型進行預訓練,采用目標數據對剩余網絡層進行調整。Hu 等[15] 采用具有豐富數據的已建風電場的數據對深度神經網絡進行訓練,利用新建風電場的數據對網絡參數進行微調,實現不同風電場信息的相互遷移。Chen 等[16] 采用TrAdaBoost 算法建立了一種基于實例遷移的LSTM 模型,從相關測點完整監(jiān)測數據中獲取有用的信息,實現大段連續(xù)缺失數據的填補。
本文提出一種基于TCN 和遷移學習的混凝土壩變形預測方法,用于在缺乏足夠監(jiān)測數據條件下建立有效的變形預測模型。首先以具有足夠監(jiān)測數據的測點為源域,以缺乏數據的測點為目標域,采用TCN 建立源域和目標域的預測模型,然后根據動態(tài)時間規(guī)整(Dynamic Time Warping,簡稱DTW)距離選取與目標域數據相似度最高的源域數據對源域模型進行訓練,目標模型的低層網絡權重直接從源域模型中獲取,高層網絡權重在源域模型權重的基礎上利用目標域數據進行調整,從而實現源域知識向目標域的遷移,提高監(jiān)測數據量不足情況下的變形預測精度。
1 基于TCN 和遷移學習的預測模型
1.1 時域卷積網絡
TCN 是一種用于時間序列建模的卷積神經網絡,核心組件是因果膨脹網絡,其主要特點是:網絡的輸入與輸出具有因果關系,感受野的大小可以通過改變超參數進行調整。假設輸入序列為{x0,x1,…,xT },預測輸出序列為{y0,y1,…,yT },時刻t 的預測值yt 由輸入序列值的卷積運算得到,并且滿足因果關系,即yt只依賴于t 時刻及之前的輸入x0、x1、…、xt ,而與未來的xt +1、xt +2、…、xT無關,這種卷積被稱為因果卷積。對于時間序列預測,網絡通常需要記憶長期的信息,也就是需要TCN 具有足夠大的感受野。原始的因果卷積的感受野與網絡深度成線性關系,為擴大模型的感受野,需要堆疊較多的卷積層,從而增加了網絡訓練的計算量和難度。TCN 中使用了膨脹卷積,在卷積核的相鄰節(jié)點間設置特定數量的空隙,從而使得感受野大小與網絡深度成指數關系,在不改變卷積核大小的情況下可以獲取更大范圍的信息。因果膨脹卷積輸出序列的第s 個元素的卷積運算函數F(s)定義為
式中:fi為卷積核,k 為卷積核尺寸,d 為膨脹因子。
在膨脹卷積中通常按網絡深度的指數方式增大膨脹因子,這樣可以保證卷積操作覆蓋到有效范圍內的所有輸入元素。深層網絡在訓練過程中容易出現梯度消失和梯度爆炸的問題,殘差鏈接被證明是訓練深層網絡的有效方法,它使得網絡能夠跨層傳遞信息。本文用于混凝土壩變形預測的TCN 模型結構如圖1 所示,包括輸入層、若干膨脹卷積殘差塊和輸出層。
每個膨脹卷積殘差塊由膨脹因果卷積層、ReLU激活層和隨機失活層(Dropout)組成。輸入序列{x0,x1,…,xT }依次經過若干個膨脹卷積殘差塊,在每個殘差塊中,輸入元素經過一系列變換后得到的元素與原始輸入元素相加,并通過ReLU 激活層、隨機失活層運算得到輸出元素。
TCN 預測模型由殘差塊完成對輸入序列時間特征的提取,輸出層為全連接層,負責將殘差塊的多維輸出元素組合后作為下一時刻的預測值。
1.2 遷移學習
遷移學習涉及源域Ds 、源任務Ts 和目標域Dt 、目標任務Tt 。遷移學習的目標就是在Ds ≠Dt 或者Ts ≠Tt的情況下,用Ds 和Ts 的知識,來提升目標任務Tt 的完成效果。本文采用的是基于模型的遷移學習方法,源域為具有足夠長變形監(jiān)測數據序列的測點,源任務為源域測值的預測,目標域為變形監(jiān)測數據量不足的測點,目標任務是目標域測值預測,通過遷移學習將源域上訓練好的模型結構和參數選擇性遷移到目標域模型中,為目標域提供有價值的信息,提升目標域的測值預測能力。
遷移學習流程如圖2 所示,在遷移過程中,預訓練網絡的若干低層殘差塊為凍結層,高層殘差塊和輸出層為可調層,也就是說在利用目標域數據進行訓練時,只對高層殘差塊和輸出層的參數進行調整,其余各層的參數保持不變,從而大大減少了訓練參數,降低了對訓練數據量的要求。遷移學習具體步驟如下。
1)預訓練。建立源域變形預測TCN 模型,利用源域數據對源域模型進行訓練,保存模型的結構和參數。
2)網絡調整。讀取源域模型結構和參數,建立目標域變形預測模型,利用目標域數據對目標域模型進行訓練,訓練過程中固定凍結層參數,僅對可調層參數進行調整。
3)網絡驗證。將目標域測試集數據輸入目標域模型得到預測值,與實測值對比,分析遷移后的模型性能。
1.3 基于動態(tài)時間歸整的時間序列相似度匹配
遷移學習并不總是有效的,當源域和目標域數據分布差異較大時會出現負遷移現象,即源域知識反而會導致目標域學習性能下降。本文采用DTW 方法衡量源域和目標域數據序列的相似度,選取相似度最高的源域數據對目標域預測任務進行增強。DTW 是一種比較兩個長度不同的時間序列的方法,其基本原理是通過對兩個時間序列進行局部拉伸和壓縮,使其相互之間盡量相似,然后通過累加對齊點之間的距離得到時間序列之間的距離,用于衡量時間序列之間的相似度[17] 。目前,DTW 方法已經在語音識別[18] 、手勢識別[19] 和故障診斷[20] 等領域得到了廣泛應用。
給定兩個長度分別為n 和m 的時間序列Q ={q1,q2,…,qn }和C ={c1,c2,…,cm },構造一個n×m 的矩陣D,矩陣中元素qi和cj 的距離為d(qi ,cj ),一般為歐氏距離。規(guī)整路徑W 為一條通過矩陣D 中若干格點(i,j)的路徑,路徑通過的格點即兩個序列進行計算的對齊點。W 的第k 個元素定義為wk = (i,j)k ,從而得到規(guī)整路徑:
W ={w1,w2,…,wK } [max(m,n)≤K≤m+n+1](2)
這條路徑需要滿足連續(xù)性和單調性約束,因此如果路徑已經通過了格點(i,j),那么下一個通過的格點只可能是(i+1,j)、(i,j+1)或(i+1,j+1)。滿足這些約束條件的路徑很多,動態(tài)時間規(guī)整的目的就是在這些路徑中找到一條累計距離最小的最優(yōu)路徑。為了求解最優(yōu)路徑,構建累計距離矩陣γ,其中的元素γ(i,j)為當前格點距離d(qi ,cj )與可以到達該點的鄰近元素的最小累計距離之和:
γ(i,j)= d(qi ,cj )+min[γ(i-1,j-1),γ(i-1,j),γ(i,j-1)](3)
采用動態(tài)規(guī)劃算法求解式(3),從(0,0)點開始匹配時間序列Q 和C,到達終點(n,m)后,得到的累計距離就是最后的DTW 距離,距離越小表示這兩個時間序列越相似。
2 實例驗證與分析
2.1 工程實例
某混凝土重力壩,壩頂高程117.5 m,最大壩高85.83 m,壩頂總長719.7 m,共分為34 個壩段,如圖3所示。大壩和船閘的水平位移采用垂線及引張線進行觀測,垂直位移主要采用靜力水準觀測,引張線和靜力水準測點均接入自動化監(jiān)測系統(tǒng),每天自動觀測1 次。本文所使用的變形測點布置如圖3 所示,包括:壩頂引張線測點EX2-7、EX2-8、EX2-13、EX2-14 和EX2-21,廊道引張線測點EX1-8,以及船閘閘墻引張線測點SS41;壩頂靜力水準測點J9、J10、J15、J21、J26 和壩基靜力水準測點JJ15-1。引張線測點監(jiān)測時段為2005-01-01—2021-02-27,壩頂靜力水準測點監(jiān)測時段為2004-04-15—2021-03-23,壩基靜力水準測點的監(jiān)測時段為2006-06-10—2021-03-14。大壩變形主要受溫度影響,呈現較強的年周期變化規(guī)律,船閘閘墻主要受溫度和閘室水位影響。
為了對TCN 進行訓練,需要采用滑動窗口的方法把原始監(jiān)測序列數據轉化為一系列子序列,形成如式(4)所示的數據對:
{ST - W ,ST -( W -1) ,…,ST -2,ST -1}→{ST } (4)
式中:{ST - W ,ST -( W -1) ,…,ST -2,ST -1}為輸入序列;{ST }為預測值;W 為滑動窗口的寬度,也是輸入序列的長度。
滑動窗口每次向前移動1 步,從而對于長度為N的監(jiān)測序列數據,可以形成N -W +1 個數據對,作為TCN 的訓練和測試樣本。
2.2 網絡超參數
神經網絡模型的結構和超參數對其性能具有很大的影響,本文利用EX2-14 測點的實測數據和網格搜索法對神經網絡結構和參數進行搜索尋優(yōu),模型的評價指標采用5 折交叉驗證均方根誤差。TCN 網絡的搜索超參數包括:殘差塊中膨脹卷積的卷積核尺寸和卷積核個數,搜索格點分別為2、4、8 和16、32、48,共計9種超參數組合。搜索得到的最優(yōu)超參數組合為:卷積核尺寸2,卷積核個數32。殘差塊的個數根據輸入序列長度與感受野覆蓋關系確定,分別測試了輸入序列長度為15、30、60 三種情況,當輸入序列長度取值30時,預測效果最好,因此本文輸入序列長度統(tǒng)一?。常啊8鶕裕茫?網絡感受野要能覆蓋輸入序列長度的要求,本文TCN 包括5 個膨脹卷積殘差塊,每個殘差塊中的膨脹因子分別為1、2、4、8 和16。
LSTM 網絡參與比較。分別對包含1 層、2 層和3層LSTM 的網絡結構的不同超參數組合進行了比選,搜索超參數為每一層LSTM 的輸出維度,搜索格點為16、32、48。一層LSTM 結構共計3 種超參數組合,二層結構共計9 種超參數組合,三層結構共計27 種超參數組合,綜合考慮精度和效率后選用二層網絡結構,每層輸出維度均為32。
2.3 TCN 預測結果與分析
為了檢驗TCN 在混凝土壩變形預測中的效果,本文采用圖3 所示測點的監(jiān)測數據對TCN 進行訓練和測試,并與LSTM 網絡進行了比較,訓練集、驗證集和測試集的劃分比例?。?∶ 2 ∶ 2。各測點在測試集上的均方根誤差( 簡稱RMSE) 和平均絕對誤差( 簡稱MAE)見表1??芍海裕茫?和LSTM 在總體上具有較高的預測精度,TCN 在多數測點上的精度略高于LSTM,對于如圖4 和圖5 所示規(guī)律性較差的JJ15-1 測點以及測試集存在突變段的EX2-21 測點,TCN 的預測精度明顯高于LSTM,說明TCN 具有更強的時間特征挖掘能力和預測能力。
2.4 遷移學習結果分析
為了說明訓練數據量對模型精度的影響, 以EX2-14測點為例,分別截取原始訓練數據序列長度的100%、75%、50%、25%、10%和5%作為訓練數據集,即訓練數據序列長度分別為5 269、3 952、2 635、1 317、527 和263。測試集統(tǒng)一取最后一年的監(jiān)測數據,其有效監(jiān)測期數為359,避免測試集樣本及其數量的不同造成預測誤差計算的基準不同,使得誤差不具有可比性。圖6 為TCN 模型在EX2-14 測點不同長度訓練數據集上10 次計算的預測結果的箱線圖。數據足量時誤差均值最小,RMSE 和MAE 分別為0.392 3 mm 和0.206 5 mm,隨著訓練數據量的下降,預測誤差的均值逐漸增大,預測誤差分散程度也逐步增大,當訓練數據量較大時誤差增大幅度較小,且運算結果穩(wěn)定,當數據量降為原有數據量的10%以下后,誤差大幅增大,預測結果更加分散,當數據量降至原有數據量的5%時誤差均值最大,RMSE 和MAE 分別為0.750 5 mm 和0.524 8 mm,說明訓練數據量對于模型的精度和穩(wěn)定性都具有重要影響。
為了驗證本文提出的遷移學習策略的效果,選取具有5%訓練數據長度的引張線測點EX2-14 作為數據量不足的目標域,以表2 中的其他測點作為源域,這些源域數據集的選取分別考慮了壩段類型、測點類型和距離等因素。同時,為了選取最佳遷移方案,分別對3 種不同的遷移方案進行了測試:方案1,圖2 中僅輸出層可調整;方案2,卷積殘差模塊5 和輸出層可調整;方案3,卷積殘差模塊4、5 和輸出層可調整。表2給出了不同源域和不同遷移方案的遷移學習效果。可知:與圖6 中同等訓練數據量的預測結果相比,經過遷移學習后的目標域模型的預測精度較遷移學習前得到了大幅提高,不同源域的遷移效果各不相同,遷移方案2和3 整體上優(yōu)于方案1,方案3 較之方案2 沒有明顯效果提升,說明過度增加可調整層不能進一步提高遷移效果。因此,本文選取遷移方案2 作為最終的遷移方案。
考慮到監(jiān)測數據缺失周期內大壩不同測點對不同工作狀態(tài)的反應可能存在不一致的情況,從而造成這些測點的監(jiān)測數據之間存在較大差異。為了選取最佳源域測點,獲取最佳的遷移學習效果,采用DTW 方法衡量源域監(jiān)測序列與目標域監(jiān)測序列的相似度,選擇相似度最高即DTW 距離最小的監(jiān)測序列作為源域數據。DTW 距離越小,通常遷移學習效果越好(見表2),從圖7 也可以看出,DTW 距離與遷移學習后的預測誤差基本為正線性相關,隨著DTW 距離的減小,預測誤差相應減小。因此,DTW 距離可以作為源域選取的依據,即選?。模裕?距離最小的測點作為源域。
數據量不足的EX2-14 測點經過最佳源域測點EX2-13 遷移學習后,目標域TCN 模型在測試集上RMSE 和MAE 分別為0.399 1 mm 和0.223 2 mm,與利用足量數據訓練的模型預測誤差相比,其差異僅分別為1.73%和8.09%。經過最佳源域測點EX2-13 遷移學習后目標域TCN 模型在測試集上的預測曲線及其與遷移前的比較見圖8??梢钥闯觯哼w移學習后目標域模型的預測精度得到了很大提高,預測曲線與實測曲線更加吻合。說明選擇合適的源域,經過遷移學習,可以大幅提高缺少數據的目標域TCN 模型的預測精度。
3 結論
首先建立了混凝土壩變形預測的TCN 模型,然后針對缺少數據的測點,采用遷移學習策略,將數據量充足的源域中學習到的知識遷移到缺少數據的目標域,提升小數據序列情況下TCN 模型的預測能力。主要結論如下:
1)混凝土壩變形預測的TCN 模型具有較高的預測精度,特別是對于比較復雜的變形監(jiān)測序列,較之LSTM 模型能夠取得更高的預測精度;
2)通過模型遷移,可以將數據量充足的源域預測模型的知識遷移至數據量不足的目標域模型,從而提升目標域模型的泛化能力和預測精度;
3)通過DTW 可以選擇與目標域數據相似度高的監(jiān)測數據作為源域數據,進一步提升遷移學習效果。
本文所述遷移學習是在同一工程的不同測點之間的知識遷移,未來還將研究不同工程之間的遷移學習問題。
參考文獻:
[1] 周仁練,蘇懷智,韓彰,等.混凝土壩變形的長期預測模型與應用[J].水力發(fā)電學報,2021,40(9):122-131.
[2] 吳中如,陳波.大壩變形監(jiān)控模型發(fā)展回眸[J].現代測繪,2016,39(5):1-3,8.
[3] 胡安玉,包騰飛,楊晨蕾,等.基于LSTM-Arima 的大壩變形組合預測模型及其應用[J].長江科學院院報,2020,37(10):64-68,75.
[4] 周蘭庭,柳志坤,徐長華.基于WA-LSTM-ARIMA 的混凝土壩變形組合預測模型[J].人民黃河,2022,44(1):124-128.
[5] YANG Dashan,GU Chongshi,ZHU Yantao,et al.A ConcreteDam Deformation Prediction Method Based on LSTM with At?tention Mechanism[J].IEEE ACCESS,2020,8:185177-185186.
[6] 左乘旭,胡文?。冢粒簦簦澹睿簦椋铮睿裕茫?的液化氣日訂單量預測模型[J].計算機應用,2022,42(增刊1):87-93.
[7] 王軍,高梓勛,單春意.基于TCN-Attention 模型的多變量黃河徑流量預測[J].人民黃河,2022,44(11):20-25.
[8] 徐冬梅,王亞琴,王文川.基于VMD-TCN 的月降水量預測模型[J].水文,2022,42(2):13-18.
[9] 孔震,張華魯,岳圣凱,等.基于時域卷積網絡的多尺度雙線性天氣預測模型[J].圖學學報,2020,41(5):764-770.
[10] 李揚帆,張凌浩,雷勇,等.基于時間卷積網絡和門控循環(huán)單元的短期用電量預測方法[J]. 水電能源科學,2021,39(8):198-201,173.
[11] 曾欣,馬力,戴子卿.基于動態(tài)MIC 優(yōu)化TCN 的混凝土壩變形預測模型研究[J].水力發(fā)電,2022,48(10):58-63.
[12] 王學智,李清亮,李文輝.融合遷移學習的土壤濕度預測時空模型[J].吉林大學學報(工學版),2022,52(3):675-683.
[13] 史凱鈺,張東霞,韓肖清,等.基于LSTM 與遷移學習的光伏發(fā)電功率預測數字孿生模型[J].電網技術,2022,46(4):1363-1372.
[14] MA J,CHENG J C P,LIN C,et al.Improving Air QualityPrediction Accuracy at Larger Temporal Resolutions UsingDeep Learning and Transfer Learning Techniques[J].At?mospheric Environment,2019,214(C):116885.
[15] HU Qinghua,ZHANG Rujia,ZHOU Yucan.Transfer Learningfor Short?Term Wind Speed Prediction with Deep Neural Net?works[J].Renewable Energy,2016,85:83-95.
[16] CHEN Zeng,XU Huan,JIANG Peng,et al. A TransferLearning?Based LSTM Strategy for Imputing Large?ScaleConsecutive Missing Data and Its Application in a WaterQuality Prediction System[J].Journal of Hydrology,2021,602:126573.
[17] GIORGINO T.Computing and Visualizing Dynamic TimeWarping Alignments in R: The DTW Package[J].Journalof Statistical Software,2009,31(7):1-24.
[18] 祝禛天,焦繼業(yè),劉澤?。Z音識別中動態(tài)時間規(guī)整算法的硬件加速實現[J].電子設計工程,2022,30(7):21-25.
[19] 楊尊儉,張淑軍.基于DTW 和CNN 的仿真駕駛手勢識別及交互[J].重慶理工大學學報(自然科學),2021,35(2):144-151.
[20] 萬書亭,馬曉棣,陳磊,等.基于振動信號短時能熵比與DTW 的高壓斷路器狀態(tài)評估及故障診斷[J].高電壓技術,2020,46(12):4249-4257.
【責任編輯 張華巖】
基金項目:國家自然科學基金資助項目(12072105)