高瞇瞇,張永彬
(華北理工大學 礦業(yè)工程學院,河北 唐山 063210)
人類的生存長期依賴于地表,但是地表也在發(fā)生變化,地表的變化可能會引起不同程度的地質(zhì)災害,具體包含崩塌、地表沉降甚至是地震,而各種災害也在地表形成了不同的影響[1-3]。由于經(jīng)濟的發(fā)展,城市化水平持續(xù)提升,地表上面各種基礎設施逐漸完善,各類大型工程及建筑應際而生,不勝枚舉。地表的變形引發(fā)建筑物的變形,這種現(xiàn)象對人類的生活產(chǎn)生巨大的影響。變形監(jiān)測的數(shù)據(jù)存在時間序列的特點,而時間序列目前已經(jīng)被視為一項關鍵的研究領域。如何精確地開展時間序列尤其是非線性時間序列的測量變得非常關鍵,當前有大量的研究方式應用于時間序列的預測方面[4]。由于變形監(jiān)測數(shù)據(jù)類型不斷豐富,學者們對于大型工程項目涉及形變的規(guī)律具有了一定的了解。然而許多數(shù)據(jù)并未實現(xiàn)全面的運用,目前學者借助海量的數(shù)據(jù)結合數(shù)據(jù)驅(qū)動模型共同探究其規(guī)律,由此預測工程監(jiān)測點的位移情況[5]。伴隨著海量的數(shù)據(jù)集的上漲以及高速的計算能力,結構更加繁瑣的神經(jīng)網(wǎng)絡受到了廣泛的關注,并在各個領域得到了廣泛的應用[6-8]。由于學術界有關時序研究方面的重視不斷提高,學者們把這一方式使用在時序研究的行為上,并涉及到多個行業(yè)。地表的沉降需要采取一定的手段進行監(jiān)測,如何快速、準確地獲取沉降數(shù)據(jù),一直以來是學者們研究的重點。
深度學習的出現(xiàn),使得各類神經(jīng)網(wǎng)絡預測模型相繼應用在變形監(jiān)測領域。通過深度學習預測模型的手段分析地表沉降的時間演化規(guī)律和演化特征,準確預測研究區(qū)的沉降情況。
自回歸移動平均模型(ARIMA)作為傳統(tǒng)的時間序列預測模型,只能處理序列的線性特征。在模型構建過程中,主要考慮形變監(jiān)測序列數(shù)據(jù)的平穩(wěn)性,平穩(wěn)性主要強調(diào)通過樣本時間序列獲取擬合曲線,然后從將來某個階段可以沿著當前的形態(tài)進一步延續(xù)。如果數(shù)據(jù)不平穩(wěn),需要開展平穩(wěn)化處理。模型參數(shù)的確定主要包括:自回歸項表示的序列之前和現(xiàn)在的時刻值存在的關聯(lián)性,差分階數(shù)體現(xiàn)了序列平穩(wěn)化要求的差分次數(shù),移動平均項反映了序列之前時刻值的階數(shù)以及當前時刻值的干擾量。把自回歸模型與移動平均模型相結合,便可以得到移動平均模型。其公式如下:
(1)
式中:μ表示的是常數(shù)項,yt表示的是當前值,yt-i表示的是i時刻前的值,p、q表示的是模型階數(shù),γi,θi表示的是模型的相關系數(shù),εt表示的是誤差值。
支持向量機模型(SVM)原理在于從高維空間當中確定某個平面,然后讓集合內(nèi)全部的數(shù)據(jù)保持與平面最近。不敏感參數(shù)主要影響的是支持向量的數(shù)量,屬于模型泛化性能的體現(xiàn),如果數(shù)據(jù)超出閾值,涉及預測的支持向量數(shù)量下降,所以學習水平削弱,預測的準確性下滑;如果不敏感參數(shù)未達到閾值,預測的準確性更好。懲罰因子值越大說明模型有關數(shù)據(jù)的要求嚴格,可能產(chǎn)生過擬合;反之,證實模型關于數(shù)據(jù)點設定的條件更寬泛,可能產(chǎn)生擬合。
變形監(jiān)測時間序列數(shù)據(jù)被劃分成了訓練集和預測集,在訓練集T={xi,yi},(i=1,2,…,n)中,xi為訓練集中的形變量數(shù)據(jù),yi為模型輸出的訓練結果,n為訓練集中樣本的個數(shù),{xi,yi}之間的支持向量機關系函數(shù)為f(x),則函數(shù)表達式為:
f(x)=wTx+b
(2)
式中:w表示的是權重值,b表示的是偏置向量。
長短期記憶循環(huán)神經(jīng)網(wǎng)絡模型(LSTM)屬于循環(huán)神經(jīng)網(wǎng)絡的演變,針對數(shù)據(jù)當中的非線性部分具備一定的處理優(yōu)勢,也使用在各種地表形變測試階段,從某個單元增加"門"結構,讓網(wǎng)絡發(fā)揮出記憶作用,表現(xiàn)其良好的自學習能力,在時間序列問題上比較實用。地表變形監(jiān)測的數(shù)據(jù)存在時間特征,借助深度學習的方式對變形監(jiān)測信息開展模型建立,LSTM模型能夠憑借早期監(jiān)測數(shù)據(jù)的訓練,預估未來的變化狀況。LSTM模型通過訓練數(shù)據(jù)集的重復訓練,得到模型內(nèi)不同參數(shù)的最佳解,借助參數(shù)建立的模型,并關于之后的變化情況展開預測。
研究區(qū)位于河北省唐山市路南區(qū),為開灤唐山礦和增盛礦、劉莊礦經(jīng)過長期地下采煤活動形成,根據(jù)采空區(qū)地面沉降情況,劃定研究區(qū)范圍為:北至南新道,東至復興路、唐柏路,南至津唐公路,西至沿胥各莊、新袁莊一線。南至北緯39°33′10″,北至北緯39°37′24″,東西向從東經(jīng)118°8′4″至東經(jīng)118°12′55″所涵蓋的區(qū)域。京山鐵路縱貫全區(qū),交通便利,地勢平坦開闊。整個研究區(qū)東西長約為5.0 km,南北長約為7.4 km,總面積為28.73 km2。研究區(qū)域地形簡單,地貌類型單一,地勢開闊平坦,總體趨勢呈北高南低。研究區(qū)具體的地理位置分布如圖1所示。
圖1 研究區(qū)地理位置分布
以地表形變數(shù)據(jù)作為模型的輸入值,選取研究區(qū)東西向上的ZP1、ZP2、ZP3和南北向上的QP1、QP2、QP3,總共6個點作為測試點。一共選取了36期監(jiān)測數(shù)據(jù),經(jīng)過數(shù)據(jù)預處理,將研究區(qū)變形監(jiān)測數(shù)據(jù)按照3:1的比例進行數(shù)據(jù)劃分,前27期(2017年9月12日至2019年12月19日)作為訓練集,后9期(2020年1月12日至2020年9月20日)作為預測集。分別利用ARIMA模型、SVM模型、LSTM模型對地表形變時序信息進行預測。6個測試點的原始結果與ARIMA模型、SVM模型、LSTM模型的預測結果情況如表1和表2所示。其中,表1所示為研究區(qū)東西向上3個測試點ZP1、ZP2、ZP3的形變情況,表2所示為研究區(qū)南北向上3個測試點QP1、QP2、QP3原始值與各個模型的預測值。
表1 東西向測試點各模型預測結果
表2 南北向測試點各模型預測結果
利用3種模型分別對6個測試點進行擬合預測。圖中:原始結果用黑色的曲線表示,LSTM模型預測結果用紅色的曲線表示,SVM模型預測結果用藍色的曲線表示,ARIMA模型預測結果用綠色的曲線表示。
在各個模型擬合過程中,ARIMA模型的預測值與實測值之間最大的差值,在ZP1測試點為8.11 mm,在ZP2測試點為7.33 mm,在ZP3測試點為6.70 mm;SVM模型的預測值與實測值相差的最大值,在ZP1測試點是7.96 mm,在ZP2測試點為8.31 mm,在ZP3測試點為4.96 mm;LSTM模型的預測結果與實測結果間的最大差值,在ZP1測試點為6.07 mm,在ZP2測試點為5.83 mm,在ZP3測試點為3.91 mm。
在測試點QP1處,ARIMA模型的預測值與實測值之間最大的差值為5.83 mm,SVM模型的預測值與實測值相差的最大值為5.44 mm,LSTM模型的預測結果與實測結果間的最大差值是5.31 mm;在測試點QP2處,ARIMA模型、SVM模型和LSTM模型的預測結果與實測結果的最大差值分別為:7.33 mm、7.92 mm、7.23 mm;在測試點QP3處,ARIMA模型的預測值與實測值之間相差結果最大為6.13 mm ,兩者之間最大差值為5.93 mm的是SVM模型,二者相差的最大值為5.23 mm的是LSTM模型。綜合6個測試點上各個模型的預測情況,可以看出,在所有測試點上LSTM模型的預測結果總是與實測結果之間差值最小。
從表1、表2和沉降-時間走勢圖2可知,針對地表變形監(jiān)測時序數(shù)據(jù)的預測,深度學習LSTM模型的表現(xiàn)性能最好,其次是機器學習SVM模型,最差的是傳統(tǒng)統(tǒng)計學ARIMA模型。變形監(jiān)測數(shù)據(jù)當中具有的高度非線性部分是值得關注的,引起線性ARIMA模型難以有效解決變形數(shù)據(jù)的關鍵要素。因此,ARIMA模型關于地表變形監(jiān)測方面還存在不足。SVA模型可以借助核函數(shù)展開超平面的區(qū)分,正確選擇懲罰因子有利于應對數(shù)據(jù)當中的非線性部分,不過預測準確度不太穩(wěn)定。LSTM模型可以達到良好的預測效果,因為深度學習模型穩(wěn)定的非線性優(yōu)化水平,還有在序列數(shù)據(jù)的記憶水平,從RNN前提下展開的優(yōu)化使得LSTM模型從應對時間序列的過程中表現(xiàn)出顯著的優(yōu)勢,這一階段模型的泛化以及擬合效果良好沒有產(chǎn)生欠擬合、過擬合問題,能夠全面刻畫時序數(shù)據(jù)。
圖2 測試點原始結果與各模型預測結果對比
為了對實驗模型的預測性能作出定量評價,選擇均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分誤差(MAPE)作為模型預測效果的評估指標。針對預測來講,評價指標的值越小說明模型對于變形監(jiān)測數(shù)據(jù)的擬合程度高,模型具有較高的預測精度,反之,值越大說明模型的預測值與實際值之間存在一定的偏離。
其中均方根誤差公式表示為:其中均方根誤差公式表示為:
(3)
式中:
yobs,t—某一觀測點t時刻的真實值;yout,t—某一觀測點t時刻模型輸出的值;N—數(shù)據(jù)點個數(shù)。
其中平均絕對誤差公式表示為:
(4)
其中平均百分比誤差公式表示為:
(5)
表3所示為6個測試點在不同評價指標情況下模型精度對比。
表3 各測試點各模型精度對比
結果顯示LSTM模型在所有測試點上RMSE的最大值為1.978 9,MAE的最大值為0.876 6,MAPE的最大值為6.500 3。SVM模型在6個測試點上評估指標RMSE、MAE、MAPE的最大值分別為2.919 1,2.345 0和20.426 6。ARIMA模型在實驗選取的測試點上最大的RMSE值為4.606 0、最大的MAE的值為3.955 7、最大的MAPE的值為19.617 2。
通過對各個模型的精度比較可以看出,ARIMA模型精度最差,SVM模型精度有所提高,但穩(wěn)定性較差,深度學習LSTM模型的精度和穩(wěn)定性優(yōu)于其他模型,在所有測試中都表現(xiàn)良好,均方根誤差基本在1以內(nèi),平均絕對百分誤差值也較小,能夠滿足預測精度,可應用于實際生產(chǎn)中。通過該項實驗研究得到的數(shù)據(jù)和繪制的沉降-時間走勢圖結果表明,深度學習LSTM模型具有很高的精度,完全符合工程應用要求,為研究區(qū)的地表形變預測提供了一種可靠的理論依據(jù),為唐山南湖地區(qū)后期建設發(fā)展提供科學決策依據(jù)和數(shù)據(jù)支撐。
(1)在唐山南湖地區(qū)變形監(jiān)測時間序列數(shù)據(jù)的預測過程中,深度學習LSTM模型的測試效果明顯優(yōu)于傳統(tǒng)的統(tǒng)計學ARIMA模型和機器學習SVM模型。
(2)通過深度學習預測模型的手段,分析地表沉降的時間演化規(guī)律和演化特征,準確預測研究區(qū)的沉降情況。該項研究成果可望減輕或減少地面沉降給社會帶來不利影響,并可為唐山南湖地區(qū)后期建設發(fā)展提供科學決策依據(jù)和數(shù)據(jù)支撐。