姚志偉 陳 雨
1 四川大學(xué)電子信息學(xué)院,成都市一環(huán)路南一段24號,610065
地球重力場信息可反映地球表面載荷以及內(nèi)部物體質(zhì)量的分布變化,是大地測量學(xué)、地球物理學(xué)等學(xué)科研究的重要組成部分[1]。2002-03美國宇航局NASA以及德國航空航天中心DLR聯(lián)合研制發(fā)射GRACE地球重力場觀測衛(wèi)星,以前所未有的精度繪制全球靜態(tài)重力場[2]。由全球時(shí)變重力場模型反演得到的等效水高等數(shù)據(jù),已在區(qū)域地下水存量、冰川融化、地表載荷變化趨勢等領(lǐng)域取得廣泛應(yīng)用[3-5]。因此對等效水高以及地表形變量進(jìn)行精準(zhǔn)預(yù)測,能夠極大推進(jìn)地表水存儲量、地表質(zhì)量變化等各方面預(yù)測研究。
由于時(shí)間序列特征復(fù)雜,基于統(tǒng)計(jì)學(xué)的傳統(tǒng)方法難以具備較好的預(yù)測效果。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)可提供一種全新的預(yù)測方法,但RNN網(wǎng)絡(luò)在訓(xùn)練過程中容易出現(xiàn)梯度消失或梯度爆炸的現(xiàn)象,并且無法學(xué)習(xí)到時(shí)間序列之間長時(shí)期的依賴特征[6]。Hochreiter等[7]對RNN網(wǎng)絡(luò)進(jìn)行改進(jìn),推出LSTM長短時(shí)記憶網(wǎng)絡(luò),可克服相關(guān)問題,預(yù)測效果顯著提升?;贚STM的時(shí)間序列預(yù)測在各個(gè)領(lǐng)域蓬勃發(fā)展,改進(jìn)的LSTM網(wǎng)絡(luò)在地震橫波速度預(yù)測方面具有較高的精度和較強(qiáng)的泛化能力[8],在海洋畸形波預(yù)測方面比傳統(tǒng)支持向量機(jī)算法更加精準(zhǔn)[9];在自然災(zāi)害領(lǐng)域,LSTM可用于預(yù)測降水、干旱等氣象災(zāi)害[10-13]。目前關(guān)于GRACE反演產(chǎn)品的研究主要集中在應(yīng)用方面,在預(yù)測方面的研究較少,此外LSTM在地球科學(xué)方面的應(yīng)用大部分采用單層LSTM結(jié)合傳統(tǒng)方法或改進(jìn)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)的方法,從而忽視了LSTM能夠拓展成深層網(wǎng)絡(luò)的特點(diǎn)?;谝陨锨闆r,本文利用GRACE月時(shí)變重力場信息,反演等效水高及地表位移量的月序列值;通過拼接多個(gè)LSTM網(wǎng)絡(luò)構(gòu)成深度LSTM網(wǎng)絡(luò),使用遺傳算法預(yù)訓(xùn)練優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),再對等效水高等數(shù)據(jù)進(jìn)行預(yù)測;并以長江、三峽和亞馬遜流域作為實(shí)驗(yàn)區(qū)域開展實(shí)驗(yàn),驗(yàn)證深度網(wǎng)絡(luò)的泛化能力。
本文采用德克薩斯大學(xué)空間研究中心CSR推出的Level-2-Rlease-06數(shù)據(jù)集,包含2002-04~2017-06共163個(gè)月(部分月份數(shù)據(jù)缺失)最高階為60的月球諧系數(shù)集。GRACE衛(wèi)星無法確定球諧系數(shù)C20項(xiàng)的精確值,需用衛(wèi)星激光測距SLR(satellite laser ranging)得到的解來代替[14],球諧系數(shù)一階項(xiàng)需要替換為由Swenson等[15]的方法得到的計(jì)算值,采用半徑300 km的高斯濾波對高階噪聲進(jìn)行去噪處理[16],同時(shí)采用P4M6去條帶方法去除球諧系數(shù)的相關(guān)性[17],地表等效水高的具體計(jì)算公式可參考文獻(xiàn)[18]。
此外,球諧系數(shù)的頻譜域截?cái)嘞喈?dāng)于空間域的低通濾波,并且去條帶和高斯濾波都可能會使目標(biāo)區(qū)域的信號向外泄露或周圍區(qū)域的信號泄露至目標(biāo)區(qū)域,使給定區(qū)域的平均估計(jì)值出現(xiàn)偏差,因此需要進(jìn)行校正。本文研究的主要目標(biāo)是針對給定的等效水高序列,如何更為精準(zhǔn)地由該序列的本身規(guī)律去推知其未來趨勢,因此對于獲得給定序列的處理方式較為粗糙,并且未考慮氣候變化、地震等因素對地表位移量的影響,而在實(shí)際應(yīng)用中需要更為精準(zhǔn)地處理并考慮具體因素的影響。地表垂直、水平方向位移量的計(jì)算公式可參考文獻(xiàn)[19]。
簡單RNN結(jié)構(gòu)只能記錄相鄰間隔的時(shí)間信息,LSTM在RNN基礎(chǔ)結(jié)構(gòu)上具有較大革新,可克服長期依賴問題,具有長期記憶力。LSTM的核心是記憶細(xì)胞狀態(tài)以及決定記憶細(xì)胞記住或忘記哪些信息的門結(jié)構(gòu),決定記憶的信息會沿著時(shí)間線向后傳播,網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)如圖1所示。
圖1 LSTM 結(jié)構(gòu)Fig.1 LSTM structure
ft=σ(Wf·[ht-1,Xt]+bf)
(1)
it=σ(Wi·[ht-1,Xt]+bi)
(2)
(3)
(4)
ot=σ(Wo·[ht-1,Xt]+bo)
(5)
ht=ot?tanh(Ct)
(6)
式中,ht-1為t-1時(shí)刻的隱藏層權(quán)重,Ct-1為t-1時(shí)刻的細(xì)胞狀態(tài)值,σ為Sigmoid激活函數(shù),W、b分別為不同層的權(quán)重、偏置值。
淺度LSTM網(wǎng)絡(luò)相比于RNN可克服長期依賴的問題,但由于層數(shù)較少,難以直觀地表示時(shí)間序列的復(fù)雜特征,特別是處理高度非線性和長時(shí)間間隔的數(shù)據(jù)。從理論上來說,深度和分層的神經(jīng)網(wǎng)絡(luò)相比于淺層網(wǎng)絡(luò)可學(xué)習(xí)到更高維度、更復(fù)雜的特征。從時(shí)間軸上來看,RNN是隨著時(shí)間增加而增加的深度網(wǎng)絡(luò),但RNN結(jié)構(gòu)網(wǎng)絡(luò)仍然可以從輸入層-隱藏層、隱藏層-隱藏層、隱藏層-輸出層3個(gè)方面增加網(wǎng)絡(luò)層數(shù)[20]。本文提出的深度網(wǎng)絡(luò)結(jié)構(gòu)堆疊多個(gè)LSTM以增加隱藏層到隱藏層之間的層數(shù),其目的是使模型在每個(gè)循環(huán)結(jié)構(gòu)中能夠在不同時(shí)間尺度上運(yùn)行并學(xué)習(xí)不同的特征(圖2)。此外,隱藏層到輸出層之間具有深層結(jié)構(gòu),有助于確定隱藏狀態(tài)中的變化因素,能夠更有效地總結(jié)輸入歷史,從而更容易預(yù)測輸出。因此,在最后一個(gè)LSTM輸出層中添加全連接線性層以加深隱藏層到輸出層的深度。與BP前饋神經(jīng)網(wǎng)絡(luò)類似,RNN結(jié)構(gòu)網(wǎng)絡(luò)也得益于非飽和激活和Dropout層的使用[21],本文在每層LSTM結(jié)構(gòu)后均添加Dropout層,并在輸出層中使用更為先進(jìn)的PReLU非飽和激活函數(shù)[22],以減小過擬合概率。此外,還特別添加注意力(attention)機(jī)制[23],以幫助深度網(wǎng)絡(luò)注意某些重要的長期特征。
圖2 深度LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Deep LSTM network structure
深度LSTM網(wǎng)絡(luò)訓(xùn)練中的超參數(shù)主要為時(shí)間間隔步長(預(yù)測下一值所用的序列長度)、各LSTM隱藏層神經(jīng)元數(shù)量以及全連接輸出層神經(jīng)元數(shù)量。時(shí)間序列的統(tǒng)計(jì)特性隨時(shí)間推移會以不可預(yù)見的方式變化,若每次輸入所有時(shí)間序列進(jìn)行訓(xùn)練相當(dāng)于增加各種噪聲,預(yù)測精度會下降,可嘗試使用不同的時(shí)間步長進(jìn)行較為準(zhǔn)確的預(yù)測,因此時(shí)間步長也需要作為超參數(shù)進(jìn)行優(yōu)化。本文采用遺傳算法(genetic algorithm,GA)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)與部分超參數(shù),該算法是借鑒自然進(jìn)化規(guī)律而設(shè)計(jì)的一種尋找全局最優(yōu)解的模型,通過群體N代間的不斷遺傳、交叉、變異來確定問題的最優(yōu)解。本文實(shí)驗(yàn)將LSTM層數(shù)分為1、2、3層共3種結(jié)構(gòu),時(shí)間步長為1~12,每層神經(jīng)元為1~30,每種結(jié)構(gòu)混合不同時(shí)間步長和神經(jīng)元,隨機(jī)產(chǎn)生40個(gè)群體,通過25代遺傳進(jìn)化尋找最優(yōu)解,最后綜合每種結(jié)構(gòu)最優(yōu)解的評價(jià)指標(biāo)(見§4.1)選取最優(yōu)模型(表1)。
表1 深度LSTM結(jié)構(gòu)及超參數(shù)
GRACE觀測數(shù)據(jù)中部分月份數(shù)據(jù)缺失,本文采用三次樣條插值法補(bǔ)全缺失的數(shù)據(jù)。對于明顯呈周期特點(diǎn)的時(shí)間序列數(shù)據(jù),如果采用原始數(shù)據(jù)進(jìn)行訓(xùn)練并輸出,可能會產(chǎn)生時(shí)間平移的現(xiàn)象,這是因?yàn)樾蛄写嬖谧韵嚓P(guān)性,如一階自相關(guān)為當(dāng)前時(shí)刻數(shù)值與其自身前一時(shí)刻數(shù)值之間的相關(guān)性。一般可使用差分預(yù)測的方式消除自相關(guān)性,即通過預(yù)測差分值間接預(yù)測原始數(shù)據(jù)值。此外,本文通過插值增大訓(xùn)練數(shù)據(jù)以減小網(wǎng)絡(luò)模型的訓(xùn)練難度,在預(yù)測后進(jìn)行降采樣得到預(yù)測數(shù)據(jù)。由于LSTM內(nèi)部采用tanh激活函數(shù),輸入數(shù)據(jù)需歸一化到[-1,1],以避免輸入值較大時(shí)出現(xiàn)梯度更新較慢的問題。在得到總數(shù)據(jù)集后,將前157個(gè)月作為訓(xùn)練數(shù)據(jù),占比85%,其余月份作為測試數(shù)據(jù)來檢驗(yàn)?zāi)P偷木_性。多次預(yù)訓(xùn)練結(jié)果表明,當(dāng)模型初始學(xué)習(xí)率為10-4、權(quán)重優(yōu)化方法為 Adam 時(shí),訓(xùn)練效果較好。
4.1.1 均方根誤差RMSE
均方根誤差是一種常用的估計(jì)測量方法,可用來表示預(yù)測值與實(shí)際值之間的差異。當(dāng)預(yù)測值與實(shí)際值相同時(shí),該值為0,誤差值越大,該值越大。均方根誤差值的尺度范圍與預(yù)測數(shù)據(jù)一致,因此直接基于該誤差的精度測量無法用于不同尺度數(shù)據(jù)之間的比較。均方根誤差表達(dá)式為:
(7)
式中,xi為預(yù)測值,yi為實(shí)際值。
標(biāo)準(zhǔn)化的均方根誤差R*,其定義為RMSE與實(shí)際值標(biāo)準(zhǔn)差的比值:
(8)
4.1.2 納什系數(shù)NSE
NSE系數(shù)可以表示模型相對于實(shí)際數(shù)據(jù)平均值的預(yù)測能力,可表明實(shí)際值與模型預(yù)測數(shù)據(jù)曲線是否符合1∶1的線性關(guān)系。NSE被認(rèn)為是評價(jià)預(yù)測值與觀測值整體擬合情況的最佳目標(biāo)函數(shù)[24],可用于對比不同模型對同一數(shù)據(jù)的擬合優(yōu)度。NSE系數(shù)最佳值為1.0,計(jì)算公式為:
(9)
本文使用Ahmed等[25]的預(yù)測模型的評價(jià)標(biāo)準(zhǔn),將模型性能分為3個(gè)主要類別:1)若NSE大于0.75且R*小于0.50,則性能非常好;2)若NSE大于0.65且R*小于0.60,則性能良好;3)若NSE大于0.65且R*小于0.75,則性能較好。
本節(jié)將分析深度LSTM網(wǎng)絡(luò)模型的定量和可視化結(jié)果,所有表格中結(jié)果為測試數(shù)據(jù)所對應(yīng)模型的性能。模型預(yù)測方式有兩種:靜態(tài)更新模式與動態(tài)更新模式。在靜態(tài)模式中,測試數(shù)據(jù)根據(jù)時(shí)間步長預(yù)測下一數(shù)值;在動態(tài)模式中,使用預(yù)測得到的新值代替測試數(shù)據(jù)中的實(shí)際值來預(yù)測下一數(shù)值。即得到當(dāng)前預(yù)測值之后,動態(tài)模式使用該預(yù)測值進(jìn)行下一序列值預(yù)測,而靜態(tài)模式使用該值對應(yīng)的實(shí)際值進(jìn)行預(yù)測。表2和表3分別為深度LSTM模型在動態(tài)更新模式下和靜態(tài)更新模式下各模型評價(jià)指標(biāo)的計(jì)算結(jié)果,從表中可以看出,靜態(tài)更新模式的各項(xiàng)指標(biāo)均優(yōu)于動態(tài)更新模式。動態(tài)模式采用預(yù)測值進(jìn)行更新,當(dāng)前預(yù)測值的極小誤差會在預(yù)測下一序列值時(shí)被放大,因此會造成誤差積累的現(xiàn)象。
表2 動態(tài)模式
表3 靜態(tài)模式
在兩種模式中,亞馬遜流域各項(xiàng)序列的評價(jià)指標(biāo)R*、NSE均優(yōu)于長江流域,三峽地區(qū)模型表現(xiàn)最差,這是因?yàn)槿龒{地區(qū)各項(xiàng)序列本身的復(fù)雜程度較高、模型學(xué)習(xí)難度更大,但仍優(yōu)于最佳評價(jià)指標(biāo)。圖3為三峽水庫區(qū)域等效水高和地表形變量實(shí)際值以及在兩種不同預(yù)測模式下的結(jié)果對比,從圖中可以看出,靜態(tài)模式優(yōu)于動態(tài)模式,即使是在動態(tài)預(yù)測模式下,深度LSTM模型仍具有良好的預(yù)測效果。從表1可以看出,多層LSTM結(jié)構(gòu)為8個(gè),單層LSTM結(jié)構(gòu)為4個(gè),表明深層次的網(wǎng)絡(luò)結(jié)構(gòu)相對于淺層次更易從復(fù)雜序列中分離出時(shí)間特征,即深層LSTM網(wǎng)絡(luò)在時(shí)間序列預(yù)測方面具有良好效果。
本文使用深度LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測方法預(yù)測GRACE等效水高以及地表垂直方向、水平南北和東西方向位移量。以亞馬遜流域、長江流域以及三峽水庫作為實(shí)驗(yàn)區(qū)域,反演2002-04~2017-06 GRACE月時(shí)變重力場信息,得到等效水高以及地表位移量月序列值。深度網(wǎng)絡(luò)模型通過疊加LSTM以及在輸出層中添加線性層來增加網(wǎng)絡(luò)層數(shù),并且在網(wǎng)絡(luò)中添加注意力機(jī)制增加對某些特征的提取能力,同時(shí)還利用遺傳算法對網(wǎng)絡(luò)層數(shù)、部分超參數(shù)進(jìn)行優(yōu)化。實(shí)驗(yàn)發(fā)現(xiàn),優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu)對不同地區(qū)不同月序列值均具有良好的預(yù)測效果。此外,多層LSTM結(jié)構(gòu)的數(shù)量遠(yuǎn)多于單層,表明深層LSTM網(wǎng)絡(luò)結(jié)構(gòu)提取復(fù)雜特征的能力更強(qiáng),在時(shí)間序列預(yù)測上表現(xiàn)優(yōu)異。
本文對實(shí)驗(yàn)序列的處理較為粗糙,且未考慮氣候、地震等因素的影響,因此在具體區(qū)域?qū)嶋H應(yīng)用時(shí)需考慮各項(xiàng)因素的影響,得到精準(zhǔn)的時(shí)間序列值之后再進(jìn)行預(yù)測。由于GRACE數(shù)據(jù)中部分月份數(shù)據(jù)缺失,本文利用三次樣條插值法補(bǔ)全缺失值,插值結(jié)果并不能完全替代真實(shí)值,這可能會模糊部分時(shí)間特征。GRACE衛(wèi)星的繼任衛(wèi)星GRACE-FO(gravity recovery and climate experiment follow-on)已于2018-05升空,將繼續(xù)執(zhí)行重力場探測任務(wù),可提供更為豐富的訓(xùn)練數(shù)據(jù),深度LSTM網(wǎng)絡(luò)在這方面的預(yù)測結(jié)果將會更加精準(zhǔn)。