賀 琪,李汶龍,宋 巍,杜艷玲,黃冬梅,耿立佳
結(jié)合殘差時空注意力機制的海面溫度預(yù)測算法
賀 琪1,李汶龍1,宋 巍1,杜艷玲1,黃冬梅1,耿立佳2
(1. 上海海洋大學(xué)信息學(xué)院,上海 201306;2.國家海洋局東海標準計量中心,上海 201306)
海面溫度(SST)與全球氣候變化、海洋災(zāi)害、海洋生態(tài)系統(tǒng)密切相關(guān),因此準確地預(yù)測SST是一個重要課題。現(xiàn)有區(qū)域型SST預(yù)測方法將SST時間序列處理為二維矩陣序列并作為模型輸入,每個矩陣對應(yīng)著特定時刻的區(qū)域SST,通過提取時空特征來實現(xiàn)其預(yù)測,但未充分考慮不同時空特征在時間維度和空間維度上對SST影響的不均衡性,限制了預(yù)測精度地提高。為了解決該問題,提出了一種結(jié)合時間注意力機制和空間注意力機制的區(qū)域SST預(yù)測方法(CRA-ConvLSTM),使得模型動態(tài)關(guān)注不同時刻的時間特征和區(qū)域內(nèi)不同點的空間特征,賦予不同的影響權(quán)重,進而提高SST預(yù)測精度。具體來說,首先將輸入的區(qū)域SST時間序列通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)編碼為多層特征向量,提取局部特征;然后構(gòu)建了殘差時間注意力模塊,自適應(yīng)地學(xué)習不同時刻的注意力權(quán)重,提取時間維度上的關(guān)鍵特征,并設(shè)計了殘差空間注意力模塊,提取區(qū)域內(nèi)不同點在空間維度上的關(guān)鍵特征,此外,將注意力機制結(jié)合殘差結(jié)構(gòu)避免了網(wǎng)絡(luò)中信息量過少導(dǎo)致的性能下降問題;最后通過卷積長短時記憶神經(jīng)網(wǎng)絡(luò)(ConvLSTM)將特征向量映射為SST預(yù)測結(jié)果。實驗結(jié)果顯示,該模型的均方根誤差(RMSE)和預(yù)測精度(PACC)分別達到了0.19和99.43%,均優(yōu)于其他方法,有效提高了SST的預(yù)測精度。
時間序列;海面溫度預(yù)測;時空特征;注意力機制;殘差結(jié)構(gòu)
海面溫度(sea surface temperature,SST)是全球大氣系統(tǒng)的重要參數(shù)之一。近年來,隨著海洋環(huán)境保護[1]、漁業(yè)[2]、海洋氣候[3]等海洋相關(guān)領(lǐng)域受到越來越多的關(guān)注,準確預(yù)測SST已成為一個重要的研究課題。到目前為止,研究人員已提出了許多預(yù)測SST的方法,主要分為:①基于海洋物理學(xué)的數(shù)值預(yù)報方法[4]-6],即利用一系列復(fù)雜的物理方程來描述海溫的變化規(guī)律;②數(shù)據(jù)驅(qū)動模型,即從海量的SST數(shù)據(jù)中自動學(xué)習其變化趨勢和規(guī)律,如,LINS等[7]通過提取浮標數(shù)據(jù)中每個變量的曲率信息,建立支持向量機(support vector machine,SVM)模型研究了SST的季節(jié)性和季節(jié)內(nèi)的規(guī)律;HOCHREITER和SCHMISHUBER[8]于1997年首次將長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)成功用于時間序列的建模;ZHANG等[9]將LSTM網(wǎng)絡(luò)用于SST預(yù)測,并獲得了較好的預(yù)測效果。但這些方法僅考慮了SST在時間維度上的關(guān)聯(lián)關(guān)系,未關(guān)注SST隱藏的空間特性,因此限制了預(yù)測精度的提高??紤]到SST復(fù)雜的時空特性,目前已有研究者通過提取SST的時空特征進行建模。如,YANG等[10]提出了一種CFCC-LSTM算法,通過全連接的LSTM層提取時間特征,然后利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取空間特征,提高了SST的預(yù)測精度。HOU和MEMBE[11]提出的DC2L算法利用具備稠密連接的卷積長短時記憶神經(jīng)網(wǎng)絡(luò)(convolution LSTM,ConvLSTM)提取時空特征,并取得了較好的預(yù)測效果,ConvLSTM不僅具有CNN的特征提取能力,還保留了LSTM的時序建模能力。但在SST預(yù)測任務(wù)中,在時間維度上可能僅有某些時刻的特征對未來SST預(yù)測影響較大;同樣,在空間維度上,也僅有某些點的特征對未來SST預(yù)測影響較大,即不同時空特征在時間維度和空間維度上對SST的影響具有不均衡性,而這些方法未能體現(xiàn)出這種影響,導(dǎo)致忽略了關(guān)鍵信息,限制了預(yù)測精度的提高。
注意力機制是一種能夠較好地選擇網(wǎng)絡(luò)中關(guān)鍵信息的方法。近年來,結(jié)合注意力機制的編碼器-解碼器網(wǎng)絡(luò)在自然語言處理[12]、語音識別[13]及計算機視覺任務(wù)[14]中均得到了廣泛地使用。如,CHEN等[15]在圖像字幕提取任務(wù)中使用CNN和LSTM構(gòu)建了編碼器-解碼器網(wǎng)絡(luò),并融入了通道和空間注意力機制動態(tài)地選擇與其相關(guān)的源單詞或子序列,取得了極大地成功。因此這也為SST預(yù)測任務(wù)提供了新的思路,如,ZHA等[16]提出了一種結(jié)合時間注意力機制的方法用于區(qū)域型SST預(yù)測,通過獲取SST的時間相關(guān)性有效提高了預(yù)測精度。但該方法僅使用CNN提取局部的空間特征,并未體現(xiàn)出更為重要的空間特征對未來預(yù)測SST的影響,因此忽略了關(guān)鍵的空間信息。針對區(qū)域SST時間序列的時空特性,本文構(gòu)建了一種基于CNN和ConvLSTM的編碼器-解碼器結(jié)構(gòu),引入了時間注意力模塊和空間注意力模塊自適應(yīng)地提取SST在時間和空間上的相關(guān)性。然而,單純地疊加時間注意力模塊和空間注意力模塊容易導(dǎo)致明顯的性能下降,這是因為重復(fù)地將從0到1的注意力權(quán)重與特征加權(quán)降低了深層特征值[17]。WANG等[18]在圖像分類任務(wù)中提出了一種殘差注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠堆疊多個注意力模塊,并且每個模塊會隨著層次的加深而自適應(yīng)改變。因此本文將時空注意力模塊與殘差結(jié)構(gòu)相結(jié)合,在編解碼網(wǎng)絡(luò)結(jié)構(gòu)中疊加了殘差時間注意力模塊和殘差空間注意力模塊,充分提取網(wǎng)絡(luò)中的時間特征和空間特征。
現(xiàn)有的SST預(yù)測方法未充分考慮時空特征對SST在時間維度和空間維度上不均衡的影響,導(dǎo)致忽略了關(guān)鍵的信息。為了解決該問題,進一步提高SST的預(yù)測精度,本文提出了一種結(jié)合時間注意力機制和空間注意力機制的SST預(yù)測方法(CRA-ConvLSTM),該模型是基于CNN和ConvLSTM的編碼器-解碼器網(wǎng)絡(luò),其有2個殘差注意力模塊,引入注意力模塊可以定量地為矩陣序列特征的每個時間步和矩陣內(nèi)每個元素賦予注意力權(quán)重,改善了SST預(yù)測方法注意力分散的缺陷。
CRA-ConvLSTM模型框架如圖1所示,包括數(shù)據(jù)預(yù)處理、編碼器、殘差時間注意力模塊、殘差空間注意力模塊、解碼器。和分別代表矩陣的寬度和高度。該方法的實現(xiàn)步驟如下:
步驟1. 首先經(jīng)過數(shù)據(jù)預(yù)處理步驟,獲取SST矩陣序列,然后通過卷積層將SST矩陣序列編碼為多層特征向量,提取局部特征。
步驟2. 將獲得的特征向量作為殘差時間注意力模塊的輸入,利用時間注意力機制獲得注意力權(quán)重向量,與每個特征向量對應(yīng)相乘得到加權(quán)特征,然后將加權(quán)特征與輸入的多層特征矩陣按照元素相加得到殘差特征。
步驟3. 將獲取的殘差特征作為殘差空間注意力模塊的輸入,進一步提取SST的空間特征,利用空間注意力機制訓(xùn)練一個注意力權(quán)重矩陣,與多層殘差特征向量依次相乘得到加權(quán)特征,然后將加權(quán)特征與輸入的殘差特征按照元素相加得到最終的殘差加權(quán)特征。
步驟4. 將殘差時空注意力模塊輸出的多層加權(quán)特征作為解碼器ConvLSTM的輸入,建立時序依賴關(guān)系并將其映射為最終的SST預(yù)測結(jié)果,即未來1天或5天的SST。
圖1 CRA-ConvLSTM模型流程圖
編碼器-解碼器網(wǎng)絡(luò)在計算機視覺等領(lǐng)域已被廣泛使用,其核心思想是將輸入圖像編碼為多層特征圖,并使用解碼器生成結(jié)果單詞。本文構(gòu)建了一種新的編碼器-解碼器網(wǎng)絡(luò)用于SST預(yù)測,利用卷積層將序列編碼為多層特征,ConvLSTM層解碼特征獲取SST預(yù)測結(jié)果。
具體來說,卷積層將大小為×的矩陣編碼為對應(yīng)的特征向量,其中卷積核大小設(shè)置3×3,步長設(shè)置1×1。這里卷積編碼的過程實質(zhì)上是提取矩陣序列局部特征的過程,卷積核按照1×1的步長進行滑動,每個3×3感受野對應(yīng)激活計算為一個特征值,因此整個過程卷積核將經(jīng)過?×?次移動,其值大小等于(-2)×(-2),獲取大小為?×?的特征向量。利用卷積層作為編碼器提取局部特征,不僅保存了SST原始的空間分布,還有利于后續(xù)殘差時空注意力模塊更好地提取網(wǎng)絡(luò)中重要的時空特征。
LSTM是一種適用于時間序列數(shù)據(jù)建模的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠有效地捕捉序列的長期依賴,但在提取矩陣序列中的空間信息方面具有較大的局限性。而ConvLSTM是一種結(jié)合了CNN強大的局部特征提取能力及LSTM的時序建模能力的模型,較好地解決了LSTM對于時空序列建模的缺陷,因此本文將ConvLSTM作為解碼器,加權(quán)特征作為輸入,SST預(yù)測結(jié)果作為輸出。其計算式為
其中,為時間注意力函數(shù);為空間注意力函數(shù);?R為時間注意力權(quán)重向量;為空間注意力權(quán)重矩陣。
研究者利用通道注意力機制提取圖像的局部特征,通過卷積層獲取多層特征圖,每個通道由對應(yīng)的卷積過濾器響應(yīng)激活。受其啟發(fā),將卷積層編碼的多層特征向量作為每個時間步的輸入,構(gòu)建殘差時間注意力模塊用于提取SST的時間相關(guān)性。即時間注意力機制為每層特征賦予對應(yīng)的注意力權(quán)值,使得網(wǎng)絡(luò)更關(guān)注與當前目標SST更相關(guān)的特征向量,進而更好地獲取時間序列的長期依賴性。SST預(yù)測模型本質(zhì)是利用了歷史天的SST對未來1天或5天的SST進行預(yù)測,因此對每個多層特征應(yīng)用時間注意力機制可以看作學(xué)習SST之間的時間相關(guān)性。
其中,時間注意力權(quán)重的范圍為[0,1],因此越接近0,(,)將越接近原始特征,將該結(jié)構(gòu)稱為殘差時間注意力模塊。
考慮到相鄰區(qū)域SST可能具有更密切的聯(lián)系,使用SST矩陣序列進行預(yù)測時可能會因不相關(guān)區(qū)域的存在而導(dǎo)致次優(yōu)的結(jié)果,因此模型在殘差時間注意力模塊之后,疊加了殘差空間注意力模塊進一步提取SST的空間相關(guān)性,使得模型能夠更關(guān)注與目標SST最相關(guān)的區(qū)域,而不是對整個區(qū)域。
首先將殘差時間注意力模塊獲得的殘差特征向量拉伸重塑為新的特征向量=(1,2,···,-1,),?R,=?×?,然后利用全連接層和softmax函數(shù)來獲得空間注意力權(quán)重
其中,為輸出的加權(quán)特征,可將該結(jié)構(gòu)稱為殘差空間注意力模塊。
綜上,多層特征向量經(jīng)過時間注意力函數(shù)和空間注意力函數(shù)獲取了時間注意力權(quán)重和空間注意力權(quán)重,通過和與特征向量的線性組合,最終獲取殘差加權(quán)特征。模型中殘差注意力模塊的計算過程為
其中,(·)為對特征矩陣進行時間和空間注意力加權(quán)的函數(shù)。
實驗采用了自然資源部第二海洋研究所提供的遙感反演數(shù)據(jù)集,空間分辨率為10 km,采集區(qū)域主要分布于30N和130E附近,時間周期為2004/01-2016/12,時間分辨率為天。為了確保模型預(yù)測的精確度和有效性,首先對數(shù)據(jù)進行了預(yù)處理,若所使用的SST數(shù)據(jù)缺少度量值時,其可被缺省值(MISSING_VAL=-999)所代替,而相對于沒有度量的記錄,可能為NAN,因此需將每個2×2矩陣的有效值的平均值來替換矩陣范圍的缺失值,邊緣數(shù)值僅取其臨近有效值的均值來替換缺失值。為了方便模型的訓(xùn)練,將80×40的SST數(shù)據(jù)截取為30×30,將其作為模型的輸入。為了進行模型的訓(xùn)練及效果的驗證,實驗采用75%的SST數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余25%數(shù)據(jù)用于測試。在搭建模型時,基于Keras Theano深度學(xué)習框架,使用Adam優(yōu)化器,學(xué)習率設(shè)置為0.001,epochs設(shè)置為200。在訓(xùn)練模型時,利用EarlyStopping的早停機制,避免了模型迭代次數(shù)過多而出現(xiàn)過擬合的問題;此外,使用了ReduceLROnPlateau回調(diào)函數(shù),避免模型過早地停止訓(xùn)練,而是通過動態(tài)減小學(xué)習率,保證網(wǎng)絡(luò)充分收斂,進而獲得最優(yōu)的模型及參數(shù)。
本文使用預(yù)測精度(prediction accuracy,PACC)和均方根誤差(root mean square error,RMSE)來描述不同預(yù)測方法的性能,即
其中,y,i為矩陣中第個位置的SST真實值;y,i為預(yù)測值;為矩陣寬度和高度的乘積值。模型在預(yù)測時,首先需要確定結(jié)構(gòu)和參數(shù),然后通過比較模型的RMSE和PACC結(jié)果,說明不同方法的性能及預(yù)測效果。RMSE值越小且PACC值越大時,模型的性能越好。
不同的時間窗口大小會影響SST的預(yù)測效果,因此實驗設(shè)定不同的值分別預(yù)測了未來1天和5天的SST,通過比較模型測試集獲得的RMSE和PACC指標,確定最佳的值,以保證后續(xù)實驗的準確性。這里分別設(shè)置?{3,7,15}和?{10,15,25}來預(yù)測1天和5天的SST。
表1顯示了不同值下CRA-ConvLSTM模型測試的結(jié)果。實驗結(jié)果表明,=7時PACC為99.43%,RMSE為0.19,其在預(yù)測1天的效果均優(yōu)于=3和=15時的效果。而在預(yù)測5天時,=15時取得了最佳的效果,PACC為98.93%,RMSE為0.39。上述結(jié)果證明了時間窗口的大小對模型的預(yù)測結(jié)果會產(chǎn)生不同的影響,因此在后續(xù)實驗中均分別采用=7和=15預(yù)測1天和5天的SST,以保證模型預(yù)測結(jié)果的真實性。
表1 不同T值下CRA-ConvLSTM預(yù)測1天和5天SST的性能對比
注:加粗數(shù)據(jù)為最優(yōu)值
編碼器-解碼器結(jié)構(gòu)作為一種模型框架,在計算機視覺等領(lǐng)域已被廣泛使用,并衍生出了很多不同的網(wǎng)絡(luò)結(jié)構(gòu)。本文構(gòu)建了一種新的編解碼器結(jié)構(gòu)(CNN-ConvLSTM),因此為了驗證該結(jié)構(gòu)對SST模型預(yù)測性能的影響,實驗還分析了CNN層對模型預(yù)測結(jié)果的影響。設(shè)置相同的數(shù)據(jù)集和模型參數(shù),分別對比了RA-ConvLSTM和CRA-ConvLSTM預(yù)測不同天數(shù)時的PACC及RMSE指標,2種方法均使用ConvLSTM獲取最終的SST結(jié)果,其中RA-ConvLSTM未使用卷積層,CRA-ConvLSTM使用卷積層首先對序列進行了初步的特征提取。
表2中,CRA-ConvLSTM 1~5天的預(yù)測精度分別獲得了99.43%,99.32%,99.19%,99.09%和98.93%,而RA-ConvLSTM獲取的PACC值均低于CRA-ConvLSTM,而隨著預(yù)測天數(shù)的增加,預(yù)測精度逐漸下降,這是由于隨著序列長度的增加預(yù)測性能會逐漸下降。對于RMSE指標,CRA-ConvLSTM 1~5天的預(yù)測誤差指標均低于RA-ConvLSTM,分別為0.19,0.23,0.32,0.34和0.39。經(jīng)過實驗比較PACC及RMSE結(jié)果表明,當預(yù)測1天SST時,CRA-ConvLSTM模型獲得了最佳的預(yù)測結(jié)果,且隨著預(yù)測天數(shù)的增加,CRA-ConvLSTM也表現(xiàn)出了同樣的優(yōu)勢,進一步說明了基于CNN和ConvLSTM編解碼器結(jié)構(gòu)有利于SST預(yù)測性能的提高,進而確定了本文的編解碼器結(jié)構(gòu)。
注意力機制能夠通過權(quán)重加權(quán)的方式提取網(wǎng)絡(luò)中的關(guān)鍵特征,而不同的注意力結(jié)構(gòu)可能會對預(yù)測效果產(chǎn)生不同的影響,模型中引入了一種殘差時空注意力模塊,因此為了驗證注意力模塊的結(jié)構(gòu)對預(yù)測性能的影響,實驗基于CNN- ConvLSTM,設(shè)置相同的模型參數(shù),對比了單注意力模塊和疊加時間和空間注意力模塊時預(yù)測性能的差異,此外還關(guān)注了注意力模塊中融合殘差結(jié)構(gòu)時的不同。其中RT-Attention只包括殘差時間注意力模塊,RS-Attention只包括殘差空間注意力模塊,TS-Attention未使用殘差結(jié)構(gòu),僅包括時間注意力機制和空間注意力機制,RTS-Attention是本文提出的注意力結(jié)構(gòu),疊加了殘差時間注意力模塊和殘差空間注意力模塊。
表3顯示了4種方法分別預(yù)測未來1~5天的SST的評價指標結(jié)果。對于PACC指標,使用RTS- Attention的預(yù)測精度分別是99.43%,99.32%,99.19%,99.09%和98.93%,均高于使用TS-Attention的預(yù)測精度,因此相比于單純的疊加注意力機制而未考慮殘差結(jié)構(gòu)時,疊加殘差注意力模塊更有優(yōu)勢;對于RMSE指標,結(jié)果同樣如此,此外RT-Attention和RS-Attention的RMSE指標分別是0.23,0.25,0.30,0.36,0.43和0.24,0.25,0.31,0.37,0.42,其結(jié)果差異較小,這表明單注意力模塊中使用時間注意力或空間注意力對模型預(yù)測性能的提高均有限。總之,同時疊加殘差時間和殘差空間注意力模塊使得模型的性能提高更為顯著,進而確定了殘差時空注意力模塊的結(jié)構(gòu)。
表2 RA-ConvLSTM和CRA-ConvLSTM性能對比
表3 模型使用不同注意力模塊的性能對比
在2.3~2.5節(jié)中,已確定了模型的編解碼器、殘差時空注意力模塊和合適的值,確保了消融實驗中預(yù)測結(jié)果的有效性,將提出的CRA-ConvLSTM模型與SVR,LSTM,ConvLSTM,CNN-ConvLSTM和CA-ConvLSTM 5種先進的SST預(yù)測方法進行了比較。對于上述方法,均采用相同數(shù)據(jù)集預(yù)測未來1天和5天的SST。其中SVR是時間序列預(yù)測任務(wù)中常見的機器學(xué)習算法,這里分別采用了線性基函數(shù)核、多項式基函數(shù)核和徑向基函數(shù)核,并選擇最優(yōu)結(jié)果,最終確定了徑向基核函數(shù);LSTM是海面溫度預(yù)測方法中主流的深度學(xué)習算法,并使用其進行了SST預(yù)測實驗。但這2種方法均只能進行單點預(yù)測,因此對于區(qū)域型SST,實驗可根據(jù)各個實時記錄點分別構(gòu)建模型進行SST預(yù)測;ConvLSTM是一種改進的LSTM,能夠綜合時間和空間特征,本文基于ConvLSTM構(gòu)建了模型,因此為了消融實驗的對比,使用ConvLSTM進行實驗;CNN-ConvLSTM是基于ConvLSTM進一步結(jié)合CNN構(gòu)建的編解碼器網(wǎng)絡(luò);此外,實驗還對比了文獻[16]提出的CA-ConvLSTM算法,以進一步驗證本文算法的有效性。
表4對比了6種方法預(yù)測未來1天和5天的SST時獲得的RMSE和PACC指標結(jié)果。SVR和LSTM在預(yù)測1天時,PACC指標分別為98.96%和98.86%,RMSE指標分別是0.37和0.47;而ConvLSTM與SVR和LSTM相比在預(yù)測1天和5天時獲得了更好的預(yù)測結(jié)果,PACC及RMSE指標分別為99.04%,0.36和98.68%,0.47,進一步說明了ConvLSTM在時空序列預(yù)測問題中的優(yōu)越性;而基于CNN和ConvLSTM的編解碼器結(jié)構(gòu)相比于ConvLSTM獲得了更好的結(jié)果,因此驗證了模型使用的編解碼器結(jié)構(gòu)的有效性。CA-ConvLSTM算法在進行預(yù)測1天和5天的SST時PACC,RMSE分別獲得了99.33%,0.23和98.78%,0.43。但相比于上述方法,本文算法CRA-ConvLSTM取得了最優(yōu)的預(yù)測效果,其PACC和RMSE預(yù)測1天和5天時分別獲得了99.43%,0.19和98.93%,0.37,驗證了算法的有效性。通過使用殘差時間注意力模塊和殘差空間注意力模塊,定量地為每個時刻的特征向量和區(qū)域內(nèi)每個點賦予注意力權(quán)重,使得模型動態(tài)關(guān)注不同時刻的時間特征和區(qū)域內(nèi)不同點的空間特征,賦予不同的影響權(quán)重,因此能夠較好地反映時空特征在時間維度和空間維度上對未來預(yù)測的SST不均衡的影響,從而獲得最優(yōu)的預(yù)測效果。
表4 不同預(yù)測方法的性能對比
注:加粗數(shù)據(jù)為最優(yōu)值
為了更直觀地觀察SST的預(yù)測效果,分別在圖2(a)和(b)中展示了在測試數(shù)據(jù)集上模型在最后一個時刻輸出的5天SST預(yù)測結(jié)果圖和對應(yīng)的海面溫度熱力圖。而熱力圖的顏色分布隨著溫度的降低而加深,且熱力圖的刻度取值范圍取決于當前時刻SST值的分布范圍,可以觀察到實驗中SST的真實值和預(yù)測值均分布在24.5℃到28℃之間,對比結(jié)果顯示,使用CRA-ConvLSTM進行預(yù)測時,其結(jié)果能夠較為準確地反映區(qū)域內(nèi)SST的真實值變化。
(b)
本文使用區(qū)域型SST時間序列數(shù)據(jù),提出了一種結(jié)合殘差時空注意力機制的SST預(yù)測算法(CRA-ConvLSTM),顯著提高了預(yù)測精度。為了實現(xiàn)這一目標,本文完成了:①將時間注意力機制和空間注意力機制相結(jié)合,使得模型動態(tài)關(guān)注不同時刻的時間特征和區(qū)域內(nèi)不同點的空間特征,提取了關(guān)鍵的時空特征;②將注意力機制結(jié)合殘差結(jié)構(gòu),保留了豐富的特征信息,避免了梯度消失的問題。基于這2種殘差注意力模塊,CRA- ConvLSTM能夠充分考慮時空特征對SST在時間維度和空間維度上不均衡的影響。實驗結(jié)果表明,CRA-ConvLSTM模型在SST預(yù)測方面取得了最佳的性能,驗證了本文方法的有效性。
SST的變化不僅具有時間相關(guān)性和空間相關(guān)性,實際場景中也受其他海洋要素復(fù)雜的物理機制影響,如氣溫、氣壓、風速等,因而未來可以考慮在模型中嵌入多種海洋要素的統(tǒng)計特征模塊,以進一步考慮海洋環(huán)境要素帶來的影響。
[1] KOLSTAD E W, ?RTHUN M. Seasonal prediction from Arctic Sea surface temperatures: opportunities and pitfalls [J]. Journal of Climate, 2018, 31(20): 8197-8210.
[2] AHMAD M Z. Regional port state cooperation for the conservation of shared fisheries resources in the contested waters of the south China sea[C]//SOIS Conference on Global Studies 2021. Sintok: UUM Press, 2022: 196-215.
[3] WIEDERMANN M, DONGES J F, HANDORF D, et al. Hierarchical structures in Northern Hemispheric extratropical winter ocean-atmosphere interactions[J]. International Journal of Climatology, 2017, 37(10): 3821-3836.
[4] TAKAKURA T, KAWAMURA R, KAWANO T, et al. An estimation of water origins in the vicinity of a tropical cyclone's center and associated dynamic processes[J]. Climate Dynamics, 2018, 50(1-2): 555-569.
[5] ALIMOHAMMADI M, MALAKOOTI H, RAHBANI M. Sea surface temperature effects on the modelled track and intensity of tropical cyclone gonu[J]. Journal of Operational Oceanography, 2021 (3): 1-17.
[6] NOORI R, ABBASI M R, ADAMOWSKI J F, et al. A simple mathematical model to predict sea surface temperature over the northwest Indian Ocean[J]. Estuarine, Coastal and Shelf Science, 2017, 197: 236-243.
[7] LINS I D, MOURA M, SILVA M, et al. Sea surface temperature prediction via support vector machines combined with particle swarm optimization[C]//The 10th International Probabilistic Safety Assessment & Management Conference. London: Taylor & Francis Group, 2013: 3287-3293.
[8] HOCHREITER S, SCHMISHUBER J, et al. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[9] ZHANG Q, WANG H, DONG J Y, et al. Prediction of sea surface temperature using long short-term memory[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1745-1749.
[10] YANG Y T, DONG J Y, SUN X, et al. A CFCC-LSTM model for sea surface temperature prediction[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 15(2):207-211.
[11] HOU S, MEMBEW L. D2CL: a dense dilated convolutional LSTM model for sea surface temperature prediction[EB/OL]. [2021-05-12]. https://ieeexplore.ieee.org/document/9618770.
[12] ZHAO Y, KOMACHI M, KAJIWARA T, et al. Region-attentive multimodal neural machine translation[J]. Neurocomputing, 2022, 476: 1-13.
[13] ZHU T, CHENG C L. Joint CTC-attention end-to-end speech recognition with a triangle recurrent neural network encoder[J]. Journal of Shanghai Jiaotong University: Science, 2020, 25(1): 70-75.
[14] QIN Y, SONG D J, CHEN H F, et al. A dual-stage attention-based recurrent neural network for time series prediction[C]//The 26th International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2017: 2627-2633.
[15] CHEN L, ZHANG H W, XIAO J, et al. SCA-CNN: spatial and channel-wise attention in convolutional networks for image captioning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6298-6306.
[16] ZHA C, HE Q, SONG W, et al. Regional sea surface temperature prediction algorithm combined with attention mechanism[J]. Marine Science Bulletin, 2020, 39(2): 9.
[17] CHO K, VAN MERRIENBOER B, BAHDANAU D, et al. On the properties of neural machine translation: encoder–decoder approaches[C]//Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. Stroudsburg: Association for Computational Linguistics, 2014: 103-111.
[18] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6450-6458.
Sea surface temperature prediction algorithm combined with residual spatial-temporal attention mechanism
HE Qi1, LI Wen-long1, SONG Wei1, DU Yan-ling1, HUANG Dong-mei1, GENG Li-jia2
(1. Department of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2. East China Sea Standard Metrology Center, State Oceanic Administration, Shanghai 201306, China)
Sea surface temperature (SST) is closely related to global climate change, ocean disasters, and ocean ecosystems, so the accurate prediction of SST is an important topic. The existing regional SST prediction methods treat the time series of SST data as a series of matrixes, each corresponding to the regional SST at a particular time. The spatial and temporal features are extracted from the matrix series for later SST prediction. However, the existing SST prediction methods fail to fully consider the imbalanced influence of temporal and spatial features on the SST, leading to the neglection of some key information and limiting the improvement of prediction accuracy. To address this problem, we proposed a regional SST prediction method (CRA-ConvLSTM) combining temporal attention mechanism and spatial attention mechanism. This enabled the model to dynamically assign different influence weights to the temporal features at different times and spatial features at different locations, thereby improving the accuracy of SST prediction. Specifically, the input regional SST time series was first encoded into multi-layer feature vectors by a convolutional neural network (CNN), and local features were extracted. Then, the residual time attention module was constructed to learn the attention weight at different moments adaptively, and the key features of the time dimension were extracted. The residual spatial attention module was designed to extract the key features of different points in the region in terms of the spatial dimension. In addition, the attention mechanism combined with the residual structure can avoid performance degradation caused by information reduction in the network. Experimental results show that the proposed model could achieve 0.19 and 99.43% respectively in terms of the root mean square error (RMSE) and prediction accuracy (PACC), which is superior to other methods and effectively improves the prediction accuracy of SST.
time series; sea surface temperature prediction; spatial-temporal feature; attention mechanism; residual structure
25 November,2021;
National Natural Science Foundation of China (61972240); Youth Project of National Natural Science Foundation of China (41906179); Capacity Building Project of Some Local Universities of Shanghai Science and Technology Commission (20050501900)
HE Qi (1979-), associate professor, Ph.D. Her main research interests cover ocean big data analysis, big data storage, workflow and business process management, and service computing, etc. E-mail:qihe@shou.edu.cn
TP 391
10.11996/JG.j.2095-302X.2022040677
A
2095-302X(2022)04-0677-08
2021-11-25;
2022-03-15
15 March,2022
國家自然科學(xué)基金項目(61972240);國家自然科學(xué)基金青年項目(41906179);上海市科委部分地方高校能力建設(shè)項目(20050501900)
賀 琪(1979-),女,副教授,博士。主要研究方向為海洋大數(shù)據(jù)分析、大數(shù)據(jù)存儲、工作流與業(yè)務(wù)流程管理、服務(wù)計算等。E-mail:qihe@shou.edu.cn
耿立佳(1989-),女,工程師,碩士。主要研究方向為海洋大數(shù)據(jù)分析、海洋經(jīng)濟監(jiān)測評估等。E-mail:genglj@ecs.mnr.gov.cn
GENG Li-jia (1989-), engineer, master. His main research interests cover ocean big data analysis, ocean economy monitoring and evaluation, etc. E-mail:genglj@ecs.mnr.gov.cn