鄭宗生,劉敏,胡晨雨,傅澤平,盧鵬,姜曉軼
(1.上海海洋大學(xué) 信息學(xué)院,上海 201306;2.國家海洋信息中心,天津 300171)
臺風(fēng)引起的風(fēng)暴潮災(zāi)害每年在世界沿海地區(qū)造成大量的經(jīng)濟(jì)損失和人員傷亡。因此,精準(zhǔn)且及時的臺風(fēng)強(qiáng)度預(yù)測對早期風(fēng)暴潮的預(yù)警預(yù)報至關(guān)重要。目前,國內(nèi)外對臺風(fēng)的預(yù)測研究分為2類。第一類是基于數(shù)值預(yù)報模擬的臺風(fēng)預(yù)測[1-2]。此方法需要大量的臺風(fēng)觀測資料,并需要對臺風(fēng)的內(nèi)部結(jié)構(gòu)變化、臺風(fēng)的關(guān)鍵物理過程及臺風(fēng)的突變機(jī)制有足夠的了解[3]。同時,臺風(fēng)過程的預(yù)測結(jié)果受到臺風(fēng)模型結(jié)構(gòu)、地形、模型的初始場及邊界條件影響[4]。雖然數(shù)值預(yù)報技術(shù)在不斷改進(jìn),但是臺風(fēng)預(yù)報模型的分辨率、模型動力框架、物理過程表達(dá)仍需進(jìn)一步提高和完善[5]。另一類是基于遙感衛(wèi)星云圖與機(jī)器學(xué)習(xí)相結(jié)合的方法。遙感圖像具有獲取速度快、覆蓋面廣、空間分辨率高的特點,通過遙感可為臺風(fēng)識別及預(yù)測提供海量的具有時空屬性的遙感衛(wèi)星云圖。此方法主要集中在氣象災(zāi)害路徑預(yù)測[6-7]、臺風(fēng)風(fēng)速[8]及臺風(fēng)等級分類。Rüttgers等[6]提出基于時間序列衛(wèi)星云圖和生成對抗網(wǎng)絡(luò)模型預(yù)測未來6 h的臺風(fēng)軌跡,利用衛(wèi)星云圖和深度學(xué)習(xí)網(wǎng)絡(luò)預(yù)測臺風(fēng)中心及臺風(fēng)中心對云結(jié)構(gòu)的影響。Haghroosta[8]分別利用神經(jīng)網(wǎng)絡(luò)模型和流體動力模型來預(yù)測臺風(fēng)風(fēng)速,實驗對比結(jié)果表明,神經(jīng)網(wǎng)絡(luò)模型的精度高于流體動力模型的精度。鄭宗生等[9]通過改進(jìn)深度學(xué)習(xí)中的激活函數(shù),解決了ReLU激活函數(shù)“神經(jīng)元壞死”現(xiàn)象,將臺風(fēng)等級分類精度提高了2%。
臺風(fēng)的生命周期從生成到消亡[10],具有明顯時間序列特點。時間序列神經(jīng)網(wǎng)絡(luò)最初主要用于自然語言處理上。Nallapat等[11]提出包含循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的Seq2Seq模型和Attention模型,解決了長文本摘要問題。Ameur等[12]基于Attention的encoder-decoder(編碼-解碼)模型,完成了阿拉伯語與英語之間的翻譯。臺風(fēng)等氣象現(xiàn)象的生命周期與自然語言處理相比,二者在機(jī)理上具有相似性。Stens?等[13]運用基于時間序列的長短期記憶網(wǎng)絡(luò)(long short term-memory,LSTM)模型,實現(xiàn)了歷史數(shù)據(jù)預(yù)測未來時刻的雷暴軌跡,模型僅能預(yù)測6 h內(nèi)的雷暴軌跡且不能預(yù)測雷暴的生命周期與形狀。Reddy等[14]利用LSTM網(wǎng)絡(luò)中的many-to-many結(jié)構(gòu)實現(xiàn)了綠化覆蓋預(yù)測,輸入為時間間隔為7 d的MODIS NDVI 時間序列數(shù)據(jù),輸出為時間間隔為7 d的預(yù)測序列。Hong等[15]基于卷積的Seq2Seq模型和時間序列的歷史云圖,預(yù)測未出現(xiàn)或丟失的衛(wèi)星云圖,并通過加入殘差網(wǎng)絡(luò)機(jī)制,使得預(yù)測圖與真實圖更接近,解決了遙感衛(wèi)星系統(tǒng)丟失數(shù)據(jù)的問題。Shi等[16]利用卷積長短期記憶網(wǎng)絡(luò)(convolutional long short-term memory,ConvLSTM)和單通道雷達(dá)圖像預(yù)測降水量,輸入與輸出都是序列。Kim等[17]利用ConvLSTM網(wǎng)絡(luò)和多通道雷達(dá)圖像進(jìn)行預(yù)測降水量,輸入為歷史時刻的序列圖像,輸出為一個具體數(shù)值。但是,由于不同氣象衛(wèi)星的重復(fù)周期即時間分辨率不同,傳感器空間分辨率也不同,這必然造成多模態(tài)數(shù)據(jù)集對預(yù)測結(jié)果的影響。上述基于時序衛(wèi)星數(shù)據(jù)的預(yù)測模型均未考慮不同遙感數(shù)據(jù)、不同時間間隔對預(yù)測結(jié)果的影響。同時作為預(yù)測問題,因預(yù)測的步長影響到能夠預(yù)測的未來時長,故必然會降低將來的預(yù)測精度。因此,預(yù)測步長對預(yù)測結(jié)果也有重要影響,而以上的研究對這方面的影響沒有考慮。注意力機(jī)制最初應(yīng)用于自然語言處理上,并得到了較好的結(jié)果,但是語言上下文之間的聯(lián)系與氣象災(zāi)害物理現(xiàn)象前后連接機(jī)制也存在不同,目前還沒有研究將注意力機(jī)制應(yīng)用到氣象物理時序的預(yù)測問題上。
針對上述問題,本文利用900多個臺風(fēng)過程,30 000多張時序的臺風(fēng)衛(wèi)星云圖作為數(shù)據(jù)源,基于Attention機(jī)制和Seq2Seq模型構(gòu)建了一個新的臺風(fēng)等級預(yù)測模型SeqTyphoon,通過利用歷史時刻的時間序列衛(wèi)星圖像,預(yù)測未來時刻的臺風(fēng)圖像,并由臺風(fēng)等級分類結(jié)果及圖像信息熵評價預(yù)測圖像的準(zhǔn)確率。同時,研究了相鄰圖像間的不同時間間隔、不同預(yù)測時長和不同像素大小對臺風(fēng)預(yù)測的影響。
本文所用的自建臺風(fēng)數(shù)據(jù)由日本國立情報學(xué)研究所(National Institute of Informatics,NII)提供,氣象云圖數(shù)據(jù)取自Himawari-1~8系列衛(wèi)星、GOE9氣象衛(wèi)星,其中Himawari-8更是達(dá)到10 min的時間分辨率,高達(dá)500 m的空間分辨率。GOES是美國NOAA的靜止軌道業(yè)務(wù)衛(wèi)星系列,采用雙星運行體制。紅外圖像的空間分辨率可達(dá)到2~5 km。選取近40年的臺風(fēng)云圖作為數(shù)據(jù)樣本,均為紅外圖像,原圖像為512像素×512像素。選取959個臺風(fēng)過程,即959個臺風(fēng)序列,共35 318張臺風(fēng)圖像,構(gòu)建了訓(xùn)練集、驗證集及測試集,分別為799、99、61個臺風(fēng)過程,對應(yīng)29 519、3 804、1 995張臺風(fēng)圖像。模型輸入為單通道灰色圖像。首先,考慮計算能力情況,將512像素×512像素的圖像重采樣為32像素×32像素和64像素×64像素進(jìn)行訓(xùn)練。重采樣采用雙線性內(nèi)插法,雙線性內(nèi)插法具有灰度連續(xù)且圖像光滑特點,同時保證了圖像保留盡可能多的信息。其次,為網(wǎng)絡(luò)處理及避免過擬合問題,對圖像進(jìn)行歸一化處理,范圍為[0,1]。臺風(fēng)從生成、成熟到消亡階段具有時間序列特征,并且同一個臺風(fēng)在不同的生命周期階段,均具有不同的形態(tài),在衛(wèi)星云圖上表現(xiàn)的旋狀云系也不同[18]。圖1為一個完整的臺風(fēng)生命周期中的部分圖像,此臺風(fēng)共持續(xù)11 d 18 h。
圖1 200416號臺風(fēng)過程圖像
鑒于歷史時間序列的每張圖像對未來時刻圖像預(yù)測并不是同等的貢獻(xiàn),因此引入注意力機(jī)制[22]來提取對未來時刻圖像預(yù)測有重要意義的時間序列圖像,賦予重要圖像不同的權(quán)重。最后將這些信息歷史圖像的表征聚合起來形成動態(tài)語義向量,作為解碼器部分的一個輸入。通過此設(shè)置,模型能夠選擇性地輸入序列的有用部分,將注意力機(jī)制結(jié)合到輸入數(shù)據(jù)的某個部分中,以提高任務(wù)的準(zhǔn)確性,同時可緩解LSTM在捕捉圖像的序列信息時產(chǎn)生的梯度消失問題。最終,編碼器部分輸出是未來6 h至未來48 h的臺風(fēng)圖像。其中,注意力機(jī)制中的動態(tài)語義向量的計算如式(1)所示。
(1)
式(1)為編碼器隱藏狀態(tài)的加權(quán)和來聚合編碼器隱藏狀態(tài),以獲取上下文向量。aij表示輸出的第i個像素對編碼部分第j個輸出hj的權(quán)重;Tx表示T時刻,像素輸入序列序號。
卷積神經(jīng)網(wǎng)絡(luò)[23]是提取高級語義特征表現(xiàn)最好的算法,通過對圖像的逐層卷積提取更加抽象的特征,越抽象的特征越能夠表現(xiàn)圖像的語義信息,并在圖像的分類中表現(xiàn)出更好的性能[24]。因此,為進(jìn)一步衡量預(yù)測的臺風(fēng)云圖質(zhì)量,利用卷積神經(jīng)網(wǎng)絡(luò),對預(yù)測出的圖像進(jìn)行臺風(fēng)等級分類。本文構(gòu)建的臺風(fēng)圖像預(yù)測模型SeqTyphoon如圖2所示。
圖2 SeqTyphoon模型結(jié)構(gòu)
為評估預(yù)測模型的性能,選取均方根誤差、臺風(fēng)等級預(yù)測精度、圖像信息熵3個指標(biāo)衡量模型的預(yù)測精度。
1)均方根誤差(RMSE)。均方根誤差可以很好地反映預(yù)測值誤差的真實情況。均方根誤差越小,網(wǎng)絡(luò)訓(xùn)練越好。
2)臺風(fēng)等級預(yù)測精確度。依照國際臺風(fēng)分類標(biāo)準(zhǔn),根據(jù)臺風(fēng)中心風(fēng)速將數(shù)據(jù)集分為5類:熱帶低壓、熱帶風(fēng)暴、強(qiáng)熱帶風(fēng)暴、臺風(fēng)、強(qiáng)臺風(fēng),如表1所示。
表1 臺風(fēng)等級標(biāo)準(zhǔn)
臺風(fēng)云圖數(shù)據(jù)集采用5類標(biāo)簽標(biāo)記,即熱帶低壓、熱帶風(fēng)暴、強(qiáng)熱帶風(fēng)暴、臺風(fēng)、強(qiáng)臺風(fēng)5個臺風(fēng)等級,對應(yīng)文中的臺風(fēng)二等級至臺風(fēng)六等級。
將預(yù)測出的臺風(fēng)圖像,通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行臺風(fēng)等級預(yù)測,以進(jìn)一步評估不同條件下預(yù)測的臺風(fēng)圖像質(zhì)量。①訓(xùn)練臺風(fēng)等級分類模型,將35 000多張臺風(fēng)云圖分為5個等級進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練;②將測試集圖片進(jìn)行等級預(yù)測,記錄可正確預(yù)測臺風(fēng)等級的圖片;③對于不同時間間隔、不同預(yù)測時長、不同像素等條件預(yù)測出來的圖片,對應(yīng)第②步中的標(biāo)記圖片進(jìn)行篩選;④針對篩選出的圖片同樣進(jìn)行臺風(fēng)圖片等級分類預(yù)測;⑤計算出可正確分類的預(yù)測的臺風(fēng)圖片準(zhǔn)確率。預(yù)測臺風(fēng)準(zhǔn)確率=預(yù)測臺風(fēng)圖像正確數(shù)/臺風(fēng)圖像總數(shù)。臺風(fēng)等級預(yù)測流程如圖3所示。
圖3 臺風(fēng)等級預(yù)測精度計算流程圖
3)圖像信息熵。圖像信息熵是一種圖像特征的統(tǒng)計形式,它反映了圖像中平均信息量的多少。圖像的一維熵表示圖像中灰度分布的聚集特征所包含的信息量。
本文實驗環(huán)境為Ubuntu操作系統(tǒng),AMD Ryzen Threadripper1950X 16-Core Processor,內(nèi)存32 GB,雙顯卡(GTX1080Ti)。軟件使用python3.6版本,實驗基于Pytorch框架。
SeqTyphoon模型經(jīng)實驗得出,最佳LSTM層和最佳隱藏神經(jīng)元個數(shù),即編碼器和解碼器各含有1層LSTM網(wǎng)絡(luò),10個隱藏神經(jīng)單元。為避免過擬合現(xiàn)象,采用dropout機(jī)制來提高模型的泛化能力。模型主要參數(shù)如表2所示。
表2 訓(xùn)練參數(shù)選取
為了分析不同時間間隔和不同預(yù)測步長對預(yù)測臺風(fēng)圖像精度的影響,進(jìn)行了如下實驗:①臺風(fēng)圖像時間間隔為6 h,圖像為32像素×32像素時,進(jìn)行未來6~48 h的臺風(fēng)圖像預(yù)測;②臺風(fēng)圖像時間間隔為12 h,圖像為32像素×32像素時,進(jìn)行未來12 h的臺風(fēng)圖像預(yù)測;③臺風(fēng)圖像時間間隔為6 h,圖像為64像素×64像素時,進(jìn)行未來6 h的臺風(fēng)圖像預(yù)測。
1)臺風(fēng)圖像時間間隔為6 h,圖像為32像素×32像素時,進(jìn)行未來6~48 h的臺風(fēng)圖像預(yù)測。模型訓(xùn)練性能如圖4所示。
圖4 預(yù)測未來6~48 h的模型訓(xùn)練性能圖
由圖4中的損失值變化曲線可得,網(wǎng)絡(luò)每次訓(xùn)練迭代100次,實驗均沒有發(fā)生過擬合現(xiàn)象,且模型已經(jīng)訓(xùn)練到最優(yōu)性能。模型訓(xùn)練過程快速,模型的訓(xùn)練和驗證損失值在迭代20次左右時開始趨于收斂,之后,訓(xùn)練集損失值和驗證集損失值開始平穩(wěn)收斂,在迭代95次左右時趨于最終收斂。
2)臺風(fēng)圖像時間間隔為12 h,圖像為32像素×32像素時,進(jìn)行未來12 h的臺風(fēng)圖像預(yù)測。模型訓(xùn)練性能如圖5所示。
圖5 預(yù)測未來12 h的模型訓(xùn)練性能圖
由圖5可以看到,模型訓(xùn)練過程快速,模型的訓(xùn)練和驗證損失值在迭代6次之后開始趨于收斂,整個過程沒有發(fā)生過擬合現(xiàn)象。
表3為在迭代100次時,不同時間間隔、不同預(yù)測時長、不同像素的預(yù)測誤差結(jié)果。圖像為64像素×64像素,時間間隔為6 h,預(yù)測未來6 h臺風(fēng)圖像的均方根誤差結(jié)果最小,訓(xùn)練集均方根誤差為0.089 6,驗證集均方根誤差為0.091 1,預(yù)測結(jié)果最好。其次是32像素×32像素,時間間隔為6 h,預(yù)測未來6 h的臺風(fēng)圖像,訓(xùn)練精度和驗證精度分別提高0.26%和0.43%,但前者的計算時長是后者的4倍。
表3 不同像素、不同時間間隔及不同預(yù)測時長的訓(xùn)練集及驗證集均方根誤差對比
圖像為32像素×32像素,時間間隔為6 h,預(yù)測未來6~48 h的臺風(fēng)圖像均方根誤差結(jié)果可知,預(yù)測時長越大,均方根誤差越大。得出這一結(jié)果是由于當(dāng)預(yù)測時長增加,神經(jīng)網(wǎng)絡(luò)對距離稍遠(yuǎn)時刻的狀態(tài)敏感度降低,從而預(yù)測的結(jié)果變?nèi)酢?/p>
同等起始時間,圖像為32像素×32像素,時間間隔為6 h的臺風(fēng)預(yù)測第30 h,時間間隔為12 h的預(yù)測未來12 h的結(jié)果,訓(xùn)練集均方根誤差、驗證集均方根誤差分別為0.128 2、0.131 3和0.146 3、0.152 6??梢?,前者的均方根誤差明顯小于后者。顯然,時間間隔的誤差大于預(yù)測時長引起的誤差,即時間間隔對臺風(fēng)圖像預(yù)測影響大于預(yù)測時長對其的預(yù)測影響。
由表4可知,圖像為64像素×64像素,時間間隔為6 h預(yù)測的臺風(fēng)圖像,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行等級預(yù)測準(zhǔn)確率最高,等級預(yù)測準(zhǔn)確率達(dá)到83.20%。其次為圖像為32像素×32像素,時間間隔為6 h預(yù)測的臺風(fēng)圖像,等級預(yù)測準(zhǔn)確率達(dá)到79.51%。
表4 不同像素、不同時間間隔及不同預(yù)測時長的臺風(fēng)圖像等級預(yù)測準(zhǔn)確率
圖像為32像素×32像素,時間間隔為6 h預(yù)測的未來6~48 h的臺風(fēng)圖像等級預(yù)測準(zhǔn)確率,預(yù)測時長越大,準(zhǔn)確率由79.51%遞減至65.15%??傻脮r間間隔越長,預(yù)測圖像質(zhì)量越下降。
同時可得,圖像為32像素×32像素,時間間隔為12 h預(yù)測的臺風(fēng)圖像,臺風(fēng)等級預(yù)測準(zhǔn)確率為39.20%,是最低的。如果從同等起始時間,圖像為32像素×32像素,時間間隔為6 h預(yù)測的第5張圖片(預(yù)測時長為30時),是前者預(yù)測的第一張圖片,但二者準(zhǔn)確率相差29.36%。因此時間間隔大小對于圖像預(yù)測的影響遠(yuǎn)大于預(yù)測時長因素。
結(jié)合表3和表4可得出,影響臺風(fēng)圖像的主要因素是時間間隔,其次是預(yù)測時長。即時間間隔愈小、預(yù)測時長愈小,預(yù)測出的臺風(fēng)圖像就愈接近真實臺風(fēng)圖像(圖6)。
圖6 原始圖和預(yù)測圖對比
2張圖像的熵越接近,說明其越相似。表5為不同像素、不同時間間隔及不同預(yù)測時長的預(yù)測臺風(fēng)圖像和原圖像的熵均值。
表5 不同像素、不同時間間隔及不同預(yù)測時長預(yù)測的臺風(fēng)圖像和原臺風(fēng)云圖的熵均值對比
由表5可以得出,圖像為64像素×64像素,時間間隔較小(6 h),且進(jìn)行未來一個時刻(6 h)的臺風(fēng)圖像預(yù)測的熵均值與原臺風(fēng)圖像的熵均值最接近。這說明了像素較高、時間間隔較小,進(jìn)行未來一個時刻的臺風(fēng)圖像預(yù)測結(jié)果最精準(zhǔn)。
Seq2Seq網(wǎng)絡(luò)是一種序列對序列的生成網(wǎng)絡(luò),解決了LSTM固定輸入和輸出序列問題。Attention解決了在時間序列較長時,僅使用最后一個隱藏層狀態(tài)作為上下文向量,訓(xùn)練效果不佳的問題。本文針對序列的臺風(fēng)衛(wèi)星云圖,提出了一種基于引入Attention機(jī)制和Seq2Seq網(wǎng)絡(luò)模型的新模型SeqTyphoon。將同一臺風(fēng)生命周期中,具有時間序列屬性的歷史時刻臺風(fēng)衛(wèi)星云圖作為輸入,預(yù)測未來6~48 h內(nèi)的臺風(fēng)圖像,并使用均方根誤差、臺風(fēng)災(zāi)害等級預(yù)測精確度及圖像信息熵作為實驗結(jié)果的評價指標(biāo)。實驗表明,在硬件平臺允許的情況下,使用像素較高、時間間隔小的相鄰序列臺風(fēng)圖像,預(yù)測未來時刻的臺風(fēng)圖像結(jié)果更精確。后期的研究工作主要是時間序列的臺風(fēng)衛(wèi)星圖像與深度學(xué)習(xí)方法相結(jié)合,實現(xiàn)更精確的臺風(fēng)圖像預(yù)測,以及消除累積誤差。由于多步預(yù)測時,預(yù)測后一時刻圖像會使用前一時刻預(yù)測的圖像,而前一時刻預(yù)測的結(jié)果就存在誤差,故再預(yù)測后面的圖像時定會產(chǎn)生累積誤差,所以必須加以消除。