黃妙芬,王江穎,邢旭峰,王忠林,周 運(yùn)
(廣東海洋大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,廣東 湛江 524088)
隨著海上石油開采活動以及沿海石油化工基地的相繼建設(shè),相關(guān)海域不可避免地受到石油污染。開展相關(guān)海域石油污染含量的動態(tài)預(yù)測研究,對于推動我國生態(tài)文明建設(shè),改善海域水質(zhì)質(zhì)量,具有重要的作用。將遙感技術(shù)引入?yún)^(qū)域海洋石油污染相關(guān)特性研究的工作已展開,包括其表觀光學(xué)特性、固有光學(xué)特性和熒光特性[1-4],反演石油污染含量的遙感模型也相繼建立[5-7]。黃妙芬等[8]建立基于水體石油污染歸一化遙感反射比指數(shù)(Normalized Difference Petroleum Remote Sensing Reflectance Index,NDPRI)反演水中石油含量的遙感模式,其計(jì)算過程所需的輸入?yún)?shù)完全取自于遙感圖像本身,避免對其他附加輸入?yún)?shù)的依賴,從而實(shí)現(xiàn)遙感化,為將遙感技術(shù)用于研究水體石油污染含量的歷史變化特征和建立預(yù)測模型打下基礎(chǔ)。
美國陸地衛(wèi)星 Landsat 系列的第一顆衛(wèi)星Landsat 1 于1972 年成功發(fā)射,至今已經(jīng)發(fā)射8 顆衛(wèi)星,除Landsat 6 發(fā)射失敗之外,其余7 顆衛(wèi)星積累了大量對地觀測遙感數(shù)據(jù)[9-10],這些數(shù)據(jù)在海洋水質(zhì)觀測中發(fā)揮了巨大的作用。依據(jù)該系列的數(shù)據(jù)源,學(xué)者們[11-12]分別建立提取葉綠素、懸浮泥沙、溶解性有機(jī)碳(dissolved organic carbon,DOC)等水體參數(shù)的遙感模型,取得良好效果。Landsat 系列所積累的時(shí)間序列數(shù)據(jù),可為海洋石油污染含量Co遙感預(yù)測模型的建立提供數(shù)據(jù)源,但Landsat 是典型的遙感時(shí)序數(shù)據(jù),若純粹基于其數(shù)據(jù)源建模來對相關(guān)數(shù)據(jù)進(jìn)行預(yù)測,并不能深入挖掘出數(shù)據(jù)源時(shí)序特征,因而需尋找一種能將時(shí)序特性關(guān)聯(lián)起來考慮的方法。
近年來,基于神經(jīng)網(wǎng)絡(luò)的信息提取算法取得長足進(jìn)展[13],不少學(xué)者[14-15]將這些算法用于遙感數(shù)據(jù)信息的提取和水質(zhì)參數(shù)監(jiān)測等。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[16]通常被認(rèn)為是一種用于處理時(shí)間序列數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò),它通過隱含層神經(jīng)元的循環(huán)“記住”過去的信息,將現(xiàn)在的信息與過去的信息進(jìn)行糅合,因此可產(chǎn)生相對準(zhǔn)確的預(yù)測結(jié)果。長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),屬于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 中的一種,主要解決RNN 在長期依賴上出現(xiàn)梯度爆炸與消失的問題。LSTM 的特點(diǎn)是能學(xué)習(xí)具有長時(shí)間跨度的時(shí)間序列并自動確定最優(yōu)時(shí)間滯后預(yù)測,因而能更有效地利用長距離的時(shí)序信息建立高精度的預(yù)測模型,在眾多領(lǐng)域取得了良好的預(yù)測效果[17-19]。本研究將LSTM 引入到具有長時(shí)間時(shí)序的Landsat 遙感數(shù)據(jù)中,通過信息挖掘,對Co遙感預(yù)測模型的建立展開探索性研究,旨在為掌握相關(guān)海域海洋石油污染含量的動態(tài)變化特征提供一種新技術(shù)手段。
研究區(qū)域選擇位于遼東半島南端大連市金州區(qū)的深水油港——大連新港。大連新港于1976 年正式投入使用,承擔(dān)著將大慶原油輸入油輪的任務(wù)。在該海域,歷史上曾發(fā)生多次溢油事件和嚴(yán)重的石油管道爆炸事件,加上日常的生產(chǎn)活動、油輪的運(yùn)輸?shù)?,給周圍海域帶來一定的油污染,這使得它成為一個(gè)進(jìn)行海洋石油污染特性研究的天然試驗(yàn)場地[20-21]。
海水石油污染含量現(xiàn)場測量數(shù)據(jù)主要用于預(yù)測模型的驗(yàn)證和分析。采樣點(diǎn)中心位置的經(jīng)緯度為:38°58.178' N,121°55.098' E。測量時(shí)間:1)2018 年8 月25 日7:00—17:00,采樣深度為表層(0 m),共計(jì)10 個(gè)樣本;2)2021 年1—5 月衛(wèi)星過境時(shí)刻(上午10:00—11:00),采樣深度為表層(0 m),共計(jì)20 個(gè)樣本。
測量儀器采用美國特納TD-500D 便攜式紫外熒光測油儀,該儀器測定原理與分子熒光光度法(《SL 366-2006 水質(zhì) 石油類的測定 分子熒光光度法》)相同,所使用的監(jiān)測標(biāo)準(zhǔn)與我國的《海洋監(jiān)測規(guī)范》GB17378.3-1998 相符。
1.3.1美國Landsat 系列衛(wèi)星介紹 采用衛(wèi)星遙感數(shù)據(jù)為Landsat 系列數(shù)據(jù)??紤]到大連新港油碼頭是1976 年投入使用,對海域的油污染有滯后效應(yīng),因此本研究采用1984 年之后發(fā)射的Landsat 5/TM、Landsat 7/ETM+、Landsat 8/OLI 這3 個(gè)傳感器采集的數(shù)據(jù)(表1)。
表1 Landsat 5/TM、Landsat 7/ETM+、Landsat 8/OLI 相關(guān)技術(shù)參數(shù)Table 1 Schedule of launch times and related technical parameters of the Landsat5/TM,Landsat 7/ETM+,Landsat 8/OLI
表1 顯示,1)Landsat 5/TM、Landsat 7/ETM+、Landsat 8/OLI 這3 種傳感器的空間分辨率都是30 m,時(shí)間分辨率都是16 d,時(shí)空分辨率高度一致;2)在可見光-近紅外波段(0.45~ 0.90 μm)都具有藍(lán)光、綠光、紅光和近紅外波段,波段設(shè)置也基本相近(除Landsat 8/OLI 設(shè)置2 個(gè)藍(lán)光波段,在此采用第2 個(gè)藍(lán)光波段)。
1.3.2遙感數(shù)據(jù)Landsat 系列衛(wèi)星對地掃描覆蓋的設(shè)計(jì)原則是相鄰兩軌衛(wèi)星之間存在一部分區(qū)域重疊,研究區(qū)域大連新港海域正好落在軌道號(Path/Row)為120/33 和119/33 的重疊區(qū)域,因而時(shí)間分辨率可由16 d 提高到8 d。利用1984—2020 年在大連新港海域過境的Landsat 衛(wèi)星所采集的數(shù)據(jù),共獲取遙感數(shù)據(jù)1680 景(數(shù)據(jù)下載網(wǎng)址:https://earthexplorer.usgs.gov/)。由于在部分日期衛(wèi)星過境的時(shí)候,出現(xiàn)云覆蓋的情況,導(dǎo)致數(shù)據(jù)缺失。在1999—2011 年期間,研究區(qū)域可同時(shí)接收到ETM+和TM 的數(shù)據(jù),因而通過這些密集的數(shù)據(jù)建立線性插值方程,來補(bǔ)齊缺失的數(shù)據(jù)。
Landsat 系列衛(wèi)星遙感數(shù)據(jù)產(chǎn)品,存儲的數(shù)值是灰度值(Digital Number,DN),因而首先需將其轉(zhuǎn)換為傳感器接受到來自目標(biāo)物的光譜輻亮度信息,即進(jìn)行輻射校正,其次考慮到大氣的影響,需進(jìn)一步對經(jīng)過輻射校正的數(shù)據(jù)進(jìn)行大氣校正。本研究中大氣校正方法采用美國 RSI(Research Systems Inc.)公司研發(fā)的遙感圖像處理軟件ENVI (The Environment for Visualizing Images)所提供的大氣校正模塊(Fast line-of-sight Atmospheric Analysis of Spectral Hypercube,F(xiàn)LAASH),經(jīng)過大氣校正后最終得到各對應(yīng)波段的Rrs(sr-1)[9]。
1.3.3海水石油污染含量遙感反演算法海水石油污染含量Co的獲取采用基于歸一化遙感反射比指數(shù)I(normalized difference petroleum remote sensing reflectance index,NDPRI)的石油污染含量遙感反演模型[8]。NDPRI 的計(jì)算公式為
基于NDPRI 反演出Co的遙感模式為
式(3)中,Co為海水石油污染含量,mg/L;x為I值,單位為1。
LSTM 網(wǎng)絡(luò)通過在每個(gè)神經(jīng)元結(jié)構(gòu)中設(shè)置3 個(gè)門來控制細(xì)胞狀態(tài)的方式,以解決RNN 網(wǎng)絡(luò)在長期依賴上出現(xiàn)梯度爆炸與消失的問題,每個(gè)神經(jīng)元結(jié)構(gòu)如圖1。
圖1 LSTM 單個(gè)神經(jīng)元結(jié)構(gòu)Fig.1 LSTM single neuron structure
圖1 中,xt表示當(dāng)前輸入值;ht表示當(dāng)前隱藏層的輸出,ht-1表示上一隱藏層的輸出;Ct表示當(dāng)前隱藏層的記憶細(xì)胞,Ct-1表示上一隱藏層的記憶細(xì)胞,表示記憶細(xì)胞狀態(tài),記憶細(xì)胞的作用是控制記憶單元中信息傳播;ft為遺忘門,用來控制需要丟棄的信息;it為輸入門,用來控制需要保留的信息;ot為輸出門,用來控制需要輸出的信息。求解ft、it、ot,、Ct、ht的表達(dá)式如下:
式(4—9)中,Wf、Wc、Wi、Wo為權(quán)重矩陣,σ為sigmoid 函數(shù),bf、bc、bi、bo為偏置矩陣,sigmoid和tanh 都是激活函數(shù),兩者的表達(dá)式如式(10-11)。
在參數(shù)確定過程中,選取均方根誤差R(Root Mean Square Error,RMSE)和平均絕對百分比誤差M(Mean Absolute Percentage Error,MAPE)作為評價(jià)模型性能的指標(biāo),計(jì)算公式如式(12—13),其中R表示模型的穩(wěn)定性,其值越低表示模型越穩(wěn)定;M用于表示模型的準(zhǔn)確性,其值越低表示模型的精度越高,效果越好。由于實(shí)驗(yàn)的結(jié)果具有一定的偶然性,評價(jià)指標(biāo)均取3 次實(shí)驗(yàn)的平均值。
其中,m為樣本數(shù),yi為實(shí)測值,為預(yù)測值。
2.1.1遙感數(shù)據(jù)運(yùn)用遙感數(shù)據(jù)直接采集到的物理量是像元在各個(gè)波段的Rrs,因而本研究主要引入LSTM 網(wǎng)絡(luò)對可見光-近紅外波段的Rrs進(jìn)行預(yù)測,然后通過一定的算法計(jì)算出對應(yīng)像元的Co。為提高數(shù)據(jù)的準(zhǔn)確性,在大連新港海域選擇一塊由3 行×3 列所構(gòu)成的9 個(gè)像元的固定區(qū)域,將9 個(gè)像元平均值作為中心像元的數(shù)值,分別得到該區(qū)域在藍(lán)光、綠光、紅光和近紅外波段對應(yīng)的Rrs。將該區(qū)域所有過境時(shí)刻數(shù)據(jù)取出,并與經(jīng)過插值處理的數(shù)據(jù)一起構(gòu)成時(shí)序數(shù)據(jù)集,共計(jì)1 680 個(gè)數(shù)據(jù),按7∶2∶1的比例將它們分成訓(xùn)練集、驗(yàn)證集和測試集,其中訓(xùn)練集數(shù)據(jù)用于訓(xùn)練模型,以找出最佳的權(quán)重和偏置;驗(yàn)證集數(shù)據(jù)用于對訓(xùn)練模型進(jìn)行篩選,以找出最佳的超參數(shù);測試集數(shù)據(jù)用于對訓(xùn)練好的模型進(jìn)行性能評估。
2.1.2LSTM 網(wǎng)絡(luò)模型參數(shù)的優(yōu)化 LSTM 網(wǎng)絡(luò)模型的超參數(shù)主要包括神經(jīng)網(wǎng)絡(luò)層數(shù)、隱藏神經(jīng)元節(jié)點(diǎn)數(shù)和回溯時(shí)間步長。在模型構(gòu)建過程中,神經(jīng)網(wǎng)絡(luò)層數(shù)設(shè)計(jì)太多會引起過擬合,導(dǎo)致訓(xùn)練效果不理想,太少又會引起欠擬合,達(dá)不到訓(xùn)練所需的效果;隱藏神經(jīng)元節(jié)點(diǎn)數(shù)的大小是影響模型收斂速度的一個(gè)關(guān)鍵因素;在構(gòu)建一個(gè)基于真實(shí)測量數(shù)據(jù)的預(yù)測模型時(shí),如果回溯時(shí)間步長太短,則前后的時(shí)間依賴關(guān)系很弱,進(jìn)行時(shí)間序列預(yù)測的意義就不大;如果時(shí)間步長越長,則梯度消失或爆炸的風(fēng)險(xiǎn)也就越高。
在對參數(shù)進(jìn)行優(yōu)化時(shí),首先將訓(xùn)練集數(shù)據(jù)分批加載進(jìn)入模型進(jìn)行訓(xùn)練,此時(shí),批處理大?。╞atch_size)設(shè)置為32,數(shù)據(jù)加載一批模型便迭代一次,訓(xùn)練次數(shù)(epochs)設(shè)置為500,當(dāng)驗(yàn)證集上的損失(均方差)在10 次迭代中沒有下降,則將學(xué)習(xí)率降低到原來的80%,初始學(xué)習(xí)率為0.001,最低為0.000 01;其次對神經(jīng)網(wǎng)絡(luò)層數(shù)、每層隱藏神經(jīng)元數(shù)、回溯時(shí)間步長進(jìn)行試驗(yàn),確定最優(yōu)的超參數(shù)。
以藍(lán)光波段的Rrs數(shù)據(jù)為例,在神經(jīng)網(wǎng)絡(luò)層數(shù)優(yōu)化的過程中,分別取2、3、4 層進(jìn)行實(shí)驗(yàn),并利用指標(biāo)R和M對模型性能進(jìn)行評估,結(jié)果如表2。分析表2 可見,神經(jīng)網(wǎng)絡(luò)層數(shù)為3,指標(biāo)R和M的數(shù)值最小,因而可認(rèn)為最佳的神經(jīng)網(wǎng)絡(luò)層數(shù)為3。
表2 設(shè)置不同神經(jīng)網(wǎng)絡(luò)層數(shù)的模型評價(jià)指標(biāo)值Table 2 Model evaluation index values of different neural network layers
采用3 層神經(jīng)網(wǎng)絡(luò),將LSTM 網(wǎng)絡(luò)的隱藏神經(jīng)元節(jié)點(diǎn)分別設(shè)置為16、32、64、96 個(gè)進(jìn)行實(shí)驗(yàn),結(jié)果如表3。分析表3 可見,在隱藏神經(jīng)元節(jié)點(diǎn)數(shù)為64 時(shí),指標(biāo)R和M值最小。
表3 設(shè)置不同隱藏神經(jīng)元節(jié)點(diǎn)數(shù)的模型評價(jià)指標(biāo)值Table 3 Model evaluation index values of different number of hidden neuron nodes
采用3 層神經(jīng)網(wǎng)絡(luò),神經(jīng)元節(jié)點(diǎn)數(shù)為64 的模型結(jié)構(gòu),分別采用不同回溯時(shí)間步長進(jìn)行試驗(yàn)。不同回溯時(shí)間步長下,各模型的評價(jià)指標(biāo)比較如表4。分析表4 可見,可得最佳回溯時(shí)間步長為6。
表4 設(shè)置不同回溯時(shí)間步長的模型評價(jià)指標(biāo)值Table 4 Model evaluation index values of different backtracking time steps
上面實(shí)驗(yàn)對藍(lán)光波段的遙感反射比數(shù)據(jù)進(jìn)行LSTM 預(yù)測模型構(gòu)建參數(shù)選取,實(shí)驗(yàn)結(jié)果表明,最佳組合為3 層神經(jīng)網(wǎng)絡(luò)、隱藏神經(jīng)元節(jié)點(diǎn)數(shù)為64、回溯時(shí)間步長為6。以同樣的試驗(yàn)方法分別對綠光波段、紅光波段、近紅外波段的遙感反射比數(shù)據(jù)探究構(gòu)建LSTM 預(yù)測模型的最佳參數(shù)(表5)。
表5 LSTM 模型在各波段中的最佳參數(shù)組合Table 5 Optimal parameter combination of LSTM model in each band
2.1.3預(yù)測模型驗(yàn)證 在最佳參數(shù)組合下,圖2 為LSTM 模型對藍(lán)光波段、綠光波段、紅光波段、近紅外波段Rrs數(shù)據(jù)的預(yù)測數(shù)據(jù)與測試數(shù)據(jù)的對比結(jié)果。分析圖2 可見,Rrs的預(yù)測值曲線與其測量值曲線的變化趨勢基本一致。
圖2 4 波段Rrs 預(yù)測結(jié)果與實(shí)際測量結(jié)果對比Fig.2 Comparison of predicted and actual results of Rrs in four bands respectively
由表6 可見,在這4 個(gè)波段中,近紅外波段具有最小的R值和最大的M值,表明其預(yù)測模型的穩(wěn)定性最好,但準(zhǔn)確性相對就差一些。
表6 不同波段作為測試集的LSTM 模型預(yù)測效果Table 6 Prediction effect of LSTM model with different bands as test set
基于LSTM 網(wǎng)絡(luò)所建立的預(yù)測模型,根據(jù)2021年1—5 月在研究區(qū)域衛(wèi)星過境的對應(yīng)日期,分別預(yù)測出過境時(shí)的4 個(gè)波段的Rrs,共計(jì)20 組數(shù)據(jù)。然后將這些預(yù)測的Rrs代入公式(6)進(jìn)行歸一化處理,最后根據(jù)公式(7)和(8)計(jì)算出Co預(yù)測值。Co實(shí)測值的獲取時(shí)間和方法參見1.2 節(jié)。圖3 為2021 年1—5 月在大連新港實(shí)測值的Co與預(yù)測值的對比,圖中數(shù)據(jù)時(shí)間間隔為8 d,時(shí)間序號1—4 是1 月份的觀測值,5—8 為2 月份觀測值,依次類推。
圖3 油含量預(yù)測值與實(shí)際測量值對比Fig.3 Comparison of predicted and actual results of petroleum-pollution concentration
分析圖3 可見,1)Co的預(yù)測值總體高于測量值;2)從1 月份開始到5 月份Co變化趨勢呈現(xiàn)逐漸增加態(tài)勢,1 月份大連新港油含量比較低,2—3月油含量的增加幅度比較大,4—5 月增幅變緩,趨于平穩(wěn)。這與氣溫的增加有著密切的關(guān)系,因?yàn)殡S著溫度的增加,水溫增高,底層的油物質(zhì)會產(chǎn)生揮發(fā),使得水體的含油量增加。
從圖4 可看出,Co變化值在1.0~ 9.3 mg/L 之間,10:00—11:00 數(shù)值在3.1~ 4.2 mg/L 之間,之后急劇上升,可達(dá)到9 mg/L。這與2021 年1—5 月的測量值和預(yù)測值是比較接近的,表明大連新港由于石油化工生產(chǎn)活動的影響,海水油污染一直存在。
圖4 2018 年8 月26 日研究區(qū)域油含量隨時(shí)間變化曲線Fig.4 Time variation of petroleum-pollution concentration at different depths in study area on August 26,2018
進(jìn)一步計(jì)算出圖3 中Co的預(yù)測值與實(shí)際測量值的平均相對誤差,結(jié)果為9.17%,表明通過4 波段Rrs預(yù)測模型預(yù)測出來的Rrs,代入Co遙感反演模型中反演出來的結(jié)果精度較高。分析造成誤差的原因,主要有:1)用于模型訓(xùn)練與驗(yàn)證的數(shù)據(jù)中,由于云覆蓋的影響,采用了插值的方法來彌補(bǔ)缺失數(shù)據(jù);2)Co遙感反演模型是基于部分像元點(diǎn)而建立;3)實(shí)際進(jìn)行Co測量時(shí)由于受到水樣采集環(huán)境的影響,對測量值也會帶來誤差,使得測量值不能代表該時(shí)刻的油含量的真值。
衛(wèi)星遙感數(shù)據(jù)能實(shí)時(shí)獲取大面積海域的Rrs,它們是海水組分對后向散射的總貢獻(xiàn)。在水色遙感領(lǐng)域利用Rrs,可進(jìn)一步估算出海水的組分濃度,包括水體石油污染含量。Landsat 衛(wèi)星序列具有長時(shí)間的數(shù)據(jù)積累,為基于LSTM 網(wǎng)絡(luò)建立Co遙感預(yù)測模型奠定了數(shù)據(jù)基礎(chǔ)。本研究中提出一種基于Landsat衛(wèi)星遙感數(shù)據(jù)和LSTM 網(wǎng)絡(luò)的Co預(yù)測模型。該模型根據(jù)Landsat 衛(wèi)星遙感獲取的歷史數(shù)據(jù),分別建立針對可見光-近紅外范圍的4 波段Rrs預(yù)測模型,在此基礎(chǔ)上采用水體石油污染歸一化遙感反射比指數(shù)構(gòu)建的遙感估算模型預(yù)測出Co值,最后根據(jù)現(xiàn)場測量數(shù)據(jù)對預(yù)測值進(jìn)行驗(yàn)證,平均相對誤差為9.17%,表明該預(yù)測算法具有較高精度。
基于Co預(yù)測模型所預(yù)測的數(shù)據(jù)可彌補(bǔ)在有云情況下油含量數(shù)據(jù)缺失的問題,也可為相關(guān)海域油含量未來動態(tài)演變預(yù)測提供一種新技術(shù)手段,并可在其他海域油港中進(jìn)行推廣應(yīng)用。另外本研究Co的遙感預(yù)測思路還能為利用Rrs建立其他水質(zhì)參數(shù)濃度的預(yù)測模型提供參考。