虞麗娟,李世超,陳成明,曹守啟
(上海海洋大學工程學院,上海,201306)
漁情建模系統(tǒng)[1]已廣泛應用于預測和分析經(jīng)濟魚類的時間和空間位置,以便對海洋資源進行更好地開發(fā)與管理??煽康臐O情預報主要由建模過程中使用準確的海洋環(huán)境數(shù)據(jù)來確定。海表溫度是通過海洋環(huán)境因子進行漁情預報系統(tǒng)模擬的最重要數(shù)據(jù)之一[2]。目前,比較傳統(tǒng)的海洋環(huán)境因子評估方法普遍采用海洋浮標直接測量海洋環(huán)境數(shù)據(jù),收集到相對準確的海洋環(huán)境因子資料,進而通過遙感技術[3](例如衛(wèi)星或氣象遙感)測量大尺度的海洋環(huán)境數(shù)據(jù)。南海及遠海海域海洋浮標網(wǎng)絡的稀疏空間分布使捕獲具有時空變異性的海洋環(huán)境數(shù)據(jù)變得困難。此外,氣候變化、儀表型號的不同和人為錯誤使海洋浮標測量數(shù)據(jù)的準確度極難量化。而目前,僅憑衛(wèi)星遙感獲得的海洋環(huán)境數(shù)據(jù)分辨率不夠高,可用性較差[4]。
海表溫度與捕獲魚群大小和空間位置具有相關性,但海表溫度數(shù)據(jù)在漁情模擬系統(tǒng)中的直接使用受到與其相關的誤差限制,可能導致水產(chǎn)資源規(guī)劃和管理的不合理。為克服這種限制,本文提出一種新方法,即使用逐次校正法(Successive correction method, SCM)將從中國國家海洋科學數(shù)據(jù)中心(National marine scientific data center, NMSDC)所獲得的高分辨率衛(wèi)星數(shù)據(jù)與海洋浮標數(shù)據(jù)相結(jié)合[5-8]。所提出的方法綜合考慮了南海區(qū)域所特有的海洋環(huán)境數(shù)據(jù)、海洋浮標布設密度、海洋環(huán)境因子的時空分辨率、魚群空間偏差等特點[9],討論如何以現(xiàn)有的海洋環(huán)境數(shù)據(jù)庫提煉出更精確的高分辨率海洋環(huán)境數(shù)據(jù),因而具有切實的產(chǎn)業(yè)發(fā)展意義與應用價值。
過去60 年來,不同來源數(shù)據(jù)集的合并算法得以持續(xù)發(fā)展和改進,主要緣于包括海洋科學在內(nèi)的許多領域的長足進步,特別是水文學和數(shù)字漁情預報。這些領域的技術發(fā)展均基于遙感海洋環(huán)境數(shù)據(jù)可靠的基本假設,如衛(wèi)星遙感數(shù)據(jù)(通常稱背景場)。目前比較傳統(tǒng)的數(shù)據(jù)合成方法為最優(yōu)插值(Optimal interpolation, OI)方法及其改進方法(卡爾曼濾波、三維變分同化或空間分析)[10-12]。上述方法在實時性與適用性上受到自身樣本的制約,為此本文采用最小方差估計意義上評估線性分析,SCM 方法。
SCM 是一種迭代經(jīng)驗方法,被廣泛應用于全球范圍的氣象空間分析和很多工程領域[13]。在經(jīng)典SCM 中,分析網(wǎng)格點(xoi)的第1 個估計值由在第i 個網(wǎng)格點處評估的背景(xbi)給出。在第1 次估計之后,通過SCM 獲得迭代式
式中,xni為網(wǎng)格點i 處的第n 次迭代估值,xok為圍繞網(wǎng)格點i 的第k 次觀測,xnk為觀測位置k 處的第n 次場估計值,ωnik為圍繞網(wǎng)格點i 的觀察點k 的第n 次背景估計的權(quán)重值,而ε2為誤差方差的觀測和場誤差方差之間的比(ε2= ε2oε2b)。權(quán)重定義為
式中,Rn為影響半徑,r2ik為網(wǎng)格點i 和觀測值k 之間的平方距離。權(quán)重定義為
式中,γ 為常數(shù)因子。2 種方法均取決于分析網(wǎng)格點i 與影響半徑Rn內(nèi)的觀測值之間的權(quán)重。Rn在第1次迭代時固定不變,隨著影響區(qū)域在每次迭代時的改變,γ 在0 和1 之間變化。在第1 次迭代中,半徑通常設置為較大的值(γ = 1)以捕獲背景場的大尺度相關性。然后,縮小分析較小的尺度(γ <1)。半徑值的選擇取決于許多因素,例如觀測的數(shù)量和空間分布(少數(shù)點可能導致變異性的子網(wǎng)格點不具代表性的樣本)和觀測數(shù)據(jù)的相關距離。而且,誤差方差ε2的比率起著重要作用。如果ε2= 0 在半徑較小的情況下,分析場在i 網(wǎng)格點處反映了小半徑內(nèi)的k 個觀測值。如果觀察結(jié)果有噪聲或僅僅表示較小的尺度變異性,則可以在分析域中觀察到“牛眼”現(xiàn)象。為了避免這個問題,假設觀測值的誤差ε2>0,因此給予背景場一些權(quán)重[14]。
研 究 區(qū) 域 是 中 國 南 海 某 海 域 ,位 于10 °S~20 °S 和110 °W~120 °W 之間(見圖1)??偯娣e為1 185 593 km2。該海域約占我國南??偯娣e2 100 000 km2的56%。中國南海有豐富的海洋油氣礦產(chǎn)資源、濱海和海島旅游資源、海洋能資源、港口航運資源、熱帶亞熱帶生物資源,是中國最重要的海島和珊瑚礁、紅樹林、海草床等熱帶生態(tài)系統(tǒng)分布區(qū)[15-16]。
本文使用的海洋浮標測量數(shù)據(jù)主要由NMSDC 收集、處理和維護。研究區(qū)域的浮標分布如圖1 所示。
本研究共使用了16 個海洋浮標。浮標數(shù)據(jù)及遙感數(shù)據(jù)估計值從NMSDC 數(shù)據(jù)庫中獲得,2 個數(shù)據(jù)集的時間跨度均為2009 年1 月至2018 年12 月 。
圖1 中國南海某海域的海洋浮標位置分布Fig.1 Location distribution of ocean buoys in an area of the south China sea
從16 個海洋浮標獲取的數(shù)據(jù)中,只有很少質(zhì)量不太好的測量數(shù)據(jù),因此在得到月平均值前,已做了一些調(diào)整:(1)從日常記錄中刪除了極端值(>42 ℃,<10 ℃),這些可能是人為因素或儀器故障造成的;(2)全分辨率下用最鄰近插值替換溫度圖中的缺失值或錯誤值;(3)通過采樣增加數(shù)據(jù)分辨率,將海洋浮標測量結(jié)果與遙感數(shù)據(jù)庫進行比較,使用雙線性內(nèi)插法[17]檢測極端差異(>42 ℃)。逐個比較這些差異,評估2 個數(shù)據(jù)集中差異位置周圍的空間分布。
由于水平空間的有限分辨率、數(shù)值算法的簡化、對海洋系統(tǒng)不完全了解以及儀器的偏差,對溫度的估算容易產(chǎn)生誤差。在合并這2 個數(shù)據(jù)集之前,必須消除2 類數(shù)據(jù)的系統(tǒng)偏差。
隨著遙感衛(wèi)星測量的出現(xiàn),在過去的十年中發(fā)展了許多不同的偏差校正算法。這些方法中的大多數(shù) 可 分 為4 種[18]。
(1)平均偏差校正:包括在一定時間段內(nèi)估計所有海洋浮標的平均偏差,使用該值校正遙感數(shù)據(jù)。這種方法可用于偏置場均勻的情況。否則將該區(qū)域劃分為具有均勻偏差的較小區(qū)域[19]。
(2)回歸方程:包括估算回歸方程系數(shù),使用每個浮標的歷史時間序列和平均系數(shù)來校正遙感數(shù)據(jù)。通常在文獻中得到的回歸方程是y = ax + b,y = ax2+ bx,或者y = axb。當海洋浮標測量值與遙感估計值之間存在良好的空間相關性時則可以使用該方法[20]。
(3)分布變換:最簡單的方法是使用從2 個統(tǒng)計分布估計的參數(shù)(平均值μ 和標準偏差σ),第1 個是從海洋浮標中得出的,第2 個來自遙感估計值(在海洋浮標的位置)[21]。使用式(4)將第二分布轉(zhuǎn)換為第一分布
式中,Rc為從偏差校正的遙感估計,R0為未校正的遙感估計值,B和R分別為海洋浮標和遙感數(shù)據(jù)。
(4)空間變換:這種方法包括使用海洋浮標和遙感估計之間確定的偏差,在每個浮標的位置,生成平滑的2D 偏差曲線,通常使用樣條插值算法。最后,在遙感估計中加入差值[22]。
為評估上述4 種方法的性能,將伽瑪分布擬合至海洋數(shù)據(jù)、未校正的遙感數(shù)據(jù)(僅用于可視化)和校正的遙感數(shù)據(jù)中,使用的是最大似然估計的伽瑪分布參數(shù)(α?為形狀參數(shù),β?為尺度參數(shù))。伽馬分布廣泛用于表示不同時間分辨率的海表溫度,因為它是非負、正偏態(tài)的,具有形狀靈活性。此外,只需由2 個參數(shù)即可定義。海洋浮標與遙感海表溫度的伽瑪擬合優(yōu)度評估如下
式中,μ?和σ?為平均值和標準偏差,分別由伽瑪分布的2 個參數(shù)(α?,β?)估算,下標“G”和“R”分別代表浮標數(shù)據(jù)和遙感數(shù)據(jù)。非參數(shù)的Kolmogorov-Smirnov(K-S)[23]檢驗用于驗證2 個樣本是否都來自顯著性水平10% 的相同分布。圖2 顯示了2009 年3 月上述每個修正的結(jié)果示例。其中,在回歸方程組中選擇冪函數(shù)y=axb;通過最小二乘法估計系數(shù)a和b;在分布變換組中使用式(4); 在空間變換組中采用T 樣條回歸算法[24]。
圖2 海洋浮標值的伽馬概率密度函數(shù)、未校正的遙感數(shù)據(jù)和校正的遙感數(shù)據(jù)估計值(2009 年3 月)Fig.2 Gamma probability density function of ocean buoy values, uncorrected remote sensing data and corrected remote sensing data estimates (March 2009)
表1 總結(jié)了在整個時間跨度內(nèi)夏季和冬季的每種實施方法的參數(shù)δ和p。較小的δ值代表2 個伽馬分布之間的擬合更好,且大于0.1 的p值表示從相同分布中抽取樣本的假設無效。分布變換和空間變換效果最佳,其次分別是平均偏差校正和回歸方程。在最后2 個中,p值表示在夏季中拒絕零假設,而非在冬季。夏季的最佳δ值是通過分布變換方法獲得的,而在冬季通過空間變換方法獲得。
如表1 所示,當在具有均勻偏差值的區(qū)域中進行回歸和空間變換校正算法時可能改善平均偏差的結(jié)果。關于回歸校正技術,可使用其他類型的回歸方程,但是否成功很大程度上與數(shù)據(jù)集所選的時間尺度相關。因此,考慮到冬季結(jié)果的相似性(δ參數(shù))和分布變換方法得到的結(jié)果對夏季δ值的變異性,本文將采用分布變換方法。
表1 時間跨度內(nèi)夏季和冬季各種方法的參數(shù)δ 和pTable1 δ and p values for the four methods in full summer and winter periods
使用所提出的SCM 方法評估以獲得最終的海表溫度估算值。為了計算空間相關距離(式(3)中的參數(shù)R),海洋浮標數(shù)據(jù)的擬合由式(3)給出的模型來估計空間相關圖。通過半變異函數(shù)分析已證實,海洋浮標測量的各向異性程度可忽略不計,因此可應用式(3)中的各向同性函數(shù)。圖3 顯示了2個平均相關圖,一個用于夏季,另一個用于冬季。該相關圖僅是基于半變異函數(shù)并排除了塊金效應的近似值,使用夏季6 個月和冬季6 個月(隨機選擇)的數(shù)據(jù)來計算平均值,再利用指數(shù)變異函數(shù)模型來描述觀測值之間的空間相關性。對應于空間相關性0.5 的距離,夏季約為100 km,冬季約為66 km。由于距離差的差異很小,最大值100 km 將采用2個季節(jié)(R=0.5°)的相關距離。 背景場是從NMSDC 得到的遙感海表溫度,水平分辨率為21 km×21 km。
圖3 使用海洋浮標數(shù)據(jù)估算的相關圖Fig.3 Correlation for estimation using ocean buoy data
在SCM 中僅使用1 個相關距離和1 次迭代,其中R= 0.5°,γ= 1。僅選擇1 個相關距離是由于:(1)在質(zhì)量控制程序中減少了觀測值和背景場的主要誤差;(2)假設觀測結(jié)果包含一個具有代表性的亞格尺度變異性樣本(由于測量記錄的丟失);(3)在海表溫度空間分布特殊的情況下,最終場應只反映較小尺度的背景場;(4)背景場(遙感海表溫度)應該是在海洋浮標數(shù)據(jù)之上的最佳解決方案。否則,使用統(tǒng)計參數(shù)(如R2、ME 和其他參數(shù))和目視檢查,最佳結(jié)果在一次迭代后獲得。
最后通過留一法交叉驗證算法[25]來評估估算的準確性。本文使用了120 組記錄(在研究時間跨度內(nèi)至少98% 的海洋浮標有完整的數(shù)據(jù)記錄),連續(xù)每個月留下一個,每個算法有1 920 個估值(總共3 840 個估值)。為評估不同海表溫度估值的表現(xiàn),使用平均誤差ME,平均絕對誤差MAE,均方根誤差RMSE 和確定系數(shù)R2,根據(jù)式(8―11)計算
為分析SCM 方法的數(shù)據(jù)合成效果,將其應用于中國南海海表溫度的數(shù)據(jù)合成,所得結(jié)果與OI 方法進行比較。本文計算120 個月(2009―2018)的平均值,以便對由這2 種算法所獲得的空間分布進行統(tǒng)計比較[27-29]。圖4(a)顯示了用于計算月平均值的海洋浮標位置。注意,海洋浮標數(shù)據(jù)僅在每個月的可用數(shù)據(jù)超過27 d 時方為有效記錄。圖4(b)顯示了消除偏移后的遙感海表溫度估算所生成的背景場云圖;圖4(c―d)顯示了SCM 方法和OI 方法的對比結(jié)果,其中所有云圖均取2009―2018 年跨度內(nèi)的月平均值。
由2 種方法對地圖檢測的結(jié)果可知,SCM 方法和OI 方法的結(jié)果具有相似的空間分布,但也能觀察到個別海洋浮標的測量值對背景場的校正不明顯,比較圖4(a)和圖4(b)可知,校正不明顯的多數(shù)位于中國南海的中央和西北側(cè),且可在地圖中觀察到“牛眼”效應,見圖4(c),4(d)?!芭Q邸毙谀虾V行母鼮槊黠@,其中某些海洋浮標與背景場的海表溫度數(shù)據(jù)存在差異,但在每日和每月驗證程序中這些差異并不是錯誤的[30]。與OI 算法相比,SCM 方法具有更平滑且細節(jié)更豐富的海表溫度云圖(圖4(d))。表面上,2 種方法似乎都合并了海洋浮標數(shù)據(jù)和遙感數(shù)據(jù),顯示了相似的結(jié)果(圖4(a))。因此,如果不通過空間統(tǒng)計分析而僅憑目測檢查很難看出哪種方法的結(jié)果更優(yōu)。
圖4 對海表溫度圖像的目視檢查用數(shù)據(jù)分布圖和云圖Fig.4 Visual inspection of SST cloud maps and cloud maps refer to the monthly mean values over the span of 2009-2018
表2 總時間跨度的月度統(tǒng)計(2009―2018)Table 2 Monthly statistics of total time span(2009―2018)
表2 總結(jié)了統(tǒng)計分析的結(jié)果。 所有值都是在2009 年至2018 年的某個月中計算出來的。 表2的最后3 行顯示了夏季、冬季和整個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)。 ME、MAE 和RMSE 平均值的大小在冬季(淺灰色系)和夏季增加時略有減少。 正如預期的那樣,R2的值在夏季會降低,但在冬季會有所增加。 OI 方法顯示了遙感海表溫度和R2的中間值,但使用SCM 方法得到的ME 和MAE 值更接近。
這里考慮的統(tǒng)計參數(shù)有:平均誤差(ME)、平均絕對誤差(MAE)、均方根誤差(RMSE)和判定系數(shù)(R2)。最后3 行分別是夏季、冬季和2 個季節(jié)的平均值。
為評估2 種方法之間的性能差異,在本研究應用了留一法交叉驗證技術。對所選擇的16 個海洋浮標數(shù)據(jù)集,留下一組其余每種方法應用120 次;在計算下一個海洋浮標之前,在對應海洋浮標位置的遙感數(shù)據(jù)網(wǎng)格中添加所有的120 個值。該方法一共應用了3 840 次(16 個海洋浮標,120 個月,2 個算法)。圖5(a)顯示了海洋浮標數(shù)據(jù)與OI 結(jié)果交叉驗證之間的散點圖;圖5(b)顯示了海洋浮標數(shù)據(jù)與使用SCM 方法結(jié)果交叉驗證之間的散點圖。最終2 種方法的結(jié)果非常相似,與SCM 方法相比OI 方法呈現(xiàn)了更優(yōu)值R2=0.77,但采用SCM 方法產(chǎn)生了更好的RMSE 值。
雖然OI 方法的個體差異較小,且方差與SCM 方法幾乎相同,但SCM 方法在夏季產(chǎn)生的ME值和MAE 值較低,表明它對數(shù)據(jù)不足比較敏感(觀察值較少會導致局部效應的高變異性)。 雖然OI 方法具有分析增量的空間分布由背景誤差協(xié)方差矩陣定義的優(yōu)點,但SCM 方法的權(quán)重通常是各向同性且任意的,僅取決于與觀測點的距離,因而SCM 方法更適用于海面測量裝置稀疏的偏遠海域。
圖5 留一法交叉驗證技術結(jié)果Fig.5 Results of the leave-one-out cross-validation technique
本文應用了SCM 方法將2009 年1 月至2018 年12 月期間來自NMSDC 數(shù)據(jù)集中的海洋浮標和遙感海表溫度進行合并,并使用留一法交叉驗證技術評估結(jié)果以獲得更優(yōu)的數(shù)據(jù)融合方法。經(jīng)比較后發(fā)現(xiàn)SCM 較OI 方法提供了稍好的結(jié)果(ME=0.8 ℃/月,MEA=1.8 ℃/月,RMSE=41.7 ℃/月,R2=0.87)。相比之下,OI 方法不太準確(ME=0.9 ℃/月,MEA=1.8 ℃/月,RMSE=37.3 ℃/月,R2=0.85)。與OI 方法相比,SCM 實現(xiàn)性更優(yōu),通用性更強,計算速度更快(無需轉(zhuǎn)置大矩陣),且可以迭代地增加校正的平滑性,具備實時提供高分辨率精準的海洋環(huán)境數(shù)據(jù)的能力,尤其是在海面裝置非常稀疏的南海海域,可以提高漁情模擬預測的精度,以便更好地對海洋資源進行規(guī)劃和管理。