范冬林,楊鑫,曾優(yōu),何宏昌,付波霖
(1.桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541006;2.桂林理工大學(xué) 生態(tài)時(shí)空大數(shù)據(jù)感知服務(wù)重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541006)
高精度海表溫度(sea surface temperature,SST)是研究海洋的重要參數(shù)之一,被廣泛用于研究海洋氣候和水域生態(tài)系統(tǒng),是預(yù)估海洋和大氣之間復(fù)雜關(guān)系的基礎(chǔ)物理變量[1]。海洋動(dòng)力(漩渦、上升流、鋒面等)變化特征和海洋災(zāi)害(黑潮、臺(tái)風(fēng)等)均與海表溫度變化密切相關(guān)[2-3]。海表溫度不僅是評(píng)估全球變暖的重要物理變量,同時(shí)是局部生態(tài)系統(tǒng)健康指標(biāo)。因此,構(gòu)建高精度、高空間覆蓋率的海表溫度是一項(xiàng)非常重要的任務(wù)。
衛(wèi)星遙感技術(shù)由于具有監(jiān)測(cè)尺度大、覆蓋范圍廣的特點(diǎn),被廣泛用于對(duì)海表溫度的獲取。基于衛(wèi)星的紅外輻射計(jì)使用黑體輻射定理可以方便地估算海表溫度[4]。此類(lèi)方法以輻射出射度與熱力學(xué)溫度關(guān)系為基礎(chǔ),使用多波段差消除不同氣體對(duì)輻射的影響[5],進(jìn)而建立多波段亮溫和SST的擬合方程。如美國(guó)國(guó)家航空航天局海洋生物處理小組基于中分辨率成像光譜儀(moderate-resolution imaging spectroradiometer,MODIS)紅外波段開(kāi)發(fā)的非線(xiàn)性海表溫度算法[6]、Mcclain等[7]根據(jù)多個(gè)通道開(kāi)發(fā)的多通道海表溫度算法。這一類(lèi)算法及其派生算法作為業(yè)務(wù)化方法被廣泛用于反演衛(wèi)星SST產(chǎn)品,包括美國(guó)國(guó)家海洋與大氣應(yīng)用管理局、美國(guó)國(guó)家航空航天局和歐洲氣象衛(wèi)星開(kāi)發(fā)組織等提供的SST產(chǎn)品。然而,這類(lèi)算法受限于云干擾,易受不同氣體及氣溶膠對(duì)輻射的影響[8],無(wú)法準(zhǔn)確評(píng)估在云遮擋情況下的海表溫度,在云廣泛存在的熱帶地區(qū)云遮擋問(wèn)題尤為突出。
由于云層覆蓋,傳統(tǒng)SST反演算法導(dǎo)致云層下墊面海表溫度的缺失。為了提高海表溫度覆蓋率,需針對(duì)缺失的海表溫度數(shù)據(jù)進(jìn)行預(yù)估。利用多種衛(wèi)星海表溫度產(chǎn)品進(jìn)行數(shù)據(jù)融合或者利用時(shí)序的海表溫度產(chǎn)品數(shù)據(jù)進(jìn)行海溫預(yù)估[9-10]是提高海表溫度覆蓋率的常用方法。然而,上述方法不能實(shí)現(xiàn)遙感衛(wèi)星海溫?cái)?shù)據(jù)的實(shí)時(shí)補(bǔ)缺。如靜止衛(wèi)星Himawari-8衛(wèi)星影像數(shù)據(jù),由于成像頻率遠(yuǎn)高于極軌衛(wèi)星,難以利用其他衛(wèi)星溫度產(chǎn)品進(jìn)行融合。因此,通過(guò)遙感紅外熱輻射直接反演海表溫度是提高靜止衛(wèi)星海表溫度產(chǎn)品覆蓋率的主要方法。目前衛(wèi)星紅外圖像云下海表溫度反演的研究有限,少部分研究開(kāi)展了單一條件下(卷云)海表溫度反演[11-12]、云類(lèi)型分組條件下海表溫度反演[13],但尚未有文獻(xiàn)針對(duì)Himawari-8衛(wèi)星數(shù)據(jù)開(kāi)展云下海表溫度反演。因此,為了彌補(bǔ)這項(xiàng)研究的缺失,本文基于近紅外波段(λ=1 609.8 nm)瑞利校正后的閾值建立6種不同閾值區(qū)間的樣本數(shù)據(jù)集,利用機(jī)器學(xué)習(xí)算法探究在不同閾值區(qū)間下云下海表溫度的反演性能。本文建立的算法可以有效提高Himawari-8衛(wèi)星單次成像下海表溫度的空間覆蓋率。
Himawari-8是日本氣象廳發(fā)射的一顆覆蓋西太平洋和東亞地區(qū)的靜止氣象衛(wèi)星,以10 min超短周期作業(yè),其紅外波段空間分辨率為2 km×2 km,是葵花系列衛(wèi)星的一種。其搭載的高級(jí)葵花成像儀(advanced himawari imager,AHI)傳感器共有16個(gè)通道,為3個(gè)可見(jiàn)光、3個(gè)近紅外以及10個(gè)紅外通道[14]。
本文使用已進(jìn)行輻射校正和幾何校正的L1級(jí)數(shù)據(jù)作為遙感數(shù)據(jù)源。實(shí)測(cè)海表溫度數(shù)據(jù)為2019年、2020年日本氣象廳海洋浮標(biāo)采集的海表溫度,該數(shù)據(jù)的采樣頻率為1 h,本文選取采集區(qū)域位于15°N~45°N,120°E~170°E的海洋浮標(biāo)海表溫度實(shí)測(cè)數(shù)據(jù)。為保證實(shí)測(cè)數(shù)據(jù)的正確性,本文對(duì)浮標(biāo)實(shí)測(cè)海表溫度數(shù)據(jù)進(jìn)行質(zhì)量監(jiān)測(cè)。首先,通過(guò)數(shù)據(jù)預(yù)處理刪除重復(fù)的數(shù)據(jù),監(jiān)測(cè)數(shù)據(jù)空間位置的合理性,刪除空間位置在陸地和近海岸區(qū)域的數(shù)據(jù)。其次,監(jiān)測(cè)數(shù)據(jù)內(nèi)部一致性,對(duì)同一個(gè)浮標(biāo)采集的數(shù)據(jù)進(jìn)行噪聲過(guò)濾,其過(guò)濾過(guò)程如下[15]:由于實(shí)測(cè)SST在某些采樣頻率存在數(shù)據(jù)缺失問(wèn)題,因此,先對(duì)缺失數(shù)據(jù)進(jìn)行插值。本文設(shè)置插值滑動(dòng)窗口為5 h,即當(dāng)前點(diǎn)SSTi在[SSTi-5,SSTi+5]范圍內(nèi)存在實(shí)測(cè)值時(shí)才滿(mǎn)足插值條件,插值方法直接使用滑動(dòng)窗口內(nèi)的均值;對(duì)插值后的實(shí)測(cè)數(shù)據(jù)進(jìn)行連續(xù)性判斷,如果斷裂則分割為一個(gè)片段,當(dāng)片段中的SST數(shù)據(jù)值小于10個(gè),直接忽略該片段;對(duì)每一個(gè)片段利用孤立森林[16]進(jìn)行異常檢測(cè),剔除異常值;最后只在實(shí)測(cè)SST數(shù)據(jù)中選取非異常值的數(shù)值作為合理的SST。圖1展示了其中一個(gè)浮標(biāo)設(shè)備實(shí)測(cè)數(shù)據(jù)進(jìn)行去噪后的結(jié)果,圖2為剔除噪聲后實(shí)測(cè)數(shù)據(jù)的空間分布以及有云和無(wú)云的數(shù)據(jù)直方圖,其中有云和無(wú)云數(shù)據(jù)通過(guò)Himawari-8衛(wèi)星云產(chǎn)品數(shù)據(jù)判別。
圖1 海表溫度實(shí)測(cè)數(shù)據(jù)噪聲去除結(jié)果
圖2 實(shí)測(cè)數(shù)據(jù)空間分布和直方圖
然后對(duì)去噪后的實(shí)測(cè)數(shù)據(jù)與Himawari-8衛(wèi)星L1級(jí)數(shù)據(jù)進(jìn)行匹配。數(shù)據(jù)匹配方法是以實(shí)測(cè)數(shù)據(jù)時(shí)空信息為基準(zhǔn),先匹配實(shí)測(cè)點(diǎn)時(shí)間在±10 min以?xún)?nèi)的Himawari-8衛(wèi)星L1級(jí)全盤(pán)數(shù)據(jù),然后以實(shí)測(cè)點(diǎn)空間位置為中心,選擇3×3窗口計(jì)算單元,并計(jì)算第5波段(λ=1 609.8 nm)反照率(albedo)在該窗口內(nèi)的平均值和標(biāo)準(zhǔn)差,如果中心像元的值超過(guò)2倍的標(biāo)準(zhǔn)差,則忽略該匹配點(diǎn)。由于Himawari-8衛(wèi)星L1 1~6波段存儲(chǔ)的并非大氣頂層反射率,需要按照式(1)對(duì)其轉(zhuǎn)換為ρTOA。
(1)
式中:ρ是大氣層頂(top of atmosphere,TOA)的表現(xiàn)反射率;θ是太陽(yáng)天頂角。
數(shù)據(jù)匹配后的數(shù)據(jù)集需進(jìn)行云識(shí)別以便于開(kāi)發(fā)和訓(xùn)練有云、無(wú)云情況下的模型。云的種類(lèi)多、厚度參差不一且隨時(shí)序動(dòng)態(tài)變化,導(dǎo)致衛(wèi)星采集存在云干擾的數(shù)據(jù)易產(chǎn)生多樣性及復(fù)雜性。如果存在云,則輻射傳輸時(shí)將改變傳輸?shù)姆较?在數(shù)據(jù)中表現(xiàn)出反射率增大、亮度溫度降低。出現(xiàn)誤差主要是部分輻射來(lái)源于云頂,這成為云下海表溫度預(yù)估時(shí)的重大阻礙?;陂撝捣椒ū蛔钤邕\(yùn)用云的判別,是一種高效且準(zhǔn)確的方法[17]。例如,在開(kāi)闊海域,利用近紅外波段(SeaWiFSλ=865 nm,MODISλ=869 nm)瑞利校正后的閾值0.027判別是否有云[18];在近岸海域,利用短波紅外(MODISλ=1 240 nm)瑞利校正后的閾值0.023 5進(jìn)行近岸海域云檢測(cè)[19]。本文采用閾值方法,根據(jù)瑞利散射原理,利用6S模型計(jì)算第5波段(λ=1 609.8 nm)的瑞利校正反射率值進(jìn)行云層判別,并將其標(biāo)記為云層值(RC5),后文中將以該值為依據(jù)劃分有云情況下的樣本。與標(biāo)準(zhǔn)6S模型不同是,本文將Himawari-8衛(wèi)星第5波段的光譜響應(yīng)函數(shù)作為波長(zhǎng)參數(shù)進(jìn)行瑞利校正。根據(jù)實(shí)驗(yàn),閾值為0.125時(shí)無(wú)云數(shù)據(jù)和Himawari-8衛(wèi)星官方提供的云掩膜數(shù)據(jù)最匹配,二者的相似度達(dá)到92%。因此,RC5≤0.125被認(rèn)為是無(wú)云,RC5>0.125被認(rèn)為是有云。然后,不斷增大RC5的閾值,構(gòu)建不同閾值下的樣本集。由于6S模型無(wú)法判別剔除太陽(yáng)天頂角(solar zenith angle,SOZ)大于70°時(shí)是否存在云,在對(duì)匹配點(diǎn)對(duì)進(jìn)行瑞利校正時(shí),剔除SOZ大于70°的數(shù)據(jù)。
為了評(píng)估不同機(jī)器學(xué)習(xí)方法在有云和無(wú)云情況下海表溫度反演的精度,本文基于3種典型的機(jī)器學(xué)習(xí)算法以評(píng)估RC5閾值遞增變化情況下海表溫度反演性能。3種算法都是擬合數(shù)據(jù)關(guān)系并依據(jù)原理具有針對(duì)性的選取,MLP對(duì)特征值的加權(quán)側(cè)重?zé)o云情況下擬合數(shù)據(jù)關(guān)系;RFR隨機(jī)選取訓(xùn)練數(shù)據(jù)側(cè)重對(duì)偶然誤差的消除;SVR空間降低維度側(cè)重有云情況下處理復(fù)雜的訓(xùn)練數(shù)據(jù)。
MLP由輸入層、輸出層和一個(gè)或多個(gè)隱含層構(gòu)成,隱含層類(lèi)似回歸性函數(shù)逼近器并且包含多個(gè)神經(jīng)元,單個(gè)神經(jīng)元是輸入層特征值賦予權(quán)重后添加非線(xiàn)性激活函數(shù),其本身是神經(jīng)網(wǎng)絡(luò)模型[20]。為了模型更準(zhǔn)確地進(jìn)行預(yù)估,需要使用優(yōu)化器不斷迭代選取最佳權(quán)重,本文使用每層具有100個(gè)隱藏單元的5個(gè)隱藏層,激活函數(shù)為ReLU,優(yōu)化器為adam,迭代次數(shù)5 000次的模型參數(shù)進(jìn)行模型訓(xùn)練。RFR使用回歸器對(duì)決策樹(shù)的結(jié)果按照權(quán)重進(jìn)行合并。使用bootstrap算法引入隨機(jī)性,將樣本數(shù)據(jù)有放回地進(jìn)行取樣,組建子樣本并用于構(gòu)建決策樹(shù),在每個(gè)樹(shù)種的分裂點(diǎn)選取部分特征來(lái)判定特征與目標(biāo)值之間的關(guān)系,通過(guò)樹(shù)深度決定每棵樹(shù)對(duì)樣本數(shù)據(jù)的學(xué)習(xí)程度。本文使用決策樹(shù)數(shù)量為1 000,最大特征值為5,以訓(xùn)練RFR模型。支持向量機(jī)是自監(jiān)督的非參數(shù)統(tǒng)計(jì)學(xué)習(xí)技術(shù),它使用徑向基核函數(shù)將特征變量從低維映射到高維空間,在分類(lèi)中使用超平面將特征變量劃分為不同類(lèi)型,以此為基礎(chǔ)衍生出SVR。在本文中,通過(guò)迭代不同核函數(shù)(線(xiàn)性、多項(xiàng)式、高斯、徑向基等)以確定各閾值樣本集合的最優(yōu)模型。
海表溫度反演模型的特征包括從Himawari-8衛(wèi)星獲得的10個(gè)波段亮溫值以及傳感器成像的4個(gè)幾何參數(shù),即太陽(yáng)天頂角、太陽(yáng)方位角(solar azimuth angle,SOA)、衛(wèi)星天頂角(satellite zenith angle,SAZ)和衛(wèi)星方位角(satellite azimuth angle,SAA)??紤]到近紅外和紅外波段在輻射傳輸模型中其離水反射率約為0,這些波段瑞利校正后的遙感反射率僅受氣溶膠和云的影響。因此,本文將Himawari-8衛(wèi)星第4波段(近紅外)、第5波段、第6波段(紅外)瑞利校正后的反射率作為特征引入模型。由于3.1~4.1 μm和10~12 μm是紅外波段大氣窗口存在的中心波長(zhǎng),本文根據(jù)物理算法將紅外大氣窗口波段相減作為亮溫波段間的差值,一共擴(kuò)展4個(gè)差值的特征。在實(shí)驗(yàn)過(guò)程中,由于SAZ和SAA過(guò)于集中,使得模型易造成模型發(fā)生過(guò)擬合現(xiàn)象,所以SAZ和SAA不作為模型輸入特征。本文最終選取SOA、SOZ、RC4、RC5、RC6、BT7、BT8、BT9、BT10、BT11、BT12、BT13、BT14、BT15、D7-14、D13-15、D13-11、D13-14作為模型訓(xùn)練的輸入特征變量,其中RC表示瑞利校正后的遙感反射率,BT表示亮溫,D表示差值,數(shù)字代表Himawari-8衛(wèi)星高級(jí)成像儀對(duì)應(yīng)的波段序號(hào)。如RC5表示第5波段瑞利校正后的值,BT12表示第12波段的亮溫,D13-15表示第13波段和第15波段亮溫差。
本文根據(jù)Himawari-8衛(wèi)星第5波段瑞利校正后反射率,將樣本數(shù)據(jù)按照閾值0.125、0.2、0.3、0.4、0.5和0.6共劃分為6個(gè)等級(jí)的樣本集合,各等級(jí)樣本直方圖如圖3所示。圖3中,N表示樣本數(shù)量,RC5表示第5波段瑞利校正值,A表示閾值遞增新增樣本數(shù)量。
注:RC5表示第5波段瑞利校正值;A表示閾值遞增新增樣本數(shù)量。圖3 樣本直方圖
通過(guò)核密度曲線(xiàn)可以發(fā)現(xiàn),每一個(gè)樣本集合的實(shí)測(cè)溫度分布較為一致。當(dāng)閾值增加時(shí),在整個(gè)溫度范圍內(nèi)都有新增樣本,使得核密度曲線(xiàn)波峰都維持在4個(gè)。
為了準(zhǔn)確對(duì)比模型在不同閾值下的性能指標(biāo),本文將6種閾值樣本按照7∶3的比例劃分訓(xùn)練和測(cè)試樣本集。6種閾值下模型在測(cè)試數(shù)據(jù)集上的性能指標(biāo)如表1所示。在完全無(wú)云閾值下(0.125),模型的R2都高于0.98,說(shuō)明3種模型(MLP、RFR、SVR)在無(wú)云情況下具有較高的建模能力。由于0.2閾值條件下可能存在云,因此可以看到當(dāng)閾值從0.125增到0.2時(shí),模型性能指標(biāo)都存在不同程度降低。以MLP模型為例,R2從0.98降低到0.93,MAE和RMSE分別從0.4 ℃、0.75 ℃升高到0.74 ℃、1.39 ℃。隨著閾值不斷增加,3個(gè)模型性能指標(biāo)都不斷下降。閾值從0.125到0.4范圍內(nèi),模型性能下降幅度最大,說(shuō)明在這個(gè)范圍內(nèi),云類(lèi)型、云層光學(xué)厚度變化較大,每個(gè)閾值內(nèi)的樣本差異較大,導(dǎo)致性能急劇下降。3種模型性能指標(biāo)幾乎同時(shí)在閾值為0.4以后趨于平穩(wěn),說(shuō)明0.4閾值之后,樣本的差異性較低。導(dǎo)致該結(jié)果的另一個(gè)原因是新增樣本數(shù)量的減少(A0.5=835,A0.6=571)。其中,SVR模型的性能下降幅度最大,MLP和RFR的變化較為接近。當(dāng)閾值為0.6時(shí),MLP和RFR的R2同時(shí)下降到0.79,SVR的R2下降得更低,為0.74。在MAE指標(biāo)上,MLP和RFR約為1.5 ℃,SVR則為1.69 ℃。在RMSE指標(biāo)上,MLP和RFR約為2.4 ℃,SVR約為2.7 ℃。圖4展示了不同閾值模型在訓(xùn)練和測(cè)試數(shù)據(jù)集上的性能指標(biāo)變化折線(xiàn)圖。在無(wú)云情況下,3個(gè)模型的性能指標(biāo)都高于葵花衛(wèi)星海表溫度產(chǎn)品。整體而言,SVR 3個(gè)性能指標(biāo)普遍低于MLP和RFR。
表1 MLP、RFR和SVR模型在不同閾值下的性能指標(biāo)
注:黑色虛線(xiàn)表示葵花衛(wèi)星產(chǎn)品在無(wú)云情況下的性能。圖4 MLP、RFR和SVR模型指標(biāo)變化圖
不同閾值模型需要避免對(duì)無(wú)云區(qū)域影響,確保無(wú)云區(qū)域反演精度。本文利用不同閾值模型評(píng)估無(wú)云測(cè)試數(shù)據(jù)(n=632)的性能。利用各個(gè)模型差值(預(yù)測(cè)值-預(yù)測(cè)值0.125)繪制點(diǎn)圖,使用差值的平均值作為中心趨勢(shì)的估計(jì)值,如圖5所示。RFR和SVR模型形態(tài)較為一致,隨著閾值增加,模型對(duì)無(wú)云區(qū)域呈現(xiàn)高估現(xiàn)象。其中RFR模型的影響明顯低于SVR,當(dāng)閾值在[0.3,0.6]范圍時(shí),RFR差值的均值保持在0.05 ℃上下,而SVR殘差均值則在0.1 ℃左右。MLP模型對(duì)無(wú)云數(shù)據(jù)的評(píng)估形態(tài)有輕微的波動(dòng),在閾值為0.2時(shí),預(yù)測(cè)值相對(duì)于0.125閾值模型的預(yù)測(cè)值具有較大的變化。當(dāng)閾值在[0.125,0.5]范圍時(shí),MLP差值的均值逐漸上升。在閾值為0.6時(shí),出現(xiàn)輕微的下降。隨著有云樣本數(shù)據(jù)的加入,3類(lèi)模型對(duì)無(wú)云區(qū)域的海表溫度評(píng)估的不確定性不斷增加。由于云的遮擋,傳感器獲得的亮溫值會(huì)被削弱,當(dāng)這部分?jǐn)?shù)據(jù)被引入到訓(xùn)練樣本后,機(jī)器學(xué)習(xí)算法為獲得整體最優(yōu)精度,會(huì)加重有云區(qū)域的輸入特征的權(quán)重,從而使得模型在預(yù)測(cè)無(wú)云時(shí)出現(xiàn)整體略偏高。
注:圓點(diǎn)為差值的均值;豎線(xiàn)表示95%的置信區(qū)間。圖5 殘差點(diǎn)趨勢(shì)圖
為了評(píng)估閾值模型的可用性,本文進(jìn)一步分析了閾值模型的制圖能力。選取2020年4月10日20°N~30°N,120°E~130°E為制圖區(qū)域,對(duì)該區(qū)域Himawari-8衛(wèi)星L1級(jí)數(shù)據(jù)進(jìn)行瑞利校正,評(píng)估6個(gè)閾值模型的制圖表現(xiàn)能力,為了展示該區(qū)域的海表溫度變化,制圖過(guò)程掩膜了陸地區(qū)域。以AHI海表溫度產(chǎn)品作為參照,對(duì)比分析不同閾值下模型的制圖性能和估算準(zhǔn)確性,其中為量化模型空間制圖比例引入空間覆蓋率(spatial coverage percent,SCP)。由于AHI產(chǎn)品無(wú)有云區(qū)域的海表溫度,因此,需要對(duì)有云區(qū)域模型預(yù)估值與實(shí)測(cè)海表溫度進(jìn)一步進(jìn)行對(duì)比驗(yàn)證。為了增加驗(yàn)證點(diǎn)的數(shù)量,實(shí)測(cè)點(diǎn)與預(yù)估值的時(shí)間差擴(kuò)大到±1 h。圖6分別是制圖區(qū)域AHI海表溫度產(chǎn)品、制圖區(qū)域第5波段瑞利校正后的反射率(RC5)和實(shí)測(cè)點(diǎn)對(duì)應(yīng)像素的RC5。圖6中AHI產(chǎn)品缺失的數(shù)據(jù)與RC5高亮部分具有高度的一致性,說(shuō)明瑞利反射率判別云層的準(zhǔn)確性。實(shí)測(cè)點(diǎn)中有3個(gè)點(diǎn)處于云下區(qū)域,4個(gè)點(diǎn)為無(wú)云區(qū)。
圖6 海表溫度與瑞利反射率
圖7展示了各個(gè)閾值模型的制圖結(jié)果及高于該閾值的瑞利校正反射率,表2是7個(gè)實(shí)測(cè)點(diǎn)的葵花海表溫度及隨閾值遞增3種模型預(yù)估海表溫度值。當(dāng)閾值為0.125時(shí),3種模型制圖結(jié)果與葵花海表溫度產(chǎn)品相比未表現(xiàn)出明顯的差異,表明3種模型在無(wú)云區(qū)域的預(yù)估準(zhǔn)確性高,制圖結(jié)果準(zhǔn)確。但仍可以發(fā)現(xiàn)RFR相比MLP和SVR具有更多的噪聲,主要表現(xiàn)在第6點(diǎn)、第7點(diǎn)周?chē)霈F(xiàn)的綠色噪聲點(diǎn)(低估現(xiàn)象)。但這些噪聲點(diǎn)在0.2閾值以后就消失了,根據(jù)圖7瑞利校正反射率(RC5)推斷是由于只有少量突然升高的瑞利校正反射率樣本導(dǎo)致。當(dāng)0.2閾值及以后樣本集包含更多訓(xùn)練樣本后,模型在該部分的訓(xùn)練不足得到補(bǔ)償,從而噪聲消失。
表2 3種算法在6個(gè)閾值模型下的預(yù)估值
圖7 6個(gè)閾值條件下MLP、RFR、SVR模型的制圖結(jié)果,藍(lán)色點(diǎn)為海表溫度實(shí)測(cè)點(diǎn)
當(dāng)閾值在[0.125,0.3]時(shí),MLP在無(wú)云區(qū)域預(yù)估結(jié)果與葵花海表溫度產(chǎn)品相比無(wú)明顯變化。閾值從0.4起,無(wú)云區(qū)域在制圖區(qū)域內(nèi)出現(xiàn)明顯的低估現(xiàn)象。不同閾值下RFR在無(wú)云區(qū)域的預(yù)估結(jié)果出現(xiàn)略微的高估現(xiàn)象。SVR預(yù)估結(jié)果在局部區(qū)域出現(xiàn)低估現(xiàn)象,該現(xiàn)象主要存在于閾值0.4之后的2號(hào)點(diǎn)附近。為驗(yàn)證機(jī)器學(xué)習(xí)模型的制圖效果引用平滑性,其中確定平滑性的依據(jù)是海表溫度的實(shí)際分布是隨空間逐漸變化平滑過(guò)渡的過(guò)程,不會(huì)發(fā)生明顯的突變,因此,以此為依據(jù)引用平滑性來(lái)驗(yàn)證模型的制圖效果。不同模型制圖效果的平滑性主要在閾值0.4以后的有云區(qū)域發(fā)生變化,其中6號(hào)點(diǎn)附近最為明顯。閾值遞增至0.3之前,3種模型的平滑性都較好,從0.4開(kāi)始,不同模型制圖效果的平滑性明顯降低,遞增至0.6時(shí)平滑性最差。從整體而言,隨著閾值逐漸增大,模型對(duì)有云區(qū)域的預(yù)估準(zhǔn)確性和制圖效果逐漸降低,空間覆蓋率明顯增加(從75%增加到99%)。其中閾值0.4是重要的分界線(xiàn)。高于閾值0.4,有云區(qū)域的預(yù)估結(jié)果出現(xiàn)明顯低估現(xiàn)象,其中RFR低估現(xiàn)象最為明顯,SVR次之。海表溫度低估最大值主要出現(xiàn)在閾值0.5以后,表現(xiàn)為海表溫度的明顯躍遷現(xiàn)象。如我國(guó)臺(tái)灣省東部無(wú)云-有云區(qū)域的海表溫度隨著閾值模型發(fā)生明顯突變,海表溫度從25 ℃突然降至20 ℃,造成模型制圖結(jié)果的平滑性發(fā)生明顯降低。
不同的模型在訓(xùn)練期間將對(duì)輸入特征進(jìn)行重要性評(píng)估,但隨著閾值逐漸增大,輸入特征重要性的變動(dòng)及訓(xùn)練效果造成模型的敏感性發(fā)生改變。本文基于模型性能指標(biāo)評(píng)估特征重要性(圖8)。使用該方法計(jì)算第k個(gè)閾值數(shù)據(jù)集,第i個(gè)特征的重要性過(guò)程如下。
圖8 特征重要性
步驟4:按照式(3)計(jì)算對(duì)第i個(gè)特征在所有特征中的權(quán)重比例(feature weight,FW),即為重要性,其中n為特征數(shù)量。RFR算法在所有閾值模型中,都強(qiáng)依賴(lài)于特征BT7。MLP算法對(duì)輸入特征的敏感性集中于特征RC4、BT12值和D7-14,其余特征在不同閾值的敏感性出現(xiàn)間斷性的提升。最明顯的是RC4,當(dāng)閾值大于0.4以后,MLP對(duì)該特征的依賴(lài)逐漸加重。由于特征RC4是λ=856 nm 為中心波段的瑞利校正值,該波段常被用于判別開(kāi)放海域是否有云。因此,當(dāng)閾值不斷增加時(shí),該特征的重要性不斷增加。該現(xiàn)象同樣出現(xiàn)在SVR算法中,在[0.125,0.4]閾值范圍內(nèi),特征RC5保持一定的重要性,在[0.5,0.6]閾值范圍時(shí),RC5重要性減低,但RC4的重要性增加。由于RFR算法中BT7特征的重要性權(quán)重太大,由云引起的RC4、RC5特征重要性增加并未出現(xiàn)閾值模型中。
(2)
(3)
本文針對(duì)物理算法無(wú)法估算云下海表溫度的問(wèn)題,使用機(jī)器學(xué)習(xí)算法構(gòu)建了閾值海表溫度反演模型。通過(guò)瑞利校正的短波紅外閾值建立6種閾值樣本數(shù)據(jù)集,利用MLP、RFR和SVR算法分別為不同的閾值建立了對(duì)應(yīng)的海表溫度反演模型。MLP、RFR和SVR在無(wú)云閾值模型中的精度都超過(guò)了葵花衛(wèi)星海表溫度產(chǎn)品。整體而言,MLP和RFR算法在各個(gè)閾值模型的性能相當(dāng),SVR算法性能略差。隨著閾值的增大,雖然閾值模型精度有所下降,但增加了海表溫度反演的空間覆蓋率。3個(gè)算法的性能同時(shí)在閾值為0.4時(shí)趨于平穩(wěn),說(shuō)明本文建立的0.5和0.6閾值的樣本有限,無(wú)法體現(xiàn)與RC5≤0.4樣本的差異性,因此,這兩個(gè)閾值的性能指標(biāo)需要增加更多的樣本后進(jìn)一步評(píng)估。
雖然3個(gè)算法的閾值模型對(duì)有云區(qū)域出現(xiàn)不同程度的低估,但在無(wú)云區(qū)域的制圖效果與葵花衛(wèi)星海表溫度產(chǎn)品具有較高一致性。海表溫度低估最大值主要出現(xiàn)在閾值0.5,因此需要謹(jǐn)慎0.5和0.6閾值模型的應(yīng)用條件。算法的特征敏感性分析表明,RFR嚴(yán)重依賴(lài)BT7特征,這將很可能影響算法泛化能力,在跨地區(qū)進(jìn)行海表溫度反演時(shí)需重新訓(xùn)練區(qū)域性模型。MLP和SVR算法沒(méi)有出現(xiàn)單一的依賴(lài)特征,具有一定的泛化能力。考慮到二者性能的差別,MLP算法進(jìn)行海表溫度反演具有更好的優(yōu)勢(shì)。
本文利用不同閾值樣本,建立機(jī)器學(xué)習(xí)海表溫度反演模型,通過(guò)不斷提高閾值,可以增加海表溫度反演結(jié)果的空間覆蓋率。本文提出的方法對(duì)遙感衛(wèi)星數(shù)據(jù)云下海表溫度反演具有一定的借鑒意義。考慮到業(yè)務(wù)化葵花海表溫度產(chǎn)品的RMSE約為1 ℃,本文提出的閾值模型有待進(jìn)一步研究,今后可以通過(guò)增加實(shí)測(cè)數(shù)據(jù),與深度學(xué)習(xí)結(jié)合,引入同步微波輻射量以提高云下海表溫度反演精度。