于龍龍,羅 澤,閻保平
1(中國科學院 計算機網(wǎng)絡信息中心,北京 100190)
2(中國科學院大學,北京 100049)
太陽誘導葉綠素熒光(Solar-Induced chlorophyll Fluorescence,SIF)信號是當陽光被葉綠素吸收之時所產(chǎn)生的,屬于光合作用生化過程中釋放的光學信號.綠色植物特有的葉綠素熒光信號因此成為了反應光合作用強度的一個極為重要的的指標.在生態(tài)學中,SIF 信號已成為目前大時空尺度或全球尺度下反應總初級生產(chǎn)力以及碳循環(huán)的最主要的數(shù)據(jù)源之一[1-4].如今全球氣候及生態(tài)變化引起越來越多的關注,葉綠素熒光數(shù)據(jù)對于監(jiān)測興趣區(qū)域生態(tài)以及植物生產(chǎn)力的動態(tài)具有重要的意義,可以為生態(tài)學,水文學或農(nóng)業(yè)相關研究提供關鍵的數(shù)據(jù)支撐.近年來一些衛(wèi)星或者航空飛行器被用來檢測SIF 信號,在相關領域引發(fā)了一系列不同時空尺度上的研究[5-8],如Global Ozone Monitoring Experiment-2 (GOME-2)衛(wèi)星提供的全球覆蓋的SIF遙感數(shù)據(jù).然而GOME-2 現(xiàn)有產(chǎn)品的較低的時空分辨率阻礙了細粒度上SIF 的研究,如使用地表觀測來研究SIF 與GPP 之間的耦合關系.從2017年10月開始,TROPO spheric Monitoring Instrument (TROPOMI)衛(wèi)星產(chǎn)品開始投入使用[9],其空間分辨率約為7×3.5 公里,并且為逐天的數(shù)據(jù).這套SIF 衛(wèi)星數(shù)據(jù)可以顯著的改善由于較低的空間分辨率或者時間分辨率所帶來的限制,但其樣點式的觀測仍然無法提供感興趣區(qū)域內(nèi)高分辨率的連續(xù)數(shù)據(jù),而且尚無法提供長期歷史SIF 記錄來耦合特定興趣區(qū)域GPP 數(shù)值.
美國國家航空航天局的軌道碳觀測者2 號衛(wèi)星OCO-2 (Orbiting Carbon Observatory-2)在很大程度上改善了這一現(xiàn)狀[10,11].該衛(wèi)星自2014年9月發(fā)射之后就持續(xù)提供其軌道上的每天的葉綠素熒光數(shù)據(jù)觀測值.OCO-2 衛(wèi)星的Footprint 大小為1.3×2.25 km2,其空間分辨率上是截至目前為止可用的SIF 遙感產(chǎn)品中最高的,這樣的高分辨率更有利于理解景觀的格局和異質(zhì)性對SIF 的影響以及SIF和GPP 的關系[12-17].但是由于OCO-2 衛(wèi)星的軌道是條帶狀的OCO-2 SIF 數(shù)據(jù)并非全球覆蓋,因此之前的研究主要針對恰好落于OCO-2 軌道之下的有限的區(qū)域,而且其軌道條帶之間具有很大的間隙.對于某一特定的感興趣區(qū)域而言,在特定時間內(nèi)僅有較少比例的研究區(qū)域有可利用的OCO-2 數(shù)據(jù),極端情況下甚至無數(shù)據(jù)可用.OCO-2 衛(wèi)星的巡回周期為16 天,為了得到感興趣區(qū)域內(nèi)空間覆蓋范圍盡可能大的數(shù)據(jù)集產(chǎn)品,OCO-2 原始葉綠素熒光遙感數(shù)據(jù)集常被整合成某個時間周期內(nèi)的空間分辨率為1 度的產(chǎn)品,但是這樣使得OCO-2 SIF 產(chǎn)品的高空間分辨率優(yōu)勢不復存在,顯著地影響了OCO-2 SIF 在相關研究之中的充分利用.
為了嘗試解決全球遙感SIF 數(shù)據(jù)集的空間不連續(xù)性,近來一些全球SIF 數(shù)據(jù)集重建研究開始著力解決這一問題[18-20].但對于區(qū)域或景觀尺度上的的研究來講,一般只關注特定的興趣區(qū)域,全球尺度的數(shù)據(jù)構建體系尺度過大,其通用的數(shù)據(jù)重建模型對于特定的興趣區(qū)域來說,葉綠素熒光數(shù)據(jù)的區(qū)域特異性或針對性不夠,從而一定程度上影響研究的數(shù)據(jù)質(zhì)量.本研究的思路為利用機器學習方法,遙感影像處理技術,在景觀生態(tài)學專家知識系統(tǒng)指導下,為興趣區(qū)域內(nèi)的每一種植被類型在每個16 天的時間步長上建立有效模型,這些模型整合在一起形成了特定興趣區(qū)域在特定時間段的葉綠素熒光數(shù)據(jù)重建框架.本論文以華北平原為例,作為感興趣區(qū)域范圍.目標重建數(shù)據(jù)集的分辨率選為0.05 度,時間周期選為2018年生長峰季(6,7,8月,每16 天).在本實驗中用于重建SIF 數(shù)據(jù)的特征源數(shù)據(jù)是MODIS 地面反照率數(shù)據(jù).
本論文的實驗流程包括數(shù)據(jù)預處理,訓練集生成,在生態(tài)學原理控制之下的多層感知機人工神經(jīng)網(wǎng)絡訓練,興趣區(qū)域內(nèi)預測與補全,空間連續(xù)高分辨率數(shù)據(jù)集的生成.具體如圖1所示.
OCO-2 SIF 為條帶狀數(shù)據(jù),其一個條帶上Footprint的形狀及分布如圖2所示.其Footprint 為不規(guī)則的四邊形.原始數(shù)據(jù)集提供了每個Footprint 的中心點和四個角點的地理坐標.由此可以完全確定每個Footprint的位置.
OCO-2 SIF 數(shù)據(jù)集提供的其他重要屬性還有:觀測時間,太陽入射角的值,觀測模式,757 nm 波段SIF數(shù)值(SIF757),771 nm 波段SIF 數(shù)值(SIF771),日均矯正因子(daily_corrector),國際陸屆生物圈方案(IGBP)土地覆蓋類型等.
圖1 興趣區(qū)域空間連續(xù)的高分辨率葉綠素熒光數(shù)據(jù)集構建框架
圖2 OCO-2 衛(wèi)星條帶狀軌道局部及其Footprint 示意圖
根據(jù)OCO-2 數(shù)據(jù)集提供的屬性說明,其觀測模式共有三種:Nadir,Target,以及Glint.其中Nadir 觀測模式為衛(wèi)星傳感器近似垂直觀測,本模式的數(shù)據(jù)受測量角度的影像可以忽略不計.因此本研究的采用的目標值為Nadir 觀測模式下的葉綠素熒光數(shù)值.另外,原始數(shù)據(jù)集提供了757 nm 以及771 nm 上的葉綠素熒光數(shù)據(jù)的瞬時值.本實驗采用757 nm 波段的數(shù)據(jù).由于SIF 瞬時值受觀測時間影響較大,在本研究中,具體采用各波段的日均矯正值,而不是瞬時值.SIF 的日均矯正值可以由瞬時值乘以日均校正因子得到.由于OCO-2 Footprint 尺度上的葉綠素熒光數(shù)據(jù)的觀測本身具有一定的誤差,為了獲得更加穩(wěn)定的目標值,從而在訓練中取得更好的效果,對于某個中心Footprint,我們采用“5 最近鄰”Footprint 的平均值作為最后的訓練目標值.
這種空間整合實質(zhì)為空間重采樣,經(jīng)過“5 最近鄰”的處理,參考Footprint 的空間分辨率大小,總體來講可以將源數(shù)據(jù)的空間分辨率調(diào)整至5 公里的平均精度級別上,在中緯度地區(qū)折算成緯度跨度約為0.05 度,與目標重建數(shù)據(jù)集的空間分辨率一致.這種空間整合在犧牲較小幅度的空間分辨率的代價下,對OCO-2 SIF 原始數(shù)據(jù)較大的噪聲誤差起到了減弱的作用,更有利于得到更高質(zhì)量的訓練目標數(shù)據(jù).根據(jù)Frankenberg 等人的研究,當空間重采樣過程中單個像元整合的Footprint個數(shù)為n時,隨機誤差或噪聲會被減少至原來的n(-1/2),因此5 個最近鄰footprint 的整合會將誤差大概降至原來的0.4 左右.0.05 度的空間分辨率對于區(qū)域性空間連續(xù)的葉綠素熒光數(shù)據(jù)來講,已屬于高分辨率級別,完全可以滿足與SIF 相關研究的需要.
接下來的數(shù)據(jù)預處理步驟為地表反照率特征數(shù)據(jù)源的預處理.MODIS 地表反照率數(shù)據(jù)有多個系列.數(shù)據(jù)集MCD43A4 系列產(chǎn)品提供每天的全球覆蓋的地表反照率數(shù)據(jù),其分辨率為500 米,可以為逐天的OCO-2 Footprint 提供對應的反照率特征數(shù)據(jù).MCD43C4 系列產(chǎn)品的空間分辨率為0.05 度,來源于MCD43A4 逐天的數(shù)據(jù),經(jīng)MODIS 質(zhì)量控制體系整合到0.05 度的空間分辨率.MCD43C4 產(chǎn)品可以很方便的整合到時間分辨率為16 天的數(shù)據(jù),為模型建立之后,生產(chǎn)時間分辨率為16 天,空間分辨率為0.05 度的數(shù)據(jù)集提供特征數(shù)據(jù)源.
本研究基于MODIS 衛(wèi)星地表反照率數(shù)據(jù)提取模型的訓練特集.OCO-2 衛(wèi)星的分辨率為1.3×2.25 km2,而MODIS 影像的分辨率為500 m,因此會有一定數(shù)量的MODIS 像元落在OCO-2 的Footprint 之中.這也為我們建立基于MODIS 反照率的訓練特征提供了可能性.
由于OCO-2 SIF 原始條帶狀的數(shù)據(jù)為逐天的數(shù)據(jù),因此我們采用了MODIS 反照率產(chǎn)品系列中的MCD43A4,該數(shù)據(jù)為全球覆蓋的逐天數(shù)據(jù)集,可以滿足實驗要求.
對于每一個Footprint,我們?nèi)∷兄行狞c落在其中的MODIS 像元作為對應像元群體,然后取該群體的七個波段各自的均值和方差作為特征集,以此來獲取每個MODIS 波段的反照率的平均水平以及方差.因此,該特征集的特征維度為14.該特征集可以反應MODIS 反照率個波段的平均強度和變異性.
為了生成OCO-2 SIF 對應的特征數(shù)據(jù)集,我們設計了如下算法:
算法1.OCO-2 SIF 特征集構建算法1) 讀取某一天的SIF 序列,從文件中讀取SIF757 瞬時值,日均值校正因子,中心點坐標,四個角點坐標,土地覆蓋類型,將這些變量分別存儲為等長向量.2) 讀取該日的所有全球MODIS 影像,取出MODIS 左上角頂點坐標,像元長度,以及像元寬度.計算出影像四個角點的范圍.建立MODIS 該日的影像地理信息詞典,以日期作為詞典名,以影像的文件名作為詞典的索引,上述提到的其他變量作為詞條內(nèi)容.3) 依次讀取讀取OCO-2 SIF 向量中的footprint,根據(jù)其日期獲取對應的MODIS 詞典.遍歷詞典中的詞條,判定OCO-2 SIF footprint 的四個角點是否均落在該MODIS 影像之中,如果是,跳出循環(huán),進行下一步.4) 根據(jù)MODIS 影像的地理信息,將MODIS 像元的坐標轉(zhuǎn)換為與OCO-2 Footprint 相一致的坐標系(WCG1984).計算出該影像中所有落入Footprint 之中的MODIS 像元的行列號.5) 讀取并在訓練集中保存目標值日均SIF、Footprint 土地覆蓋類型,MODIS 像元土地覆蓋類型眾數(shù)以及相對應的MODIS 波段平均值.
在訓練集的生成過程中,我們通過OCO-2 的地理信息查詢到與其對應的MODIS 影像的ID,滿足要求的MODIS 影像完全覆蓋Footprint,如果出現(xiàn)一個Footprint 跨越多幅影像的情況,該Footprint 會被忽略.另外,為了增強對Footprint 土地覆蓋類型的判斷信心,我們會選擇OCO-2 土地覆蓋信息和MODIS 像元土地覆蓋類型的眾數(shù)相一致的作為訓練樣本.這種處理方式適用于空間分辨率不一致的情況,可以有效增加判斷信心.
為了建立MODIS 地表反照率與OCO-2 SIF 數(shù)值之間的關系,我們建立了多層感知機作為數(shù)據(jù)擬合和重建的算法.多層感知機是典型的前饋人工神經(jīng)網(wǎng)絡,在多種機器學習任務中得到廣泛的應用[21-24].以2018年生長峰季華北地區(qū)OCO-2 SIF 數(shù)值的全覆蓋、高分辨率數(shù)據(jù)集的重建為例,為了有針對性的完成該任務,我們采取了生態(tài)學原理控制下的訓練方法.具體的為僅采用華北地區(qū)所在的亞洲生物地理分區(qū)內(nèi)的有效訓練樣本.即2018年生長峰季6月,7月,8月的SIF 數(shù)值作為訓練目標值,這樣可以確保訓練得到的SIF 與MODIS 的關系是建立在相應的時空條件下的,從而保證了預測效果與數(shù)據(jù)的準確性.在進行模型訓練的同時,我們采用了MODIS 與OCO-2 同時使用的IGBP 土地覆蓋數(shù)據(jù)劃分訓練樣本,為每種植被類型建立特異化的模型.
本研究所采用的多層感知機的具體的訓練策略為通過5 折交叉驗證來選取多層感知機神經(jīng)網(wǎng)絡的各個參數(shù),包括激活函數(shù),最大迭代次數(shù),神經(jīng)網(wǎng)絡的層數(shù)以及每層的神經(jīng)元數(shù)目,從而在設定的參數(shù)空間內(nèi)尋求最優(yōu)的參數(shù)組合,建立相對最優(yōu)的模型,用于數(shù)據(jù)的重建任務,以求盡可能達到更好的效果,保持原有數(shù)據(jù)的時空分布特征.其中激活函數(shù)的尋優(yōu)空間包含logistic、tanh、以及relu 函數(shù);網(wǎng)絡層數(shù)的尋優(yōu)空間為1 至5 層,每層的神經(jīng)元數(shù)目的尋優(yōu)范圍為3 至21之間的奇數(shù),具體如表1所示.由空間分辨率為0.05 度的MODIS 反照率數(shù)據(jù)集MCD43C4 生成的每16 天的特征數(shù)據(jù),提供給訓練好的模型用于預測,從而完成目標數(shù)據(jù)集重建.
表1 多層感知機參數(shù)尋優(yōu)范圍
本文設置的參數(shù)尋優(yōu)組合數(shù)量眾多,受篇幅所限不可能展示每一類植被類型在每種參數(shù)組合下的表現(xiàn),為了直觀的展示參數(shù)尋優(yōu)的過程,我們以農(nóng)田(IGBP index=CROP)類型在激活函數(shù)為relu,網(wǎng)絡層數(shù)為3 時的神經(jīng)網(wǎng)絡為例,選取了幾個參數(shù)組合,展示模型在不同配置下的表現(xiàn).示例結果如表2所示.
表2 多層感知機在不同參數(shù)組合上的表現(xiàn)示例
為了評價數(shù)據(jù)重建模型的數(shù)據(jù)擬合效果,我們利用訓練集以及預留的驗證數(shù)據(jù)進行了典型的機器學習的驗證,將所有的土地覆蓋類型融合到一起后呈現(xiàn)驗證結果,可以反映出模型的綜合表現(xiàn).圖3展示了本模型在訓練集上的表現(xiàn).采用預測值與原始值的擬合線的斜率,相關系數(shù)R2與均方根誤差RMSE 的值來進行評價.可以從中看到,擬合線的斜率為0.95,相關系數(shù)R2的數(shù)值達到了0.72,均方根誤差RMSE 的數(shù)值低至0.081,顯示出了該模型在訓練集上的良好表現(xiàn).
圖3 數(shù)據(jù)重建模型在訓練集上的表現(xiàn)
本實驗所建立的多層感知機神經(jīng)網(wǎng)絡模型在驗證數(shù)據(jù)集上的表現(xiàn)如圖4所示,擬合線的斜率為0.95,相關系數(shù)R2的數(shù)值達到了0.7,均方根誤差RMSE 的數(shù)值低至0.084,基本與模型在訓練數(shù)據(jù)集上的表現(xiàn)處在同一水平線上,顯示出了該模型在驗證集上的依然具有比較穩(wěn)定的表現(xiàn).
圖4 數(shù)據(jù)重建模型在訓練集上的表現(xiàn)
從圖3及圖4可以看出,SIF 預測值與真實值之間具有很高的相關性,而且在整個值域上具有良好的跟隨關系.
華北地區(qū)最終的葉綠素熒光重建數(shù)據(jù)集如圖5所示.重建后的葉綠素熒光數(shù)據(jù)覆蓋整個興趣區(qū)域,具有空間連續(xù)性.同時模型的良好表現(xiàn)說明了其預測數(shù)值的有效性.對比原始OCO-2 葉綠素熒光數(shù)據(jù)集空間重采樣到1 度的數(shù)據(jù)集,興趣區(qū)域內(nèi)重建后的葉綠素熒光數(shù)據(jù)集具有遠高于原有1 度數(shù)據(jù)集的分辨率.基于我們在生態(tài)原理控制下建立的多層感知機模型,重建數(shù)據(jù)集保留了原有數(shù)據(jù)集的空間分布規(guī)律,同時由于其空間連續(xù)性,該數(shù)據(jù)集的可用性遠大于原有的OCO-2 SIF 數(shù)據(jù)集.新的葉綠素熒光數(shù)據(jù)集的空間分辨率為0.05 度,也遠高于現(xiàn)有的空間連續(xù)的葉綠素熒光原始遙感數(shù)據(jù)集,如GOME-2,其空間分辨率約為40 公里.從圖五中的生長峰季三個月6月,7月,8月的SIF 高值分布及變化來看,基本反映出了如下規(guī)律:1) 7月作為華北地區(qū)降水量以及月均溫最高的月份,植被的生產(chǎn)力水平,或者光合作用強度達到頂峰;2)從6月到8月,該地區(qū)SIF 平均水平經(jīng)歷了先上升后下降的過程,而且在下降的時候,反映出了高緯度或者高海拔先下降,大型農(nóng)業(yè)種植區(qū)所在的低緯度低海拔地區(qū)SIF 峰值維持時間較長等趨勢.這些結論與先驗生態(tài)學知識基本相符,進一步證明了重建數(shù)據(jù)集的有效性.
本論文以華北地區(qū)2018年的生長峰季為例,通過人工神經(jīng)網(wǎng)絡,基于MODIS 地表反照率與軌道碳觀測者二號所提供的葉綠素熒光信號遙感數(shù)據(jù)建立模型,并用于高分辨率、空間連續(xù)的數(shù)據(jù)集的重建任務.本研究展示了一種獲取興趣區(qū)域特定時間段內(nèi)高質(zhì)量葉綠素熒光遙感監(jiān)測數(shù)據(jù)集的生成方法,并通過驗證證明了該方法的有效性.該方法可以與葉綠素熒光或總初級生產(chǎn)力相關的交叉學研究提供相應的數(shù)據(jù)支撐.由于軌道碳觀測者2 號的葉綠素熒光數(shù)據(jù)以及MODIS 反照率數(shù)據(jù)均具有數(shù)據(jù)缺失或者質(zhì)量較低的情況,該框架在特殊地區(qū)特殊時間,如熱帶雨林生長峰季,會面臨較多的源數(shù)據(jù)缺失問題,這屬于一種不可控因素.基于各相關學科專家知識系統(tǒng)或者經(jīng)驗模型的數(shù)據(jù)補全方案或具備一定的可行性,也可能是未來潛在的一個研究方向.
圖5 華北地區(qū)2018年生長峰季SIF 重建數(shù)據(jù)集以及1 度分辨率原始數(shù)據(jù)集對比圖(第一行為重建數(shù)據(jù)集,第二行為原始數(shù)據(jù)集重采樣到1 度;第一列為6月數(shù)據(jù),第二列為7月數(shù)據(jù),第三列為8月數(shù)據(jù))