孔鈺如,王李娟,馮海寬,徐 藝,梁 亮,徐 璐,楊小冬*,張青琪
1.江蘇師范大學地理測繪與城鄉(xiāng)規(guī)劃學院,江蘇 徐州 221116 2.農業(yè)部農業(yè)遙感機理與定量遙感重點實驗室,北京農林科學院信息技術研究中心,北京 100097
冬小麥是我國重要的經濟作物之一,其長勢和產量對糧食安全具有重要意義。葉面積指數(leaf area index,LAI)作為表征植被光合作用、呼吸作用以及蒸騰作用的重要指示因子,也是評價作物長勢和作物產量的重要依據,因此快速高效地獲取冬小麥葉面積指數,進而及時了解冬小麥長勢產量情況具有重要研究價值。
衛(wèi)星遙感易受過境時間和天氣條件的限制,且空間分辨率較低;航空遙感雖具有較高的空間分辨率,但是獲取數據費用較高且易受場地及空域管制的限制;無人機遙感則具有操作方便、成本低廉、觀測范圍大、時空分辨率高且獲取數據快速靈活等優(yōu)勢,在精準農業(yè)中得到越來越廣泛的應用。然而無人機搭載的傳感器多為數碼相機或多光譜相機,其所獲取的數據光譜信息有限[1],而高光譜相機具有光譜分辨率高和波段數多的優(yōu)勢,能夠彌補上述相機的不足,因此,無人機高光譜遙感影像更有利于估測反演LAI,進而評價作物長勢。
國內外學者就無人機高光譜數據開展了一系列相關研究。如Tao等[2]基于固定波段組合構建常規(guī)雙波段指數反演冬小麥LAI,但是由于忽略研究區(qū)域、作物類型及生長環(huán)境的差異影響導致LAI反演模型的精度較低。利用波段選擇法可以篩選適合不同作物類型的最佳波段組合,更有利于反演LAI。如張春蘭等[3]按照特定數學算法進行逐波段組合構建植被指數,選擇與冬小麥LAI相關系數最高的植被指數作為最佳波段組合,Im等[4]采用同樣方法篩選灌木的最佳波段組合,雖該方法在數學上相關性被最大程度考慮,但計算量大且物理意義不夠明確,導致適用性較低。田明璐等[5]和Zhang等[6]基于連續(xù)投影算法分別篩選棉花和冬小麥高光譜數據的最佳波段組合,進而構建相應植被指數并反演LAI的模型估測精度較高。上述篩選最佳波段組合的算法均缺少與其他波段選擇方法的模型精度對比分析,故無法判斷高光譜最佳波段選擇方法的優(yōu)劣及構建植被指數的適用性。綜上所述,研究區(qū)域、作物類型及生長環(huán)境往往影響高光譜數據最佳波段的篩選,探討不同波段選擇法對植被指數構建的影響,篩選便捷、計算量小且適用性強的高光譜數據最佳波段組合方法,對提高LAI的反演精度具有重要意義。
針對不同波段選擇法對構建植被指數的影響缺少對比分析,且常規(guī)雙波段指數具有地域性、局限性和時效性差的問題,本工作基于冬小麥孕穗期的無人機成像高光譜數據,采用最佳指數法、連續(xù)投影算法和逐波段組合法分別篩選出最佳波段組合并構建新型雙波段指數,結合支持向量回歸、偏最小二乘回歸和隨機森林回歸建模,對比分析常規(guī)雙波段指數模型以驗證構建的新型雙波段指數LAI估測精度,最終篩選出最優(yōu)LAI估測模型。
研究區(qū)位于北京市昌平區(qū)小湯山國家精準農業(yè)示范基地,如圖1所示。該區(qū)域屬于暖溫帶半濕潤半干旱季風氣候,夏季高溫多雨,冬天寒冷干燥。試驗田設計樣本面積為6 m×8 m,16個樣本為1個樣區(qū),總共3個樣區(qū),共計48個樣本。為確保樣區(qū)內LAI值具有較大的變化范圍,奇數列種植冬小麥品種為京9843(J9843),偶數列種植中麥175(ZM175),樣區(qū)內每行隨機設置N1(0 kg·hm-2),N2(195 kg·hm-2),N3(390 kg·hm-2)和N4(528 kg·hm-2)四種不同梯度氮肥處理。
圖1 研究區(qū)地理位置及冬小麥試驗設計Fig.1 Location of the study area and experimental design of winter wheat
選用2015年冬小麥孕穗期(4月26日)無人機高光譜數據和LAI地面數據。其中無人機成像高光譜數據采用八旋翼電動無人機搭載 Cubert UHD185 Firefly 成像光譜儀獲取,光譜范圍450~950 nm,光譜分辨率4 nm。在12:00太陽光強度穩(wěn)定且天氣晴朗無云時采集數據,飛行高度為50 m,地面分辨率21 cm。對數據進行輻射校正、圖像拼接及根據樣本的實際情況繪制感興趣區(qū)并提取各樣本區(qū)的平均光譜。LAI數據通過選取各樣本區(qū)固定樣方中的20莖樣本,采用CI-203型激光葉面積儀測定葉片葉面積并求總和進而計算單莖葉面積,最后乘以單位面積總莖數得到該樣本的葉面積指數,共測得48個樣本LAI數據。
高光譜數據波段數眾多,光譜采樣間隔小,具有精細的光譜信息,但波段之間往往存在嚴重的數據冗余現象,為更好篩選并提取高光譜波段信息,選用最佳指數法、連續(xù)投影算法和逐波段組合法分別進行高光譜數據波段選擇。
1.3.1 最佳指數法
最佳指數法(optimum index factor,OIF)是一種常用特征波段提取的方法,其基本原理是波段組合信息量同各波段間相關系數之和與標準差之和的比值,比值越大,表示特征波段間所包含信息量越大,冗余度越小[7],計算公式如式(1)所示
(1)
式(1)中,SDi表示第i個波段的標準差;Rij表示i和j兩波段相關系數。
1.3.2 連續(xù)投影算法
連續(xù)投影算法(successive projection algorithm,SPA)是一種前向迭代選擇方法,其基本原理是在初始情況下任選一個波段,前向循環(huán)計算其在未選擇波段的投影向量,選擇最大投影向量的波段,然后將投影向量與波長進行組合,直至循環(huán)結束,最終在重疊的光譜信息中提取有效信息[8]。
1.3.3 逐波段組合法
為了充分利用高光譜數據的光譜信息,將任意兩波段構建的新型雙波段指數與LAI進行相關性分析及線性擬合,同時使用表示擬合精度及擬合優(yōu)劣的決定系數(coefficient of determination,R2)和均方根誤差(root mean squared error,RMSE)確定最佳波段組合。
通過線性或非線性的光譜波段組合構建植被指數,在一定程度上能夠降低土壤背景、大氣和輻射誤差等外界環(huán)境的影響,然而時間和地域差異造成植被LAI對高光譜數據的敏感波段會有所不同,為充分挖掘利用好高光譜數據的光譜信息,構建了新型雙波段指數和常規(guī)雙波段指數,計算公式如表1所示。
表1 植被指數及計算公式Table 1 Vegetation indexes and formulas
1.5.1 支持向量回歸
支持向量回歸(support vector regression,SVR)是基于統(tǒng)計學習理論的機器學習方法,本質上通過使用核函數將非線性問題轉化為線性問題,并根據結構風險最小化準則采用二次規(guī)劃的方式來求解[14]。
1.5.2 偏最小二乘法回歸
偏最小二乘回歸(partial least square regression,PLSR)是一種新型的多元線性回歸的表達方法,將相關分析、主成分分析和多元線性回歸分析相融合,可以有效降低特征變量的冗余性,并能夠去除共線性的問題。
1.5.3 隨機森林回歸
隨機森林回歸(random forest regression,RFR)是一種基于決策樹的機器學習方法,其原理為在原始訓練集中通過Bootstrap重抽樣得到k個訓練樣本,且與原始樣本訓練集相等并生成K棵決策樹,最終將決策樹的建模結果進行組合并通過投票得到最終估測結果[15]。
為篩選出無人機高光譜數據的最佳波段組合,以冬小麥LAI為研究對象,分別使用OIF、SPA和逐波段組合法對UHD185高光譜數據進行波段選擇。
利用OIF計算預處理后108個高光譜數據的波段組合最佳指數,由于組合方式較多,因此僅展示最佳植被指數降序排列的前5波段組合(如表2所示)。由表中可以看出,R466-R750的OIF值最高,達到855 249;其標準差居中,低于R538-R754和R542-R754,但高于R638-R734和R510-R742;且兩個波段之間相關系數最低,明顯低于其余四種波段組合方式,因此OIF方法篩選高光譜波段組合為R466-R750。
表2 波段組合的最佳指數值(n=32)Table 2 Optimal indexes of band combination (n=32)
連續(xù)投影算法得出的波段數量會引起均方根誤差變化,如圖2所示,盡管特征波段數量為3時RMSE最低,但對比特征波段數量為2的均方根誤差,僅低0.02,考慮到計算時間和成本,選擇2個特征波段數量作為該算法的最佳波段組合,即R806-R726為SPA算法篩選出無人機高光譜數據對LAI貢獻最高的波段組合。
圖2 均方根誤差曲線圖(n=32)Fig.2 The curve of root mean square error(n=32)
逐波段組合法對高光譜數據的任意兩波段構建NDSI,RSI和SSI指數,將其與冬小麥LAI進行線性擬合,結果如圖3所示。由圖中可知,NDSI(742,738),RSI(742,738)和SSI(774,770)的擬合精度最高,R2分別為0.53,0.53和0.52,RMSE分別為1.14,1.14和1.15。從上述植被指數的最佳波段組合可以看出,NDSI和RSI均由紅光波段構成,SSI由近紅外波段構成,由于紅光波段和近紅外波段分別對綠色植物具有強吸收和高反射的特性,故在任意兩波段組合中該方法篩選的波段組合擬合精度最佳。
圖3 各植被指數與LAI的決定系數和均方根誤差(n=32)(a):LAI與NDSI的R2;(b):LAI與NDSI的RMSE;(c):LAI與RSI的R2; (d):LAI與RSI的RMSE;(e):LAI與SSI的R2;(f):LAI與SSI的RMSEFig.3 The determination coefficient and root mean square error of vegetation indexes and LAI (n=32)(a):R2 for LAI and NDSI;(b):RMSE for LAI and NDSI;(c):R2 for LAI and RSI;(d):RMSE for LAI and RSI;(e):R2 for LAI and SSI;(f):RMSE for LAI and SSI
基于以上分析,OIF、SPA和逐波段組合法篩選的最佳波段分別構建新型雙波段指數VI_OIF,VI_SPA和VI_E,同時構建常規(guī)雙波段指數VI_F,并分析各指數與LAI的相關性,相關系數如表3所示,VI_OIF,VI_SPA,VI_E和VI_F均通過0.05水平顯著性檢驗,除OIF篩選波段構建SSI的相關系數未通過0.01水平顯著性檢驗外,VI_SPA,VI_E和VI_F的相關系數均通過該檢驗。
表3 植被指數與LAI的相關性(n=32)Table 3 Correlation between cotton LAI values and vegetation indexes (n=32)
對比VI_OIF,VI_SPA,VI_E和VI_F與LAI的相關性,波段選擇方法與LAI的相關性排序為:VI_E>VI_SPA>VI_F>VI_OIF。其中,逐波段組合法將任意波段兩兩組合構建植被指數,并篩選與LAI擬合精度最高的波段組合,因此VI_E與LAI的相關性最高(r>0.72),但是其構建的NDSI、RSI最佳波段組合都為紅光波段,SSI最佳波段組合都為近紅外波段。SPA和常規(guī)雙波段組合篩選的波段組合為近紅外波段和紅光波段,這與前人研究的葉綠素變化所用敏感波段一致[10],且SPA能有效消除原始波段的冗余信息并最大限度的提取解釋信息,所以VI_SPA的相關性高于VI_F。而OIF未考慮原始波段之間的共線性問題,故最低,且該方法選擇波段缺少近紅外波段信息。在上述構建的各類植被指數與LAI的相關性不同,其中,VI_E,VI_SPA,VI_F和VI_OIF相關系數最高的分別是RSI_E,RSI_SPA,RSI_F和RSI_OIF,NDSI在各種波段選擇構建的該指數與LAI的相關性次之,SSI的相關系數最低。原因在于研究區(qū)冬小麥處于孕穗期,植被覆蓋度高且LAI值較高,由于RSI對植被具有較高的敏感性,故各波段選擇方法構建的RSI與LAI的相關性最高,NDSI和SSI由于對土壤背景變化比較敏感,更適用于冬小麥初期的植被覆蓋研究。
利用樣區(qū)1和樣區(qū)2數據為訓練集,分別結合SVR模型、PLSR模型以及RFR模型進行建模,三種模型的參數設置均采用默認值,并對樣區(qū)3的LAI進行估測,各模型驗證結果如圖4所示。上述建模方法均在Matlab中實現,其中SVR模型的核參數為徑向基核函數,其余參數采用交叉驗證法確定,PLSR模型的主成分數為3,RF模型的mtry設置為數據集變量個數的平方根,ntree設置為500。由圖4可知,不同波段組合方式的各模型多數LAI估測值高于實測值,僅個別模型LAI的估測值低于實測值。對比同種波段選擇方法構建植被指數的SVR模型、PLSR模型和RFR模型的估測精度,VI_OIF_SVR模型、VI_SPA_PLSR模型、VI_E_PLSR模型和VI_F_PLSR模型的估測精度最高。進一步比較上述最佳估測模型,其中VI_SPA_PLSR模型估測精度最高,R2最高達0.75,RMSE最低為0.90。對比VI_OIF_SVR模型、VI_E_PLSR模型和VI_F_PLSR模型,R2分別高0.15,0.06和0.08,RMSE分別低0.56,0.03和0.13。
圖4 不同波段組合方式的LAI模型結果(n=16)(a):VI_OIF_SVR;(b):VI_OIF_PLSR;(c):VI_OIF_RFR;(d):VI_SPA_SVR;(e):VI_SPA_PLSR;(f):VI_SPA_RFR; (g):VI_E_SVR;(h):VI_E_PLSR;(i):VI_E_RFR;(j):VI_F_SVR;(k):VI_F_PLSR;(l):VI_F_RFRFig.4 Results of LAI models with different band combinations (n=16)(a):VI_OIF_SVR;(b):VI_OIF_PLSR;(c):VI_OIF_RFR;(d):VI_SPA_SVR;(e):VI_SPA_PLSR;(f):VI_SPA_RFR; (g):VI_E_SVR;(h):VI_E_PLSR;(i):VI_E_RFR;(j):VI_F_SVR;(k):VI_F_PLSR;(l):VI_F_RFR
綜上所述,利用VI_SPA_PLSR模型估測冬小麥LAI結果最優(yōu)。相對其他波段組合方式,由近紅外波段和紅光波段構建的植被指數最優(yōu),原因在于綠色植物對紅光波段具有強吸收性,近紅外波段具有高反射的特點,SPA優(yōu)選為紅光波段和近紅外波段且最大程度上消除波段間的冗余性。同時由于SVR模型的懲罰因子及核函數設置較為復雜,而PLSR模型則利用相關分析和主成分分析有效降低特征變量的冗余性,以最優(yōu)化方式利用小麥冠層光譜信息且處理低維數據適用性高,而RFR模型在低維數據會出現過擬合,處理高維數據的抗躁能力強,故VI_SPA_PLSR模型的估測精度優(yōu)于其他模型。
利用SPA篩選的波段組合構建植被指數,結合PLSR模型反演冬小麥LAI,如圖5所示。從圖5可以看出,不同樣區(qū)的LAI分布不同,樣區(qū)1和樣區(qū)3大部分LAI處在2~7之間,但樣區(qū)3的LAI略優(yōu)于樣區(qū)1,樣區(qū)2的LAI較高,大部分值為4~9。整體表現為,樣區(qū)2冬小麥LAI長勢優(yōu)于樣區(qū)1和樣區(qū)3。
圖5 冬小麥LAI空間分布圖Fig.5 Spatial distribution map of LAI in winter wheat
利用連續(xù)投影算法、最佳指數法和逐波段組合法分別篩選高光譜最佳波段組合并構建新型雙波段指數,結合支持向量回歸、偏最小二乘回歸和隨機森林回歸模型估測孕穗期冬小麥葉面積指數,并對比分析與常規(guī)雙波段指數模型的估測精度。研究結果表明:
(1)VI_OIF,VI_SPA,VI_E和VI_F與冬小麥LAI的相關性均達到0.05的顯著水平,其中VI_SPA和VI_E與LAI的相關系數均高于0.65,且RSI_SPA和RSI_E的相關系數最高(r>0.71)。
(2)對比分析VI_OIF,VI_SPA,VI_E和VI_F構建的SVR模型、PLSR模型和RFR模型的冬小麥LAI估測精度,VI_SPA_PLSR模型估測精度最高,R2和RMSE分別為0.75和0.90。
基于無人機高光譜影像通過最佳波段篩選后,構建新型雙波段指數反演冬小麥LAI,為LAI估測提供科學參考。由于實驗條件的限制,僅在冬小麥孕穗期開展研究,未考慮數據源、生育期、研究區(qū)域、作物類型等的差異,之后計劃采集更大范圍內多源數據類型的冬小麥全生育期的數據,并選用更多波段選擇方法對高光譜數據進行篩選,進一步驗證本方法反演冬小麥LAI的普適性。