孫晶京,楊武德,馮美臣,肖璐潔
(1.山西農(nóng)業(yè)大學 農(nóng)學院,山西 太谷030801;2.山西農(nóng)業(yè)大學 文理學院,山西 太谷030801)
葉面積指數(shù)(LAI)不僅是表征植被光合面積和冠層結(jié)構(gòu)的重要參數(shù),而且與植被的許多生物和物理過程密切相關(guān)[1],了解農(nóng)作物的LAI 及其動態(tài)變化對于作物水肥調(diào)節(jié)、長勢監(jiān)測和作物產(chǎn)量估算等具有一定意義[2,3]。傳統(tǒng)測量LAI 的方法費時費力成本偏高,且僅限于實驗田實地測量。高光譜遙感由于具有波段的連續(xù)性,光譜信息量大以及快速、無損和大范圍監(jiān)測的特點,被認為是估算LAI 的有力工具[4~9]。
近年來,利用高光譜遙感數(shù)據(jù)進行LAI 估算的方法被廣泛使用。Wang 等[10]表明,紅邊波段和短波近紅外波段(766 nm 和830 nm)的組合以及長波近紅外波段(1 114 nm 和1 190 nm)的組合對于產(chǎn)生窄帶NDVI 是最佳的。Feng 等[11]利用728 nm和798 nm 處的反射率構(gòu)造了一種新的優(yōu)化非線性植被指數(shù),并證明該指數(shù)在冬小麥LAI 預測方面表 現(xiàn) 出 優(yōu) 異 的 性 能。Xie 等[12]利 用735 nm 和736 nm 處的反射率對土壤調(diào)整植被指數(shù)進行改進,結(jié)果表明,當使用地面光譜時,改進后指數(shù)可以得到最佳的LAI 估算。梁棟等[13]利用光譜小波變換系數(shù)與LAI 做相關(guān)分析,得出利用變換后的小波系數(shù)能更好地篩選出對LAI 敏感的波段。但利用植被指數(shù)構(gòu)建的LAI 預測模型沒有充分利用高光譜的光譜信息,且不足以進行非線性解釋?;贚AI 和原始或轉(zhuǎn)換后的高光譜數(shù)據(jù)之間的相關(guān)系數(shù)的方法雖已被證明能夠提取更多敏感波段并提高LAI 模型預測精度,但仍不能有效地消除已提取特征波段之間的冗余。而基于加權(quán)系數(shù)回歸的波段選擇方法[14,15],不僅能有效地剔除與研究對象屬性不相關(guān)的光譜波段,而且能改善模型預測能力和增強模型的魯棒性。隨機蛙跳算法就是其中一種優(yōu)秀的變量選擇算法,它借鑒了可逆跳馬爾可夫鏈蒙特卡洛(RJMCMC)技術(shù)的優(yōu)點,可以在不同模型之間以固定維或跨維方式轉(zhuǎn)移,實現(xiàn)了對模型空間的搜索。由于隨機蛙跳算法具有強大的模型搜索能力,本文旨在探討其在冬小麥高光譜特征提取中的最佳應(yīng)用模式。
試驗于2016 年10 月-2017 年6 月在山西省聞喜 縣(110°59′33″~111°37′29E,35°9′38″~35°34′11″N)進行,該區(qū)域?qū)儆跍貛Т箨懶约撅L氣候,海拔400~800 m,年平均氣溫在10~14 ℃之間,年平均降水量為500~650 mm,無霜期為160~220 d。在全縣范圍內(nèi)選擇17 個冬小麥采樣點,其中7 個為旱地,其它為水澆地。在不同生育期對每個采樣點進行數(shù)據(jù)采集,包括冠層光譜反射率和收集小麥葉片。
冠層光譜使用ASD Fieldspec3 高光譜輻射儀(美國ASD 公司)測量。選擇在晴朗無風的條件下進行,時間:10:00am~14:00pm(北京時區(qū))。測量時探頭垂直向下,并位于小麥冠層上方約0.5 m處。測量前后,用40 cm×40 cm BaSO4標準板校正。每個采樣點重復10 次,取其平均值作為該采樣點的光譜測量值。為避免大氣水對吸收波段的影響,將位于1 350~1 480 nm、1 780~1 990 nm 和2 400~2 500 nm 的波段刪掉,剩余的光譜波段用于進一步研究。在冠層光譜測量之后,就地進行冬小麥采樣,采樣面積為0.2 m2,隨后立即將樣品放入塑封袋中,密封并帶回實驗室。在實驗室中,小麥綠葉面積使用Li-3000C 便攜式葉面積儀(LI?COR,Inc.,林肯,內(nèi)布拉斯加州,美國)進行測量。
導數(shù)處理可以消除背景噪聲的干擾,分離重疊峰,提高光譜分辨率和靈敏度[16]。在本項研究中,使用光譜反射率的一階導數(shù)(FDR)和光譜反射率的二階導數(shù)(SDR)對原始光譜做預處理。
1.4.1 隨機蛙跳算法
隨機蛙跳思想來源于可逆跳的馬爾可夫鏈蒙特卡洛(RJMCMC)框架[17]。由于它不需要嚴格的數(shù)學推導,也不需要像RJMCMC 方法那樣指定先驗分布,所以實現(xiàn)起來更簡單。其算法主要包括3個步驟:(1)隨機初始化包含Q 個變量的變量子集V0;(2)基于V0生成一個包含Q*個變量的變量子集V*,以一定概率接受V*,記做V1,令V0= V1,重復這一步驟直到達到預設(shè)的迭代次數(shù);(3)計算每個變量的選擇概率,作為變量重要性指標。其詳細算法見文獻[18]。
1.4.2 競爭自適應(yīng)重加權(quán)采樣(CARS)
CARS 以迭代方式通過N 次隨機采樣生成N個變量子集并進而構(gòu)建N 個PLS 子模型,最后選擇具有最低交叉驗證均方根誤差的波段子集作為特征波段。在每次采樣過程中,通過指數(shù)遞減函數(shù)(EDF)和自適應(yīng)重加權(quán)采樣(ARS)保留具有較大絕對回歸系數(shù)的波段。其詳細算法見文獻[19]。
1.4.3 基于相關(guān)系數(shù)的選擇
相關(guān)系數(shù)是反映變量之間線性相關(guān)程度的統(tǒng)計指標。在光譜分析中,相關(guān)系數(shù)越高,表明該波段對于待測目標屬性越重要。在本項研究中,采用的是Pearson 相關(guān)系數(shù)。
1.5.1 PLSR
PLSR 是集主成分分析、典型相關(guān)分析和多元線性回歸分析3 種分析方法的優(yōu)點于一身的一種技術(shù)。它是一種功能強大的建模工具,可以將大量光譜變量減少為幾個不相關(guān)的潛變量[20]。通過比較采用不同數(shù)目的潛變量構(gòu)建的預測模型的均方根誤差(RMSE)的大小,可以確定用于回歸的潛變量的最佳個數(shù)。PLSR 方法的詳細說明見文獻[20~22]。
1.5.2 LS?SVR
支持向量機(SVM)是基于統(tǒng)計學習理論和結(jié)構(gòu)風險最小化理論的一種機器學習方法。而最小二乘支持向量機(LS-SVM)是對標準SVM 的改進版本,可以解決線性KKT(Karush-Kuhn-Tuck?er)系統(tǒng)[23]。當LS-SVM 用于回歸預測,稱之為最小二乘支持向量回歸(LS-SVR)。其詳細的理論介紹參見文獻[24]。
本文根據(jù)校正集和驗證集的均方根誤差(RMSE)以及校正集和驗證集的決定系數(shù)(R2)評估回歸模型的性能。根據(jù)校正集的交叉驗證均方根誤差(RMSECV)和交叉驗證決定系數(shù)(R2CV)進行特征波長的選擇。通常,一個好的模型應(yīng)具有較高的R2和較低的RMSE 值。
其中,yi,pi分別代表量測值和預測值;代表量測值的平均值;n 是校正集或驗證集樣品總數(shù)。
由于冬小麥采樣點的地理位置,天氣或小麥作物本身的原因,某些采樣點無法正常進行采樣工作,最終收集了81 個樣本,其中4 個樣本因光譜異常而被剔除,剩余的77 個樣本用于研究。根據(jù)LAI 的大小對樣本進行排序,將每連續(xù)四個樣本中的最后一個作為驗證集樣本,其余樣本作為校正集樣本。因此,校正集有58 個樣本,驗證集有19個樣本。
所有程序均在Matlab 2015a(MathWorks,USA)中實現(xiàn)。
表1 為冬小麥LAI 的統(tǒng)計值分析,從表中可以看出,LAI 值的變化范圍在1.32 ~9.03,且其平均值為4.26。由于旱地小麥沒有灌溉,LAI 相對較低,其變化范圍為1.32 ~8.06 之間,平均值為3.63。另外,水地小麥的LAI 相對較高,平均為4.63。圖1 是冬小麥LAI 隨生育期的動態(tài)變化。從圖中可以看到,旱地和水地冬小麥的LAI 隨時間變化趨勢比較相似。在返青期,田間冬小麥的覆蓋率很低,冬小麥的LAI 也很低。隨著冬小麥的生長發(fā)育,其LAI 持續(xù)增加。進入孕穗期,冬小麥的LAI 處于峰值。而后進入開花和灌漿期,由于冬小麥的葉片為麥穗提供養(yǎng)分,下層葉子開始衰老并脫落,導致田間冬小麥覆蓋率的降低,隨之其LAI 也下降。
表1 冬小麥LAI 的統(tǒng)計值分析Table 1 Descriptive statistics of the winter wheat LAI values
圖1 冬小麥LAI 隨生育期的動態(tài)變化Fig.1 Dynamic change of LAI with respect to growth stages of winter wheat
圖2 為LAI 與原始光譜、一階導數(shù)光譜、二階導數(shù)光譜的Pearson 相關(guān)系數(shù)。對于原始光譜而言,其與L A I 的相關(guān)系數(shù)在可見光區(qū)域(350~740 nm)和長波近紅外區(qū)域(1 320~1 350nm,1 480~1 780nm 和1 990~2 400 nm)呈負相關(guān),而在近紅外區(qū)域(740~1 320 nm)呈正相關(guān),相關(guān)性比較強的波段位于500~720nm、1 480~1 510nm 和1 996~2 025 nm 區(qū)域。其中500~720nm區(qū)域主要是由葉片的各種色素引起的,而1 480~1 510nm 和1 996~2 025 nm 位于水吸收帶附近。從圖上可以看到其相關(guān)系數(shù)的絕對值不大于0.6,且其相關(guān)系數(shù)的變化曲線比較光滑。相比之下,一階導數(shù)處理后的光譜與LAI 之間的相關(guān)系數(shù)在正負值之間來回波動(圖2b)。但其相關(guān)系數(shù)得到了增強,即有更多的波段得到了強化,在754 nm 處其相關(guān)系數(shù)高達0.648。二階導數(shù)與LAI 的相關(guān)系數(shù)僅在720~780 nm 范圍內(nèi)顯示強相關(guān)性,在725 nm 處其相關(guān)系數(shù)高達0.662(圖2c)。值得注意的是具有較高相關(guān)系數(shù)的波段,在三種不同的光譜預處理中分布在不同的位置。這可能是因為在田間進行光譜測量時,由于外部因素(例如背景土壤亮度,大氣影響,葉片角度分布和葉片光學特性等)的影響造成測量的冠層光譜中引入了更多的噪聲,從而掩蓋了與LAI 相關(guān)的光譜信息[25]。另外,對原始光譜進行導數(shù)預處理,可以抑制背景噪聲的影響,從而使在原始光譜中不明顯的那些光譜特征被突顯出來[26~28],這一點在本文中得到進一步證實。此外,Demetriades-Shah 等人[29]提出對冠層光譜使用二階導數(shù)預處理可以消除土壤背景的影響,而一階導數(shù)光譜卻不能。
圖2 LAI 與不同類型光譜的相關(guān)系數(shù)Fig.2 The correlation coefficients between LAI and three different spectral expressions
由于隨機蛙跳算法是基于蒙特卡洛采樣,因此每次運行的結(jié)果略有不同。為了減少隨機因素的影響,將其重復執(zhí)行100 次并取平均值作為最終的變量選擇概率。圖3 為原始光譜、一階和二階導數(shù)光譜所對應(yīng)的每個波長的選擇概率。從圖上可以看出,原始光譜中每個波段的選擇概率均低于0.13(圖3a),一階導數(shù)光譜中許多波段的選擇概率有所提高,最大的選擇概率高于0.4(圖3b),二階導數(shù)光譜中的許多波段被抑制,敏感波段清晰可見(圖3c)??傮w而言,絕大多數(shù)波段的選擇概率都比較低,只有一小部分波段表現(xiàn)出較高的選擇概率,而且具有較高選擇概率的波段在三種不同光譜中的分布存在著顯著差異。這表明與LAI有關(guān)的重要波段并不多,在對冬小麥LAI 建模時,對冠層光譜進行特征選擇是非常有必要的,而且與LAI 相關(guān)的敏感波段不僅存在于紅邊區(qū)域,而且存在于長波近紅外區(qū)域。與光譜的其他部分相比,紅邊區(qū)域(670~760 nm)被認為包含更多有關(guān)LAI 的 光 譜 信 息[30,31]。相 比 原 始 光 譜 和 一 階 導 數(shù)光譜,二階導數(shù)光譜中具有較高選擇概率的波段正好位于紅邊區(qū)域內(nèi),比如在732 nm 處,其波段的選擇概率為0.688,在725 nm 處,其波段的選擇概率 為0.572。這一結(jié)果與Wang 等[32](723 nm)和Thenkabail 等[33](735 nm)的結(jié)果非常接近。對于一階導數(shù)光譜而言,具有較高選擇概率的前20 個波段中的一半位于800~1300 nm 之間,這些波段主要與葉片內(nèi)葉肉細胞排列以及冠層結(jié)構(gòu)有關(guān),尤其是垂直葉層數(shù),該區(qū)域波段已被證明對LAI估算有效[26]。與圖2 比較,可以發(fā)現(xiàn)只有在二階導數(shù)光譜中,具有較高相關(guān)系數(shù)的波段區(qū)域與具有較高選擇概率的波段區(qū)域大致保持一致。這也可能暗示二階導數(shù)預處理可以增強與LAI 有關(guān)的重要光譜信號,削弱與其無關(guān)的信號或干擾信號[29]。
圖3 不同形式光譜下的波段選擇概率Fig.3 The selection probabilities of each wavelength of different spectral expressions using random frog method.
隨機蛙跳算法僅給出了光譜波段的選擇概率,但未給出最終選擇多少個波段作為特征波段。因此為了剔除冗余的光譜波段,以減小光譜的共線性并增強模型的穩(wěn)定性,在這里選擇前向變量選擇程序?qū)ΣㄩL進行選擇。首先對波段按選擇概率從大到小進行排序,然后以迭代累加的方式,使用排名靠前的波段構(gòu)建PLS 模型,并對其進行留一交叉驗證評估。在每次迭代結(jié)束時,記錄模型的RMSECV 和R2CV 以及對應(yīng)潛在變量的最佳個數(shù)。最終具有較少波段數(shù),較小RMSECV 和較大R2CV 的模型即為LAI 預測模型,其所用波段為LAI 預測的特征波段。
圖4 為在原始光譜、一階和二階導數(shù)光譜下,模型RMSECV 和R2CV 隨波段選擇個數(shù)增加的變化。整體來看,采用原始光譜所建模型性能較差,具有最低的R2CV 或最高的RMSECV。相比之下,采用導數(shù)處理后光譜所構(gòu)建的模型,其性能有了很大改善。對于原始光譜而言,當所選波段的個數(shù)大于32,模型RMSECV 不再減小,而R2CV不再增大。當選擇的波段數(shù)為22 時,出現(xiàn)一個小峰值(圖4a)。對于一階和二階導數(shù)光譜而言,當選定的波段數(shù)目小于80 時,模型R2CV 隨波段數(shù)的增加而增加,而RMSECV 隨波段數(shù)的增加而減小,并且二階導數(shù)的結(jié)果要優(yōu)于一階導數(shù)。但是,當一階導數(shù)所選擇的波段數(shù)大于27,二階導數(shù)選擇的波段數(shù)大于22 時,模型R2CV 的增加和RM?SECV 的減少變得非常緩慢。當所選波段數(shù)超過80 時,模型R2CV 和RMSECV 開始變得不穩(wěn)定,其值時高時低。此外,當所選波段數(shù)超過200 時,R2CV 開始減小,而RMSECV 開始增加??傊瑹o論使用原始光譜還是一階或二階導數(shù),RMSECV都先降低然后增加,相應(yīng)地R2CV 先增加然后降低。這表明變量的連續(xù)添加可能并不總能改善LAI 模型的預測能力,并且某些光譜波段可能并不重要甚至不相關(guān)。不太重要或無關(guān)的光譜信號可能會對模型預測能力產(chǎn)生負面影響[34]。
圖4 模型RMSECV 和R2CV 隨選擇波段個數(shù)的變化Fig.4 Changes of the RMSECV and R2 CV for the models with different numbers of feature spectra selected from random leapfrog.
為了構(gòu)建冬小麥LAI 的最佳預測模型,比較了使用3 組光譜(原始光譜,一階導數(shù)光譜和二階導數(shù)光譜),3 種特征波段選擇方法(隨機蛙跳,基于相關(guān)系數(shù)的方法和CARS)和2 種建模方法(PLSR 和LS-SVR)所建模型的性能。表2 為不同模型性能的比較,從表2 可以看出,無論采用哪種波長選擇方法和建模方法,使用原始光譜建模都不是一個好的選擇,其中采用基于相關(guān)系數(shù)的選擇方法和LS-SVR 建模方法所建模型性能相對較好,對校正集而言,其模型R2達到0.623,對驗證集而言,其模型R2達到0.322。當對光譜進行導數(shù)預處理后,模型性能有了很大的提高,其模型R2增加約20%~30%。這表明建模前對光譜進行預處理是非常有必要的,它能消除背景噪聲的干擾,提高光譜分辨率和靈敏度。從所使用的特征波段選擇方法角度來看,采用隨機蛙跳所建模型的確比基于相關(guān)系數(shù)和CARS 方法所建模型具有更好的預測能力。相比之下,隨機蛙跳算法更適合于冬小麥LAI 預測模型的建立。從建模方法的選擇角度來看LS-SVR 的結(jié)果要好于PLSR。因此,在本實驗中,采用二階導數(shù)預處理結(jié)合隨機蛙跳和LSSVR 所建模型預測性能最佳,其模型預測R2為0.902,模型預測RMSE 為0.601,并且所選特征波段分別位于438、537、548、559、674、725、728、729、731、732、733、736、751、773、786、825、1 115、1 141、1 142、1 194、1 502、1 546、1 549、1 595、2 002、2 004、2 078、2 050、2 103、2 118 nm。其中,9 個波段位于紅邊區(qū)域(670~760 nm)。
表2 不同預測模型性能對比Table 2 Performance comparison of different prediction models in predicting LAI
盡管在不同學者的研究中,選擇的最佳波段組合有所不同,但紅邊區(qū)域波段,短波近紅外波段的重要性已得到廣泛證明[10~12,26,32,35~37]。將本研究中選擇的30 個波段與先前研究中選擇的波段進行比較,發(fā)現(xiàn)處在紅邊區(qū)域和短波近紅外區(qū)域的波段與先前報道的一致。但在本研究中,還選擇了長波近紅外區(qū)域的波段作為估算LAI 的重要波段。該區(qū)域的波段與冬小麥LAI 之間的關(guān)系還有待于下一步的探討。在利用遙感數(shù)據(jù)監(jiān)測農(nóng)作物LAI 的研究中,已有學者證明,利用SVR 構(gòu)建的模型性能優(yōu)于PLSR 模型性能[35,38,39]。本項研究的結(jié)果與其結(jié)果一致,表明在利用高光譜數(shù)據(jù)估算冬小麥LAI 時,LS-SVR 是一種非常有力的建模工具。圖5 顯示了冬小麥LAI 預測值與實測值的對比。
圖5 冬小麥LAI 預測值和實測值的對比Fig.5 Scatter plots of predicted LAI against mea?sured LAI
為了獲得一個穩(wěn)定、高精度、易于實現(xiàn)的冬小麥LAI 估計模型,對原始光譜、一階和二階導數(shù)光譜,不同的波段選擇方法和兩種回歸模型進行了討論。在本研究中,二階導數(shù)預處理,隨機蛙跳波段選擇算法和LS-SVR 的組合被證明可以更好地預測冬小麥LAI。與原始光譜和一階導數(shù)光譜相比,二階導數(shù)光譜變換能更好地消除光譜中的背景噪聲。對二階導數(shù)光譜而言,具有較高相關(guān)系數(shù)的波段和具有較大選擇概率的波段位于相同的紅邊區(qū)域(圖2c 和圖3c)。同時隨機蛙跳是一種有效的特征選擇方法,它可以從整個光譜中提取少量的重要信息波段,從而簡化模型。與PLSR 相比,LS-SVR 可以揭示光譜數(shù)據(jù)與LAI 之間的非線性關(guān)系,提高LAI 的預測精度。