張卓然,常慶瑞,張廷龍,班松濤,由明明
(西北農林科技大學 資源環(huán)境學院,陜西 楊凌 712100)
葉綠素是植物進行光合作用的主要色素物質,它與光合作用能力、營養(yǎng)元素含量、農作物健康狀況、作物產量有非常密切的關系,是評價作物長勢的重要指標[1-3]。植物葉片SPAD(Soil plant analysis development,SPAD)值反映了葉綠素含量的相對大小, 已成為評價植被長勢的有效手段[4]。植物葉片的SPAD值易于與高光譜數據實現準確對應,因此利用高光譜遙感技術構建植物SPAD值預測模型成為農業(yè)遙感的熱點研究領域[5-9]。
支持向量機(Support Vector Machine,簡稱SVM)是在統計學習理論基礎上提出的一種機器學習算法。由于SVM 具有出色的學習和預測性能,在分類和預測方面得到了廣泛應用,也可以很好地應用于函數回歸問題[10]。隨著高光譜遙感反演研究的發(fā)展,已有學者利用支持向量機對小麥、水稻等糧食作物的葉綠素、葉面積指數進行了研究[11-13];但對棉花的相關研究卻很少,且對棉花的研究主要集中在新疆地區(qū)[14-18]。因此,本研究以渭北旱塬區(qū)棉花為對象,探討合適的植被指數和反演方法,以期為提高棉花葉綠素含量高光譜遙感估算的精度,及棉花葉綠素含量快速準確估算提供參考,進而為大面積范圍的棉花長勢監(jiān)測提供依據。
研究區(qū)位于陜西省乾縣梁山鄉(xiāng)齊南村(E 108°07′06″,N 34°38′33″),地處陜北黃土高原與關中平原的過渡地帶,屬于渭北旱塬地區(qū),地勢波狀起伏,田面平整,溫帶大陸性季風氣候,半濕潤易旱,年均降水量601.6 mm,年均氣溫10.8 ℃,農業(yè)熟制一般為一年一熟。
供試棉花品種為魯棉研28號,購自山東省德州市農業(yè)科學研究院。2016年在研究區(qū)大田種植2 000 m2,按照當地大田管理方式進行管理。在代表棉花生長發(fā)育的開花期、花鈴期、盛鈴期、吐絮期4個生育期,各選取能夠代表該區(qū)域整體長勢水平且分布均勻的36株棉花,每株棉花取2片冠層新葉和2片冠層老葉,裝入塑封袋用冷凍保鮮箱帶回實驗室備測。
光譜反射率使用美國SVC(Spectra Vista Corporation)生產的HR-1024i便攜式地物光譜儀測定。儀器測量的波段值為350~2 500 nm,其中350~1 000 nm光譜采樣間隔為1.5 nm,光譜分辨率為3.5 nm;1 000~1 890 nm光譜采樣間隔為3.8 nm,光譜分辨率為9.5 nm;1 890~2 500 nm光譜采樣間隔為2.5 nm,光譜分辨率為6.5 nm。每片葉子在不同部位測量10次,取其平均值作為該葉片的最終光譜反射率。葉綠素含量使用日本KONICA MINOLTA公司生產的SPAD-502型手持式葉綠素儀測定,在每片葉子進行光譜測定的相同位置測10個SPAD值,取平均值作為其SPAD值,SPAD值與光譜數據一一對應。
本研究共獲取576條葉片觀測數據。將每株棉花對應的2片新葉和2片老葉光譜數據平均值作為該株棉花的光譜數據,共獲得144組棉花光譜數據;采用3∶1分層取樣的方法選取108組數據作為建模樣本,剩余的36組數據作為驗證樣本。
選取多數研究涉及的與葉綠素相關性較好、物理意義明確的6種植被指數,以及紅邊幅值和藍邊幅值共8個光譜參數(表1),用于棉花葉綠素含量反演模型的構建。
表1 本研究選取的光譜參數及其計算公式Table 1 Spectral parameters and formulas
注:表中R765表示波長為765 nm處的光譜反射率,R700表示波長為700 nm處的光譜反射率,其他同。
Note:R765represents the spectral reflectance of 765 nm,R700represents the spectral reflectance of 700 nm,and same for others.
前人研究表明,葉綠素對葉片光譜的響應波段主要位于波長400~1 000 nm的可見光和近紅外波段[3,6-9],所以本研究主要選擇此波段進行分析。為了使不同波段范圍內光譜具有可比性,以1 nm為采樣間隔,將測量得到的光譜數據進行重新采樣。
先在Excel 2013中采用多項式函數構建單因素回歸模型,在Matlab2014a中進行多元逐步回歸估算模型的構建;再用Libsvm-3.21軟件包進行SVM回歸估算模型的構建及回歸驗證。
構建SVM回歸模型用以下兩種方法:① 采用4個光譜參數RVI1、MTCI、TCARI和Db作為輸入自變量建立SVM模型[11],記為SPAD-SVM4;② 用8個光譜參數作為輸入自變量進行建模,記為SPAD-SVM8。由于各光譜參數值與實測SPAD 值相差過大,使用原始數據進行參數尋優(yōu)時懲戒系數C會達到閾值,導致無法得到最優(yōu)值,故對用于SVM建模和驗證的數據先進行歸一化處理,以消除這種量級的差別。經過反復試驗得出,在使用SVM類型(-s)為-nu-SVR回歸,核函數類型(-t)為RBF核函數時,SVM的建模結果可以達到精度最高,故采用這2個參數進行SVM回歸模型的建立。
最后對模型精度進行評價,比較各模型的決定系數(R2)、均方根誤差(RMSE)及相對誤差(RE);其中決定系數(R2)反映模型擬合優(yōu)劣,均方根誤差(RMSE)反映數據的離散程度,相對誤差(RE)反映預測值與實測值的差距。
圖1為不同葉綠素含量棉花葉片對應的光譜反射曲線。
圖1 不同葉綠素含量棉花葉片的光譜反射曲線Fig.1 Spectral reflectance of cotton leaves with different chlorophyll contents
由圖1可以看出,不同SPAD值對應的棉花葉片光譜反射曲線趨勢基本相同,在可見光范圍(400~700 nm)內反射率較低,在近紅外波段(700~1 000 nm)反射率較高;550 nm附近出現1個反射峰,670 nm附近出現1個吸收谷,680~750 nm反射率急劇上升,并在750~900 nm近紅外波段形成1個顯著的高反射平臺;在可見光波段(400~700 nm)棉花葉片對應的光譜反射率隨著葉片SPAD值的升高而降低,在近紅外波段(700~1 000 nm),表現為SPAD值越高,葉片的反射率越高。
光譜反射率在一定程度上可以表征葉片的葉綠素含量。棉花冠層葉片葉綠素含量與光譜反射率的相關性如圖2所示。由圖2可以看出,在530~570 nm和680~730 nm處,葉綠素含量與光譜反射率呈極顯著負相關(99.99%置信區(qū)間,n=144),最大相關系數達0.5以上。綠色植物反射光譜在可見光波段主要受葉片色素的影響,葉片葉綠素含量與光譜反射率在可見光波段內呈負相關,說明葉綠素含量越高,光譜反射率越低,吸收作用越強;在760 nm以上的紅外波段,葉綠素含量與光譜反射率呈不顯著正相關關系,表明葉綠素有助于近紅外光的反射。
─ 表示顯著相關(r=±0.230)水平線P≤0.005;┄表示極顯著相關(r=±0.269)水平線P≤0.001─ represents significance at P≤0.005(r=±0.230);┄ represents significance at P≤0.001(r=±0.269)圖2 棉花冠層葉片葉綠素含量與原始光譜反射率的相關性Fig.2 Correlation coefficient between cotton leaves chlorophyll content and spectrum reflectance
根據表1的光譜參數,統計分析葉綠素含量與各光譜參數的相關性,結果如表2所示。由表2可知,所選用的光譜參數與葉綠素含量均具有較好的相關性,相關系數絕對值都超過了0.400,達到了極顯著相關水平,除TCARI和Dr外的6個光譜參數與葉綠素含量的相關性極高,相關系數均達到0.630以上,最高達0.686。從相關性方向看,TCARI、Dr和Db與葉綠素含量呈負相關,其他光譜參數與葉綠素含量呈正相關。
注:樣本數n=144,**表示通過0.001水平顯著性檢驗,r0.001=0.269。
Note:Sample number is 144,**means the correlation coefficient is above 0.001 level,r0.001=0.269.
2.4.1 普通回歸模型 以108組建模數據、8個光譜參數為自變量,通過單因素回歸和多元逐步回歸(SPAD-MSR),構建棉花冠層葉片葉綠素含量的高光譜遙感估算模型,結果如表3所示。
表3 基于光譜參數(x)與棉花葉綠素含量(y)構建的普通回歸模型Table 3 Common estimation models based on cotton chlorophyll contents and spectral parameters
由表3可見,在單因素回歸模型中,SPAD-RVI1、SPAD-RVI2、SPAD-MTCI、SPAD-GNDVI和SPAD-Db模型具有較高的精度,R2均大于0.500,RMSE均小于4.000。多元逐步回歸模型SPAD-MSR的R2達到0.717,明顯大于單因素回歸模型,而RMSE為2.797,小于所有單因素回歸模型,說明利用多元逐步回歸方法可以有效提高建模精度。
2.4.2 SVM回歸模型 用2種方法建立的SVM模型精度如表4所示。由表4可見,采用8個光譜參數構建的SVM模型SPAD-SVM8的R2最大,達到了0.887,RMSE為3.069。以多元逐步回歸中4個光譜參數構建的SVM模型SPAD-SVM4的R2較小,RMSE較大。由此可見,利用多光譜參數進行SVM回歸模型的構建具有更好的精度。相較于多元逐步回歸方法,使用同樣的光譜參數作為輸入變量,SVM回歸模型的R2有明顯提升。但用SVM方法無法得到模型的確切表達式,故未列出。
表4 基于光譜參數與棉花葉綠素含量構建的SVM回歸模型Table 4 SVM estimate models of cotton chlorophyll contents and spectral parameters
用36組葉綠素含量數據對2.4節(jié)所建模型進行驗證,結果如表5所示。
表5 基于不同參數構建的棉花葉綠素含量回歸模型的驗證及精度比較Table 5 Verification and precision comparison of regression models for cotton chlorophyll content base on different spectral parameters
由表5可知,單因素回歸模型中只有SPAD-RVI1、SPAD-RVI2和SPAD-MTCI的R2超過0.390,其他模型精度相對較低。多元逐步回歸模型的R2達到0.620,明顯高于單因素回歸模型,而RMSE和RE較低,說明多元逐步回歸模型的擬合能力和預測精度較單因素回歸模型有所提高。SVM回歸模型的精度明顯高于普通回歸模型,R2升高,RMSE和RE降低,其中SPAD-SVM8模型的R2超過其他所有模型,達到0.884;RMSE和RE也最低,分別為2.186和3.419,較單因素回歸模型中預測精度最高的SPAD-RVI1模型的RMSE和RE分別降低46.4%和46.3%,較多元逐步回歸模型SPAD-MSR的RMSE和RE分別降低33.4%和32.1%。說明SVM建模方法比多元逐步回歸建模方法能更準確地進行棉花冠層葉片葉綠素含量的預測,且SPAD-SVM8模型是所有回歸模型中精度最高的模型,預測精度較普通的單因素回歸模型和多元逐步回歸模型均明顯提高。
本研究選取6個植被指數及紅邊幅值和藍邊幅值共8個光譜參數為建模參數,用單因素回歸模型進行棉花冠層葉片葉綠素含量的估算,結果顯示,TCARI、Dr、Db與棉花葉綠素含量呈極顯著負相關,其他5個植被指數與棉花葉綠素含量呈極顯著正相關,這與王強等[2]、Haboudane等[24]的研究結果相一致。但部分光譜參數模型的預測精度不高,這是因為棉花不同生育期對應的模型有所不同,因此在今后的研究中需要在不同生育時期建立不同的估算模型,以達到更好的預測效果。
本研究發(fā)現,SVM建模方法精度最高,比單因素回歸模型中預測精度最高的SPAD-RVI1模型的RMSE和RE分別降低46.4%和46.3%,較多元逐步回歸模型SPAD-MSR的RMSE和RE分別降低33.4%和32.1%,可以作為棉花冠層葉片葉綠素含量高光譜反演的優(yōu)選建模方法。這是因為SVM這種機器學習算法遵循結構風險最小化原理,因此能獲得最佳的推廣能力。這與梁亮等[12]在冬小麥上的研究結果相一致。
在SVM建模過程中,光譜參數的數量對棉花冠層葉片葉綠素含量高光譜估算的精度也有影響。應用8個光譜參數構建的SPAD-SVM8模型R2比應用4個光譜參數構建的SPAD-SVM4模型提高了7.4%,RMSE和RE分別降低了19.2%和23.5%。這是因為光譜參數雖然能夠消除部分環(huán)境因素的影響,但如果參與計算的波段較少,則只能包含作物的部分光譜信息,建模反演精度提高效果就不明顯;而利用更多的光譜參數進行SVM建模計算時,可以充分地利用多波段數據中的豐富光譜信息,從而更加有效地提高作物高光譜遙感反演的精度。這與梁棟等[11]在冬小麥上的研究結果相一致。本試驗在前人研究基礎上增加了采用相同光譜參數的多元逐步回歸方法和SVM方法的建模比較,結果表明,SPAD-SVM4模型較多元逐步回歸模型R2提升了32.7%,RMSE和RE分別降低17.5%和11.2%,說明在棉花葉綠素含量估算中,選取相同光譜參數條件下,利用SVM方法建模效果優(yōu)于多元逐步回歸方法建模。
以渭北旱塬區(qū)經濟作物棉花為研究對象,在分析冠層葉片葉綠素含量與光譜反射率相關性的基礎上,選取能夠反映棉花葉綠素差異的光譜參數。采用單因素回歸、多元逐步回歸和SVM 3種方法建立了棉花冠層葉片葉綠素含量的遙感反演模型,并對各種模型的預測精度進行了比較,得到以下結論:
(1)不同葉綠素含量棉花冠層葉片對應的光譜反射率在可見光波段,隨著葉片葉綠素含量的升高而降低;在近紅外波段表現為葉綠素含量越高,葉片光譜反射率越高。
(2)棉花冠層葉片葉綠素含量在530~570 nm的綠光波段和680~730 nm的紅光波段與光譜反射率呈極顯著負相關,在760 nm以上的紅外波段與光譜反射率呈正相關關系。
(3)相比于單因素回歸和多元逐步回歸方法,用SVM方法建??梢杂行У靥岣吣P偷姆囱菪Ч勺鳛槊藁ㄈ~綠素含量預測模型反演的優(yōu)選方法。采用更多的光譜參數作為輸入變量構建的模型(SPAD-SVM8)比采用較少光譜參數構建的模型(SPAD-SVM4)估算精度更高。