李 明,胡岑龍,陶光林
(黔東南州林業(yè)科學(xué)研究所,貴州 凱里 556000)
葉綠素作為植物進(jìn)行光合作用的重要生化參數(shù),其含量變化與植物光合速率、氮素水平以及植株健康狀況等密切相關(guān),在植物生長(zhǎng)、營(yíng)養(yǎng)狀況及光合作用等方面具有指示作用[1-2]。傳統(tǒng)的葉綠素測(cè)量方法主要是通過野外采樣和室內(nèi)分析獲得,該方法不但費(fèi)時(shí)、費(fèi)力,且對(duì)采集對(duì)象具有一定的破壞性和不可恢復(fù)性,難以實(shí)現(xiàn)大面積葉綠素含量的實(shí)時(shí)獲取[3]。當(dāng)前已廣泛使用SPAD值反映葉綠素含量,SPAD值表示葉片單位面積葉綠素的相對(duì)含量,是一個(gè)無量綱的比值。與傳統(tǒng)方法相比,SPAD測(cè)定具有快速、無損和簡(jiǎn)便的特點(diǎn),但僅能進(jìn)行某個(gè)點(diǎn)或小范圍的測(cè)量,不利于大范圍葉綠素含量的監(jiān)測(cè)[4]。而隨著遙感技術(shù)的不斷發(fā)展,高光譜憑借其高空間分辨率、多波段和光譜信息豐富的特點(diǎn)和優(yōu)勢(shì),使實(shí)時(shí)、快速監(jiān)測(cè)植被葉綠素含量成為可能,為采用遙感無損大尺度監(jiān)測(cè)植被葉綠素含量提供了有效手段[5]。20世紀(jì)90年代,Blackburn[6]通過光譜指數(shù)估計(jì)葉片色素濃度得出葉綠素與高光譜波段之間存在一定的關(guān)系。隨后,許多學(xué)者利用高光譜原始數(shù)據(jù)或由原始數(shù)據(jù)構(gòu)建的植被指數(shù)、基于經(jīng)驗(yàn)統(tǒng)計(jì)模型估算葉綠素含量開展了大量的研究,但大多集中在農(nóng)作物小麥、玉米、棉花等方面,而在森林植被方面,杜華強(qiáng)等[7]基于偏最小二乘回歸模型建立了馬尾松葉綠素含量與光譜反射率及9個(gè)特征參數(shù)之間的預(yù)測(cè)模型,其精度遠(yuǎn)大于傳統(tǒng)線性回歸模型。林輝等[8]以杉木成熟林為研究對(duì)象,通過分析葉綠素總量與原始光譜、原始光譜一階微分之間的相關(guān)性,構(gòu)建了杉木葉綠素含量的高光譜模型。隨著研究的不斷深入,模型構(gòu)建方面開始使用機(jī)器學(xué)習(xí)模型,馮海寬等[9]基于特征光譜參數(shù)利用隨機(jī)森林模型較好估算了蘋果葉片葉綠素含量。尼格拉·吐爾遜等[10]基于光譜一階導(dǎo)數(shù)的地理加權(quán)最小二乘支持向量回歸模型較好實(shí)現(xiàn)了對(duì)紅棗樹葉片SPAD值的預(yù)測(cè)。
油茶(CamelliaoleiferaAbel.)為我國4大木本油料樹種之一。本文分別對(duì)原始光譜進(jìn)行一階導(dǎo)數(shù)、S-G平滑、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量(SNV)及向量歸一化(VN)處理,結(jié)合偏最小二乘回歸模型進(jìn)行油茶葉片SPAD值估算,探索簡(jiǎn)便、快捷的油茶葉片光譜預(yù)處理方法和油茶葉片SPAD值反演模型,為提高油茶葉綠素含量遙感估算精度,以便精準(zhǔn)監(jiān)測(cè)其生長(zhǎng)及健康狀況提供一定的理論依據(jù)和技術(shù)支持。
研究區(qū)位于貴州省黎平縣東風(fēng)林場(chǎng)(東經(jīng)109°11′15″,北緯26°20′23″),研究對(duì)象為2021年7月采集的油茶葉片,為保證試驗(yàn)結(jié)果的代表性,在油茶試驗(yàn)林內(nèi)隨機(jī)選取林齡為11 a生長(zhǎng)健康的油茶樹50株作為樣本,每個(gè)樣本按照上、中、下3層隨機(jī)各采集健康、完整、無損的葉片3片,共采集9片作為1個(gè)樣本的樣葉,將采集的葉片裝入密封袋并編號(hào),帶回實(shí)驗(yàn)室進(jìn)行光譜數(shù)據(jù)的測(cè)定。
使用FX2000光譜儀(光譜儀波長(zhǎng)范圍為350—1 100 nm,狹縫寬度25 μm,光譜分辨率0.73 nm,以鎢石英鹵素?zé)魹楣庠?在暗室內(nèi)進(jìn)行油茶葉片光譜數(shù)據(jù)采集,為降低環(huán)境對(duì)測(cè)量結(jié)果的干擾,每次光譜測(cè)量前用白板進(jìn)行定標(biāo),并用干燥紙巾將葉片表面擦試干凈,然后鋪平放置于操作平臺(tái),探頭在距葉片2 cm處垂直向下測(cè)量,每個(gè)樣本的樣葉重復(fù)測(cè)量5次,取其平均值作為該樣本的光譜反射率。根據(jù)Chan等[11]人的研究,葉綠素敏感波段主要分布在可見光-近紅外波段。因此,本研究選擇400—1 000 nm波段進(jìn)行油茶葉片特征波段的選擇和葉綠素含量的估算研究。
為保證數(shù)據(jù)的一致性和精度,每個(gè)樣本光譜測(cè)量完后隨即采用HM-YD葉綠素儀進(jìn)行SPAD值的測(cè)量,測(cè)量時(shí)避開主脈,每個(gè)樣本的樣葉隨機(jī)選擇5個(gè)不同部位進(jìn)行測(cè)量,最終取平均值作為該樣本的SPAD值。
本文使用Unscrambler 10.4軟件對(duì)原始光譜進(jìn)行一階導(dǎo)數(shù)(主要是消除不同程度的背景干擾、實(shí)現(xiàn)光譜基線校正、提高不同吸收特征的對(duì)比度和光譜特征值)、S-G平滑(消除數(shù)據(jù)噪聲在提取地物光譜信息時(shí)產(chǎn)生的干擾)、多元散射校正(MSC,主要是消除顆粒大小對(duì)光譜產(chǎn)生的光譜差異,增加光譜與數(shù)據(jù)間的相關(guān)性)、標(biāo)準(zhǔn)正態(tài)變量(SNV,主要用于消除表面散射及光程度變化所帶來的光譜誤差)和向量歸一化(VN,主要通過光譜數(shù)據(jù)減去光譜的吸光度平均值,來消除光程變化對(duì)光譜產(chǎn)生的影響)5種預(yù)處理。
為了提高估算模型的普適性,需對(duì)構(gòu)建的估測(cè)模型進(jìn)行精度評(píng)價(jià),將樣本實(shí)測(cè)值帶入估測(cè)模型進(jìn)行實(shí)際樣本值與估測(cè)模型值之間的精度比較。本研究采用以下3種評(píng)價(jià)指標(biāo)對(duì)構(gòu)建的模型效果進(jìn)行評(píng)價(jià):
(1)決定系數(shù)(R2)。R2用于表示實(shí)測(cè)值與預(yù)測(cè)值間的擬合程度,數(shù)值范圍為0—1。R2越大, 模型的穩(wěn)定性和準(zhǔn)確性越高。
(2)均方根誤差(RMSE)。用RMSE來確定模型的預(yù)測(cè)能力。RMSE越小,模型的精度越高,預(yù)測(cè)能力越好。
(3)相對(duì)誤差(RE)。RE表示預(yù)測(cè)值與實(shí)測(cè)值的偏差。RE越小, 模型的估算能力越強(qiáng), 則預(yù)測(cè)值與實(shí)測(cè)值擬合效果更好。
在原始光譜數(shù)據(jù)的采集中,不僅包含有用信息,同時(shí)還受到雜散光、儀器噪聲、樣品背景、基線漂移等因素的干擾,這些因素都影響了特征波長(zhǎng)的選取,從而影響光譜的定量和定性分析結(jié)果。因此,為了使提取的光譜信息更加準(zhǔn)確反映樣本曲線的變化,需要對(duì)原始光譜進(jìn)行預(yù)處理,盡量消除或減少光照強(qiáng)度、環(huán)境因素和噪聲干擾對(duì)光譜信息的影響。本試驗(yàn)采用一階導(dǎo)數(shù)、S-G平滑、MSC、SNV和VN方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,原始光譜與處理后的光譜對(duì)比見圖1。
圖1 原始光譜與預(yù)處理后的光譜
在對(duì)樣本進(jìn)行光譜信息采集時(shí),采集的每條光譜曲線包含有數(shù)百甚至數(shù)千個(gè)數(shù)據(jù)點(diǎn),同時(shí),光譜信息中含有大量的冗余、共線和重疊信息,大量的數(shù)據(jù)明顯影響建模的精度。本文利用連續(xù)投影算法[12](SPA)篩選油茶光譜數(shù)據(jù)SPAD值的敏感特征波段。作為一種前向特征向量選擇方法,它以較高的精度在光譜分析領(lǐng)域得到了廣泛的應(yīng)用。當(dāng)用于光譜敏感特征波段的篩選時(shí),可以通過設(shè)置特征波段的數(shù)量來降低建模的復(fù)雜性,研究設(shè)置特征波段篩選的數(shù)目范圍為1—15,在均方根誤差達(dá)最小時(shí)篩選出共線性最小、相關(guān)性最高的油茶葉片光譜對(duì)SPAD值敏感的特征波段。圖2為通過SPA算法對(duì)原始光譜及預(yù)處理光譜篩選的特征波段,橫軸表示波長(zhǎng),縱軸表示光譜反射率。由圖2可以看出,在500—1 000 nm波段為主要的敏感特征波段分布范圍,以670—780 nm波段范圍的特征波段最多。
圖2 基于SPA算法的特征波長(zhǎng)選擇結(jié)果
在R軟件下采用pls包進(jìn)行偏最小二乘回歸(PLSR)模型的構(gòu)建,以連續(xù)投影算法從原始光譜和預(yù)處理光譜中提取的特征波長(zhǎng)作為回歸模型的自變量,以油茶葉片的SPAD值作為因變量,采用SPXY算法[13]按7∶3的比例進(jìn)行樣本劃分,將油茶葉片SPAD樣本劃分為35個(gè)建模集和15個(gè)預(yù)測(cè)集,分別進(jìn)行PLSR模型的構(gòu)建和預(yù)測(cè),結(jié)果如表1所示。
表1 基于PLSR的油茶葉片SPAD值估算模型結(jié)果
由表1建模集可知,光譜經(jīng)過預(yù)處理后,建模精度較原始光譜數(shù)據(jù)均有不同程度的提高,對(duì)5種預(yù)處理方法(一階導(dǎo)數(shù)、S-G平滑、MSC、SNV和VN)建立的PLSR模型的精度對(duì)比發(fā)現(xiàn),經(jīng)過MSC預(yù)處理后的建模集決定系數(shù)R2最高達(dá)0.855。S-G平滑建模集決定系數(shù)R2最低為0.623。SNV預(yù)處理與MSC預(yù)處理的建模精度相差較小,從整個(gè)建模效果對(duì)比可知MSC>SNV>一階導(dǎo)數(shù)>VN>S-G平滑>原始光譜。
從表1的預(yù)測(cè)集可知,原始光譜預(yù)測(cè)精度R2為0.794,預(yù)測(cè)精度大于預(yù)處理的一階導(dǎo)數(shù)、SNV和VN模型的預(yù)測(cè)精度。5種預(yù)處理方法中S-G平滑處理的預(yù)測(cè)精度最高,決定系數(shù)R2達(dá)0.835;其次是MSC預(yù)處理,決定系數(shù)R2達(dá)0.818。通過對(duì)預(yù)測(cè)集結(jié)果的殘差分析可知,S-G平滑處理預(yù)測(cè)結(jié)果殘差的正態(tài)檢驗(yàn)不通過,雖然決定系數(shù)R2最高,但模型預(yù)測(cè)的結(jié)果不準(zhǔn)確。通過模型綜合分析可知,MSC預(yù)處理的建模集和預(yù)測(cè)集的精度具有較好的一致性,建立的模型預(yù)測(cè)效果最好,能更好實(shí)現(xiàn)對(duì)油茶葉片SPAD值的估算。圖3為不同預(yù)處理光譜SPAD值PLSR模型實(shí)測(cè)值和預(yù)測(cè)值散點(diǎn)圖。
圖3 不同預(yù)處理光譜SPAD值PLSR模型實(shí)測(cè)值和預(yù)測(cè)值散點(diǎn)圖
本文以油茶葉片SPAD值為研究對(duì)象,以簡(jiǎn)化和提高油茶葉片SPAD值模型估測(cè)精度為研究目的,對(duì)原始光譜曲線分別進(jìn)行了一階導(dǎo)數(shù)、S-G平滑、MSC、SNV和VN預(yù)處理,然后通過SPA算法對(duì)油茶葉片光譜數(shù)據(jù)進(jìn)行SPAD值敏感特征波段篩選,最后采用SPXY算法進(jìn)行模型樣本的劃分,并建立了估算油茶葉片SPAD值的偏最小二乘回歸模型,結(jié)果顯示,光譜經(jīng)不同變換和SPA算法處理后,有效降低了光譜信息的冗余,剔除了大量的重疊信息,還保證了篩選的特征波段之間共線性最小,減少了模型自變量的個(gè)數(shù),降低了模型構(gòu)建的復(fù)雜程度,模型精度也得到了提高。
與直接采用原始光譜數(shù)據(jù)建模相比,光譜經(jīng)不同變換后減少了各種干擾信息的影響,有價(jià)值波段信息得到增強(qiáng),采用MSC預(yù)處理建立的估算模型精度最高,其建模集R2,RMSE和RE分別為0.855,2.361和3.194%;預(yù)測(cè)集R2,RMSE和RE分別為0.818,1.980和2.533%,預(yù)測(cè)效果最好,建立的模型可較好實(shí)現(xiàn)對(duì)油茶葉片SPAD值的估算。
葉綠素是植物葉片中吸收光能的主要物質(zhì),其濃度的多少對(duì)植株的生長(zhǎng)情況產(chǎn)生重要影響[14]。且植物葉片中其他營(yíng)養(yǎng)元素的合成也與葉綠素內(nèi)部結(jié)構(gòu)有一定的聯(lián)系,通過對(duì)葉綠素含量的監(jiān)測(cè),可有效估算植物營(yíng)養(yǎng)狀況及生理狀態(tài)[15]。而植物葉片的營(yíng)養(yǎng)狀況與自身的光譜特征密切相關(guān),植物葉片的光譜反射率隨著葉綠素含量的不同而呈現(xiàn)出不同的光譜響應(yīng)曲線[16]。而高光譜遙感信息量豐富,原始光譜易受環(huán)境、背景及噪聲的影響,不可避免會(huì)攜帶一些與測(cè)試樣本不相關(guān)的信息,如果直接將原始光譜用于建模,反演模型的精度將受到一定程度的制約?;诖?,本文采用一階導(dǎo)數(shù)、S-G平滑、MSC、SNV和VN共5種常用的光譜預(yù)處理方法,對(duì)預(yù)處理后的光譜信息進(jìn)行特征波段選取,并嘗試性地對(duì)油茶葉片SPAD值進(jìn)行光譜建模。MSC預(yù)處理建立的SPAD值模型預(yù)測(cè)能力最好,R2為0.818,SNV預(yù)處理預(yù)測(cè)效果最差,R2為0.769。由于光譜曲線經(jīng)MSC處理后部分有用信息得到增強(qiáng),建立的模型質(zhì)量較好。一階導(dǎo)數(shù)、SNV和VN預(yù)處理的模型預(yù)測(cè)能力,比直接采用原始光譜建模的預(yù)測(cè)能力較差,這說明不同的光譜預(yù)處理方法能直接影響模型預(yù)測(cè)效果[17]。
由于高光譜數(shù)據(jù)包含的信息量大,對(duì)高光譜數(shù)據(jù)進(jìn)行分析的方法也多種多樣,如何從數(shù)百甚至數(shù)千個(gè)光譜信息中提取針對(duì)油茶葉綠素的敏感光譜參數(shù),一直都是高光譜數(shù)據(jù)反演的重點(diǎn)和難點(diǎn)。本文只是進(jìn)行了幾種簡(jiǎn)單的光譜預(yù)處理,通過連續(xù)投影算法實(shí)現(xiàn)油茶葉片SPAD值預(yù)測(cè)模型構(gòu)建,仍存在不足,未進(jìn)行多種預(yù)處理方法的組合及多個(gè)模型對(duì)比,建立的模型以及篩選的最佳預(yù)處理方法還需進(jìn)一步探索,模型的穩(wěn)健性及普適性有待進(jìn)一步完善。