肖艷,辛洪波,王斌,崔利,姜琦剛
(1.長(zhǎng)春工程學(xué)院勘查與測(cè)繪工程學(xué)院,長(zhǎng)春 130012;2.長(zhǎng)春市測(cè)繪院,長(zhǎng)春 130021;3.吉林大學(xué)地球探測(cè)科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130026)
黑土是寶貴的土地資源,有機(jī)質(zhì)含量的多少是反映土壤肥力、狀態(tài)和退化程度的重要指標(biāo)[1-2]。傳統(tǒng)土壤有機(jī)質(zhì)含量測(cè)定基于化學(xué)分析方法,步驟繁瑣,耗時(shí)費(fèi)工,很難實(shí)現(xiàn)實(shí)時(shí)檢測(cè)。近年來(lái),可見(jiàn)光/近紅外光譜分析技術(shù)以其快速、簡(jiǎn)便、無(wú)污染、不破壞等特點(diǎn),正逐步成為估測(cè)土壤有機(jī)質(zhì)含量的新型有力工具[3]。
采用合適的光譜預(yù)處理和波長(zhǎng)選擇方法不僅能提高土壤參數(shù)定量模型的估測(cè)能力,還能簡(jiǎn)化模型,減少計(jì)算量[4]。在現(xiàn)有光譜預(yù)處理方法中,小波變換在信號(hào)去噪和數(shù)據(jù)壓縮方面具有獨(dú)特的優(yōu)勢(shì)[5]。王延倉(cāng)等[6]結(jié)合小波變換和偏最小二乘法估測(cè)土壤有機(jī)質(zhì)含量,結(jié)果表明小波變換在一定程度上提高了土壤光譜對(duì)有機(jī)質(zhì)含量的估測(cè)能力;李旭青等[7]利用小波變換選取具有異常光譜特征的奇異點(diǎn),并采用反向傳播神經(jīng)網(wǎng)絡(luò)模型對(duì)水稻冠層重金屬含量進(jìn)行反演,取得了較好的效果。僅依賴小波變換的結(jié)果建模,參與的變量依然較多,存在的大量冗余信息不僅會(huì)降低建模速度,而且可能會(huì)影響模型的精度。因此仍需一種有效的手段從小波變換結(jié)果中進(jìn)一步篩選出最優(yōu)變量。常用的波長(zhǎng)選擇方法有相關(guān)系數(shù)法、回歸系數(shù)法、載荷值法、退火算法、遺傳算法和連續(xù)投影算法(successive projections algorithm,SPA)。相關(guān)系數(shù)法、回歸系數(shù)法和載荷值法的閾值大多根據(jù)主觀經(jīng)驗(yàn)進(jìn)行選擇,而退火算法和遺傳算法的搜尋過(guò)程非常耗時(shí),且不穩(wěn)定[8]。SPA算法能大大減少建模所用變量的個(gè)數(shù) ,且計(jì)算效率較高,已被廣泛用于可見(jiàn)/近紅外光譜特征波長(zhǎng)的選擇。章海亮等[9]和Peng等[10]都利用SPA算法選取建模變量,在保證精度的同時(shí)大大降低了模型的計(jì)算量。
綜上,本文嘗試在黑土有機(jī)質(zhì)含量高光譜估測(cè)中引入小波變換和SPA算法,即首先采用小波變換對(duì)土壤光譜進(jìn)行降維去噪,然后利用SPA算法從小波變換結(jié)果中篩選出最優(yōu)變量,最后基于最優(yōu)變量,分別利用偏最小二乘(partial least squares,PLS)和支持向量機(jī)(support vector machine,SVM)方法建立估測(cè)模型,以驗(yàn)證小波變換和SPA算法的結(jié)合在黑土有機(jī)質(zhì)含量高光譜估測(cè)上的有效性。
2014年5月5日—2014年5月10日,根據(jù)第二次土壤普查繪制的1∶100萬(wàn)黑土分布圖,在黑龍江省黑河市嫩江市、北安市、五大連池市,綏化市以及吉林省長(zhǎng)春市德惠市、榆樹(shù)市的黑土帶內(nèi),共采得61個(gè)土壤樣本,采樣點(diǎn)分布情況如圖1所示。將土樣置于室內(nèi),自然風(fēng)干、研磨、過(guò)2 mm篩后,把每個(gè)樣本分成2份,一份用于光譜測(cè)量,另一份用于化學(xué)分析。土壤有機(jī)質(zhì)的測(cè)定采用重鉻酸鉀容量法。將61個(gè)樣本分為2組,每間隔3個(gè)樣本取1個(gè)樣本作為驗(yàn)證樣本,其余作為建模樣本,供試樣本有機(jī)質(zhì)含量描述性統(tǒng)計(jì)如表1所示。
圖1 采樣點(diǎn)分布圖Fig.1 Distribution map of samples
表1 土壤樣本有機(jī)質(zhì)含量描述性統(tǒng)計(jì)Tab.1 Descriptive statistics of soil organic matter content
光譜測(cè)量?jī)x器是美國(guó)ASD公司開(kāi)發(fā)生產(chǎn)的FieldSpec3便攜式光譜儀,其光譜范圍為350~2 500 nm,采樣間隔為1.4 nm([350,1 000 nm))和2 nm([1 000,2 500 nm]),重采樣間隔為1 nm。光譜測(cè)量在暗室內(nèi)進(jìn)行,室內(nèi)幾何測(cè)試條件及測(cè)量過(guò)程的描述參見(jiàn)文獻(xiàn)[11]。每個(gè)土樣采集5條光譜曲線,進(jìn)行拼接校正后,取其平均曲線,并去除噪聲較大的350~399 nm和2 451~2 500 nm邊緣波段。為擴(kuò)大樣本之間的光譜特征差異,對(duì)光譜曲線進(jìn)行一階微分變換。
小波變換是基于傅里葉變換發(fā)展起來(lái)的數(shù)據(jù)處理方法,其通過(guò)伸縮和平移等運(yùn)算功能可對(duì)函數(shù)或信號(hào)進(jìn)行多尺度的細(xì)化分析[12]。小波變換分為連續(xù)小波變換和離散小波變換,后者是前者的離散化,在實(shí)際運(yùn)用中,考慮到連續(xù)小波變換計(jì)算量大、系數(shù)冗余度高,常常使用離散小波變換[4]。離散小波變換生成的每一層系數(shù)的數(shù)目隨著分解層數(shù)的增加而減少,下層數(shù)目約為上層數(shù)目的1/2,但足以表示光譜的整體特征,且數(shù)據(jù)冗余相對(duì)較小。土壤光譜經(jīng)離散小波變換處理后,可獲取低頻系數(shù)和高頻系數(shù)。低頻系數(shù)反映原始光譜明顯的吸收特征,決定整個(gè)光譜的形狀,高頻系數(shù)反映原始光譜的噪聲及微小的吸收特征[13],通過(guò)離散小波變換舍去小波高頻系數(shù),提取小波低頻系數(shù),能夠一定程度上減少由光譜儀測(cè)試條件等不確定因素造成的高頻噪音[14]。在使用小波變換時(shí),首先要選擇合適的小波基,常用的小波基有Haar,Daubechies,Biorthogonal和Symlet等,陳紅艷等[14]和欒福明等[15]都曾對(duì)上述4種小波基的表現(xiàn)進(jìn)行研究,結(jié)果表明,基于Bior1.3小波基進(jìn)行建模的精度最高。因此,本文采用Bior1.3小波基對(duì)土壤反射率的一階導(dǎo)數(shù)光譜進(jìn)行多層離散小波變換,提取各層的小波低頻系數(shù)作為SPA算法的輸入變量。研究發(fā)現(xiàn),隨著分解層數(shù)的增加,小波低頻系數(shù)與原始光譜相關(guān)性逐漸降低,根據(jù)前人研究經(jīng)驗(yàn),本文選取1~7層小波低頻系數(shù)用于估測(cè)模型的建立。
SPA算法利用向量的投影分析,尋找含有最低限度冗余信息的變量組合,并使變量之間的共線性達(dá)到最小,同時(shí)大大減少建模所用的變量個(gè)數(shù),以提高建模速度。有關(guān)SPA算法運(yùn)算步驟詳見(jiàn)文獻(xiàn)[16]。
利用SPA算法分別對(duì)土壤全譜和1~7層的小波低頻系數(shù)進(jìn)行變量篩選,圖2為土壤全譜和各分解層經(jīng)SPA算法篩選得到的變量的分布情況。從圖2中可以看出,入選的變量中,在近紅外范圍的居多,可見(jiàn)光的較少,這是由于有機(jī)質(zhì)主要源于農(nóng)作物遺體,由糖類化合物、纖維素、半纖維素、含氮化合物等組成,這些成分中的C-H鍵、C-O鍵、N-O鍵、N-H鍵等的光譜響應(yīng)區(qū)域位于近紅外區(qū)域[6]。
(a)土壤全譜 (b)第1層小波系數(shù) (c)第2層小波系數(shù) (d)第3層小波系數(shù)
為驗(yàn)證小波變換和SPA算法的結(jié)合在黑土有機(jī)質(zhì)含量高光譜估測(cè)上的有效性,本文分別基于土壤全譜、1~7層小波低頻系數(shù)、SPA算法選擇的變量,利用PLS和SVM兩種方法建立估測(cè)模型。
PLS是多元定量分析中一種常用的方法,被廣泛應(yīng)用于近紅外、紅外、拉曼等波譜定量分析模型的建立,已成為光譜分析中建立線性定量校正模型的通用方法。PLS將數(shù)據(jù)壓縮與回歸結(jié)合起來(lái),通過(guò)依次選擇正交因子來(lái)擴(kuò)大因變量與自變量之間的協(xié)方差[17]。
SVM作為一種非線性建模方法,在土壤參數(shù)估測(cè)中得到廣泛應(yīng)用,并取得了不錯(cuò)的效果。SVM通過(guò)非線性映射將輸入向量映射到高維特征空間,然后在這個(gè)特征空間中求解凸優(yōu)化問(wèn)題[18],但是這樣就增加了運(yùn)算的復(fù)雜度,而核函數(shù)的使用可以很好地解決這個(gè)問(wèn)題,本文選擇應(yīng)用較為普遍、建模效果較好的徑向基函數(shù)作為SVM的核函數(shù)。采用徑向基函數(shù)時(shí),內(nèi)核參數(shù)和容錯(cuò)懲罰系數(shù)是2個(gè)必要調(diào)整參數(shù),其取值直接影響模型精度,本文采用訓(xùn)練集交叉驗(yàn)證和網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu)。
采用決定系數(shù)R2和均方根誤差(root mean square error,RMSE)對(duì)估測(cè)模型進(jìn)行評(píng)價(jià),其計(jì)算公式分別為:
(1)
(2)
分別基于土壤全譜和1~7層小波低頻系數(shù),采用PLS方法和SVM方法構(gòu)建黑土有機(jī)質(zhì)含量估測(cè)模型,并利用驗(yàn)證樣本集進(jìn)行模型評(píng)價(jià),得到的決定系數(shù)R2和均方根誤差RMSE如表2所示。從表2可以看出,經(jīng)小波變換處理后,模型精度確實(shí)得到了一定程度的提高:采用PLS方法時(shí),R2由土壤全譜的0.79提高至第5層的0.88,RMSE由土壤全譜的6.06 g·kg-1降低至第5層的4.56 g·kg-1;采用SVM方法時(shí),R2由土壤全譜的0.75提高至第5層的0.87,RMSE由土壤全譜的7.46 g·kg-1降低至第5層的4.96 g·kg-1。從表2中同時(shí)也可以發(fā)現(xiàn),1~7層小波低頻系數(shù)中,僅第4,5,6層的模型精度高于土壤全譜,而第1,2,3,7層的模型精度低于土壤全譜精度,可見(jiàn),經(jīng)小波變換處理后,并非每一層的精度都高于原始光譜,整體上是先升高再降低的趨勢(shì),中間層的模型精度最高,這一規(guī)律與王延倉(cāng)等[6]的研究結(jié)論一致,產(chǎn)生這一現(xiàn)象的主要原因是由于有機(jī)質(zhì)組成成分復(fù)雜多樣,各成分均有不同的光譜響應(yīng)范圍,如果光譜分辨率較高則不能充分利用有機(jī)質(zhì)各成分的光譜信息,而光譜分辨率較低則降低信噪比,進(jìn)而對(duì)建模產(chǎn)生負(fù)面影響。
表2 土壤全譜和1~7層小波低頻系數(shù)的估測(cè)模型評(píng)價(jià)結(jié)果Tab.2 Evaluation results of the estimation models of soil original spectrum and the wavelet coefficients of 1 to 7 levels
分別基于經(jīng)SPA算法篩選獲得的土壤全譜和第1~7層小波低頻系數(shù)變量,采用PLS方法和SVM方法構(gòu)建黑土有機(jī)質(zhì)含量估測(cè)模型,并利用驗(yàn)證樣本集進(jìn)行模型評(píng)價(jià),得到的決定系數(shù)R2和均方根誤差RMSE如表3所示。對(duì)比表2和表3可以看出,經(jīng)SPA算法處理后,不僅變量數(shù)目得到了大幅降低,而且模型精度也得到了一定程度的提高:采用PLS方法時(shí),R2由0.88提高至0.93,RMSE由4.56 g·kg-1降低至3.48 g·kg-1;采用SVM方法時(shí),R2由0.87提高至0.91,RMSE由4.96 g·kg-1降低至4.12 g·kg-1。另外,對(duì)比表2和表3可以發(fā)現(xiàn),對(duì)于PLS方法,經(jīng)SPA算法處理后,第2~7層小波低頻系數(shù)的模型精度得到了提高,而土壤全譜和第1層小波低頻系數(shù)的模型精度反而降低;對(duì)于SVM方法,經(jīng)SPA算法處理后,土壤全譜和第1~4層小波低頻系數(shù)的模型精度得到了提高,而第5~7層小波低頻系數(shù)的模型精度則變換不大。可見(jiàn),若不經(jīng)小波變換處理,僅采用SPA算法,模型精度并不一定能夠提高,此結(jié)論進(jìn)一步驗(yàn)證了小波變換和SPA算法的結(jié)合在黑土有機(jī)質(zhì)含量高光譜估測(cè)上的有效性。
表3 SPA算法篩選后的土壤全譜和1~7層小波低頻系數(shù)的估測(cè)模型評(píng)價(jià)結(jié)果Tab.3 Evaluation results of the estimation models of the soil original spectrum and the wavelet coefficients of 1 to 7 levels screened by successive projections algorithm
通過(guò)對(duì)比表2和表3中使用PLS和SVM方法獲得的模型精度發(fā)現(xiàn),PLS精度整體上高于SVM。采用PLS方法時(shí),最優(yōu)模型的決定系數(shù)R2和均方根誤差RMSE分別為0.93和3.48 g·kg-1,采用SVM方法時(shí),最優(yōu)模型的決定系數(shù)R2和均方根誤差RMSE分別為0.91和4.12 g·kg-1。
分別將基于土壤全譜、基于小波變換的最優(yōu)模型、基于小波變換和SPA算法的最優(yōu)模型獲得的驗(yàn)證樣本有機(jī)質(zhì)預(yù)測(cè)值與實(shí)測(cè)值進(jìn)行對(duì)比,圖3為預(yù)測(cè)值與實(shí)測(cè)值的散點(diǎn)圖,散點(diǎn)離直線越近表示預(yù)測(cè)效果越好。從圖中可以看出,6個(gè)模型都沒(méi)有欠擬合和過(guò)擬合現(xiàn)象發(fā)生,其中基于小波變換、SPA算法和PLS建立的模型預(yù)測(cè)結(jié)果最好;而未經(jīng)小波變換和SPA算法處理,僅采用SVM建模的預(yù)測(cè)結(jié)果最差。
(a)基于土壤全譜的模型(PLS) (b)基于小波變換的最優(yōu)模型(PLS) (c)基于小波變換和SPA的最優(yōu)模型(PLS)
(d)基于土壤全譜的模型(SVM) (e)基于小波變換的 最優(yōu)模型(SVM) (f)基于小波變換和SPA的最優(yōu)模型(SVM)
本文在黑土有機(jī)質(zhì)含量高光譜估測(cè)中引入了小波變換和SPA算法,為驗(yàn)證小波變換和SPA算法的結(jié)合在黑土有機(jī)質(zhì)含量高光譜估測(cè)上的有效性,分別基于土壤全譜、1~7層小波低頻系數(shù)、SPA算法選擇的變量,利用PLS和SVM兩種方法建立了估測(cè)模型,主要結(jié)論如下:
1)經(jīng)小波變換處理后,模型精度確實(shí)得到了提高,采用PLS方法時(shí),R2由土壤全譜的0.79提高至第5層小波低頻系數(shù)的0.88,RMSE由6.06 g·kg-1降低至4.56 g·kg-1;采用SVM方法時(shí),R2由土壤全譜的0.75提高至第5層小波低頻系數(shù)的0.87,RMSE由7.46 g·kg-1降低至4.96 g·kg-1。
2)經(jīng)小波變換和SPA算法處理后,不僅變量數(shù)目得到了大幅降低,而且模型精度也得到了提高,采用PLS方法時(shí),R2由土壤全譜的0.79提高至第6層小波低頻系數(shù)的0.93,RMSE由6.06 g·kg-1降低至3.48 g·kg-1;采用SVM方法時(shí),R2由土壤全譜的0.75提高至第3層小波低頻系數(shù)的0.91,RMSE由7.46 g·kg-1降低至4.12 g·kg-1。
3)對(duì)于1~7層小波低頻系數(shù),整體上是先升高再降低的趨勢(shì)。未使用SPA算法時(shí),PLS和SVM均是第5層模型精度最高,R2分別為0.88和0.87,RMSE分別為4.56 g·kg-1和4.96 g·kg-1。使用SPA算法后,PLS第6層模型精度最高,SVM第3層精度最高,二者的R2分別為0.93和0.91,RMSE分別為3.48 g·kg-1和4.12 g·kg-1。
4)PLS和SVM相比,PLS精度整體上高于SVM。采用PLS方法時(shí),最優(yōu)模型的決定系數(shù)R2和均方根誤差RMSE分別為0.93和3.48 g·kg-1,采用SVM方法時(shí),最優(yōu)模型的決定系數(shù)R2和均方根誤差RMSE分別為0.91和4.12 g·kg-1。
迄今為止,許多土壤有機(jī)質(zhì)含量高光譜估測(cè)研究中都采用了小波變換或SPA算法,并都取得了較好的估測(cè)效果,但將二者結(jié)合起來(lái)用于有機(jī)質(zhì)含量高光譜估測(cè)的研究還非常有限,本研究結(jié)果表明結(jié)合小波變換和SPA算法進(jìn)行黑土有機(jī)質(zhì)含量高光譜估測(cè)是可行的,相比于使用單一算法,二者的結(jié)合能夠獲得更高的模型精度。但本文在建模過(guò)程中僅采用Bior1.3小波基進(jìn)行小波變換,而事實(shí)上小波基種類很多,選用不同的小波基勢(shì)必得到不同的建模精度,因此,未來(lái)將會(huì)在土壤有機(jī)質(zhì)含量高光譜估測(cè)中針對(duì)小波基進(jìn)行系統(tǒng)研究。