張娟娟,牛 圳,馬新明,王 健,徐超越,時(shí) 雷,Ba??o Fernando,司海平*
1. 河南農(nóng)業(yè)大學(xué)信息與管理科學(xué)學(xué)院,河南 鄭州 450002 2. 河南糧食作物協(xié)同創(chuàng)新中心,河南 鄭州 450002 3. Universidade Nova de Lisboa,NOVA Informantion Managment School,Lisboa,1070-312,Portugal
砂姜黑土是我國(guó)珍貴的土壤資源,其發(fā)育于河湖相沉積物、河間洼地和崗丘間洼地環(huán)境,經(jīng)前期草甸潛育化過(guò)程和后期耕作熟化過(guò)程所形成的一種半水成土,全國(guó)面積計(jì)有370萬(wàn) hm2左右,主要分布于淮北平原,其特點(diǎn)是質(zhì)地黏重,結(jié)構(gòu)松散[1]。全氮作為砂姜黑土肥力的重要組成部分,準(zhǔn)確、快速地估測(cè)其含量對(duì)農(nóng)田砂姜黑土生產(chǎn)力、糧食安全和農(nóng)業(yè)可持續(xù)發(fā)展具有重要意義,也是加快精確農(nóng)業(yè)發(fā)展的重要手段[2]。目前,砂姜黑土養(yǎng)分的分析仍以傳統(tǒng)的實(shí)驗(yàn)室化驗(yàn)分析方法為主,測(cè)試過(guò)程費(fèi)時(shí)、費(fèi)力。近年來(lái),高光譜分析技術(shù)以其快速、簡(jiǎn)便、不破壞等特點(diǎn)[3],為土壤養(yǎng)分的快速診斷提供新的思路和技術(shù)手段。
國(guó)內(nèi)外學(xué)者利用高光譜技術(shù)反演土壤全氮已有較多研究。目前,利用高光譜進(jìn)行土壤養(yǎng)分估測(cè)多是首先對(duì)光譜進(jìn)行預(yù)處理,如對(duì)原始光譜反射率進(jìn)行一階導(dǎo)數(shù),二階導(dǎo)數(shù)、對(duì)數(shù)、連續(xù)統(tǒng)去除和平滑等處理[4],然后結(jié)合不同的建模方法進(jìn)行模型的構(gòu)建和驗(yàn)證。預(yù)處理方法和建模方法的不同選擇,均顯著影響模型的預(yù)測(cè)精度。如Cheng等[5]通過(guò)估算土壤重金屬含量表明,將光譜數(shù)據(jù)進(jìn)行一階導(dǎo)數(shù)、二階導(dǎo)數(shù)變換可以消除實(shí)驗(yàn)室光譜中的基線漂移和多次散射效應(yīng)。隨著非線性模型算法的出現(xiàn),較多研究結(jié)合不同的機(jī)器學(xué)習(xí)方法開(kāi)展了土壤養(yǎng)分含量的光譜模型構(gòu)建,并取得了較好的精度。如孫小香等[6]將全波段原始光譜作為輸入變量,結(jié)合偏最小二乘、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)3種建模方法,構(gòu)建全氮含量高光譜估測(cè)模型。任紅艷等[7]采用偏最小二乘回歸方法建立了基于全波段高光譜反射率的全氮含量預(yù)測(cè)模型。胡貴貴等[8]在主成分方法特征提取基礎(chǔ)上,結(jié)合K鄰近和支持向量機(jī)模型高效定量分析了土壤有機(jī)質(zhì)含量。然而,上述研究多利用全波段進(jìn)行建模,而土壤全氮因受到水分、粒徑和微量元素等土壤組分的干擾[9],全氮光譜吸收特征較為微弱。為凸顯或提取土壤光譜中的全氮信息,降低數(shù)據(jù)的冗余性,篩選與研究對(duì)象相關(guān)的光譜特征和變量成為提高建模精度的一種有效方法[10]。
離散小波是一種通過(guò)對(duì)數(shù)據(jù)在時(shí)域和頻域上的分解實(shí)現(xiàn)更加精確的局部分析以及信號(hào)特征的分離,將光譜信號(hào)分解為不同的層,各層所包含的信息與土壤不同成分有關(guān)。低頻信息決定土壤光譜基本形狀的物質(zhì),高頻信息反映光譜采集過(guò)程的各種噪聲及土壤微量成分在原始光譜的特征[11]。王延倉(cāng)等[12]利用小波變換和偏最小二乘算法構(gòu)建土壤有機(jī)質(zhì)含量估測(cè)模型,結(jié)果表明小波變換可以提高模型的估測(cè)能力。郭云開(kāi)等[13]運(yùn)用小波變換獲得小波系數(shù),放大了土壤高光譜特征信息,而且降低了數(shù)據(jù)的維度,結(jié)合模型預(yù)測(cè)土壤重金屬鉻含量是可行的。土壤全氮含量較低時(shí),在土壤光譜中的吸收特征較為細(xì)弱,噪聲會(huì)對(duì)光譜信息造成很大的干擾,因此,如何將土壤光譜數(shù)據(jù)內(nèi)噪聲信息剔除,并最大限度地保留原始土壤光譜信息,是進(jìn)一步提高土壤全氮預(yù)測(cè)精度的關(guān)鍵。
因此,以砂漿黑土為研究對(duì)象,利用離散小波變換對(duì)土壤全氮進(jìn)行光譜特征提取,將低頻信息和高頻信息的分離,并確定土壤全氮最佳母小波和分解層次選擇,同時(shí)結(jié)合支持向量機(jī)和K鄰近算法構(gòu)建土壤全氮估測(cè)模型,以期為同類研究提供技術(shù)參考。
1.1.1 土壤數(shù)據(jù)
供試土壤樣本取自河南省商水縣國(guó)營(yíng)農(nóng)場(chǎng)的小麥氮肥處理試驗(yàn)區(qū),試驗(yàn)施氮量分別為0 kg·hm-2(N0)、90 kg·hm-2(N6)、180 kg·hm-2(N12)、270 kg·hm-2(N18)、360 kg·hm-2(N24)。氮肥使用尿素,分別于播種期和返青期按5∶5施入。如圖1,研究區(qū)地勢(shì)開(kāi)闊,土地養(yǎng)分充足,是河南省糧食主產(chǎn)區(qū)。土壤類型為砂姜黑土。野外采樣時(shí),將每個(gè)采樣點(diǎn)地表植物清除,在每個(gè)單元按照五點(diǎn)取樣法的原則采集0~20 cm的表層土壤,將土樣置于陰暗通風(fēng)處風(fēng)干。為避免土壤粒徑帶來(lái)的土壤光譜異向、噪音問(wèn)題,對(duì)土樣進(jìn)行研磨、分別過(guò)篩0.9和0.15 mm處理,供光譜測(cè)試和化學(xué)分析使用。
圖1 研究區(qū)位置Fig.1 Location of study area
1.1.2 光譜數(shù)據(jù)
土壤光譜數(shù)據(jù)獲取采用美國(guó)ASD公司生產(chǎn)的FieldSpec4地物光譜儀(光譜波段范圍350~2 500 nm)。測(cè)試在暗室進(jìn)行,選擇穩(wěn)固的平臺(tái)利用鹵素光源和標(biāo)準(zhǔn)白板完成測(cè)量。把適量經(jīng)處理的土壤樣品倒入黑色盛樣皿中,厚度為1.5 mm,用玻璃棒壓實(shí),使其表面盡可能平整。測(cè)量時(shí)為了減小土壤樣品非目標(biāo)因素的影響,測(cè)量過(guò)程中將樣品旋轉(zhuǎn)3次,每次采集10條共采集30條,計(jì)算30條曲線的平均值作為樣本的光譜反射率數(shù)據(jù)。刪除350~399和2 451~2 500 nm信噪比低、噪聲大的鋸齒波段,共獲得2 051個(gè)波段數(shù)據(jù)。砂姜黑土耕層淺薄,較其他土壤類型光譜差異不明顯。為擴(kuò)大樣本之間的光譜特征差異,對(duì)光譜曲線進(jìn)行了一階導(dǎo)數(shù)變換。
1.1.3 土壤全氮測(cè)量
土壤全氮測(cè)定采用凱式定氮法[14],表1為土壤樣本全氮含量統(tǒng)計(jì)特征。
表1 土壤全氮含量統(tǒng)計(jì)(g·kg-1)Table 1 Statistics of total nitrogen content in soil (g·kg-1)
1.2.1 相關(guān)分析
相關(guān)分析(CA)是分別對(duì)原始光譜、一階導(dǎo)數(shù)光譜的各個(gè)波段與全氮含量的相關(guān)計(jì)算,計(jì)算選定的土壤樣本的全氮含量與每個(gè)波段的相關(guān)系數(shù)。在光譜波段范圍的相關(guān)系數(shù)曲線中,選取相關(guān)系數(shù)曲線的波谷和波峰作為輸入波段。相關(guān)系數(shù)的計(jì)算公式如式(1)
(1)
1.2.2 離散小波
離散小波變換的背景和原理可以被描述為有限長(zhǎng)度信號(hào)和離散小波基的內(nèi)積,其通過(guò)平移和縮放等運(yùn)算功能可對(duì)光譜信號(hào)進(jìn)行多尺度的細(xì)化分析[15]??衫玫屯ㄅc高通濾波器將信號(hào)分解為一系列高頻和低頻信號(hào),高頻信號(hào)(DC)為原始信息中的細(xì)微信號(hào),低頻信號(hào)(AC)為原始信息中的宏觀信號(hào)[16]。二者可從細(xì)微和宏觀角度深入分析原始信息,同時(shí)還可以降低高光譜數(shù)據(jù)的維度。
1.3.1 支持向量機(jī)
支持向量機(jī)(SVM)是由Vapnik[17]等提出的一種統(tǒng)計(jì)學(xué)理論,是用作分類和回歸的機(jī)器學(xué)習(xí)方法,可以在有限數(shù)據(jù)下表現(xiàn)出良好的泛化能力和抗噪聲能力[18]。其目的是尋找數(shù)據(jù)之間的規(guī)律并依此來(lái)預(yù)測(cè)估計(jì)數(shù)據(jù)未來(lái)的變化趨勢(shì),在解決小樣本、高位模式識(shí)別、大規(guī)模數(shù)據(jù)集的同時(shí),可以有效地處理非線性問(wèn)題。本研究中,采用高斯核函數(shù)作為核函數(shù),使用GridSerachCV函數(shù)發(fā)現(xiàn)最優(yōu)參數(shù),其中,懲罰系數(shù)代價(jià)=10和gamma=0.001。
1.3.2 K鄰近
K鄰近算法(KNN)是由Cover和Hart提出的,其原理是通過(guò)測(cè)量不同樣本特征值之間的距離進(jìn)行分類,同時(shí)該算法也可用于回歸問(wèn)題處理[19]。鄰近距離度量使用歐氏度量法,它定義于歐幾里得空間中兩點(diǎn)間直線距離,來(lái)衡量樣本特征值之間的相似性。距離越遠(yuǎn),即相似性越低。K鄰近算法采用python中的“sklearn.neights”包,交叉驗(yàn)證法用于確定K值,K=3。
采用決定系數(shù)(R2)、均方根誤差(RMSE)、相對(duì)分析誤差(RPD)對(duì)估測(cè)模型進(jìn)行評(píng)價(jià),其計(jì)算公式分別為
(2)
(3)
(4)
已有研究表明,對(duì)光譜進(jìn)行一階導(dǎo)數(shù)變換能較好地消除背景信號(hào)或噪聲、突出光譜曲線特征、去除或減弱其他因素的影響。將土壤全氮含量與原始光譜、一階導(dǎo)數(shù)光譜分別進(jìn)行相關(guān)性分析,見(jiàn)圖2。從圖可以看出,原始光譜與土壤全氮的相關(guān)系數(shù)介于-0.48~0.59。經(jīng)一階導(dǎo)數(shù)變換后的光譜與土壤全氮的相關(guān)性更顯著,峰值點(diǎn)清晰,相關(guān)系數(shù)介于-0.82~0.84之間。綜合比較可知,一階導(dǎo)數(shù)光譜可以去除不同地背景噪聲和基線漂移,解決重疊光譜特征,獲取曲線中拐點(diǎn)和極值點(diǎn),提高光譜與全氮的相關(guān)系數(shù)。其中,在1 373 nm處一階導(dǎo)數(shù)光譜與全氮含量相關(guān)系數(shù)最高,為0.84。選取一階導(dǎo)數(shù)與全氮相關(guān)系數(shù)最高的10個(gè)峰值對(duì)應(yīng)的波長(zhǎng)作為全氮的特征波段,分別為643、1 003、1 373、1 417、1 862、1 918、2 029、2 195、2 211和2 281 nm,用于后續(xù)的建模分析。
圖2 土壤全氮與原始光譜及一階導(dǎo)數(shù)光譜的相關(guān)性Fig.2 Correlation between soil total nitrogen and original spectrum and first derivative spectrum
利用常見(jiàn)的5種母小波函數(shù)對(duì)一階導(dǎo)數(shù)光譜進(jìn)行分解,并用重構(gòu)相似指標(biāo)比較,分析不同母小波參數(shù)和分解層數(shù)的變化特征。隨著分解水平增加,越來(lái)越多能夠響應(yīng)土壤的有用信息會(huì)被剔除,導(dǎo)致反射光譜的信息含量減少。DWT系數(shù)的數(shù)量描述了數(shù)據(jù)壓縮的程度,如表2所示,小波變換系數(shù)的數(shù)量隨著母小波和分解級(jí)別而變化。從L1—L13趨于下降,下降穩(wěn)定在L11。5個(gè)母小波中,sym8壓縮能力最強(qiáng),而coif5最弱。例如,本研究中的波段總數(shù)為2 051個(gè)(400~2 450 nm),在分解級(jí)11后,母小波為sym8的DWT系數(shù)數(shù)量為15,而coif5有29。小波分解可以根據(jù)信號(hào)的長(zhǎng)度和小波基長(zhǎng)度,重復(fù)進(jìn)行波長(zhǎng)分解,直到達(dá)到最大尺度。
表2 不同母小波和分解層數(shù)下的小波系數(shù)個(gè)數(shù)Table 2 The number of wavelet coefficients under different mother wavelets and decomposition levels
由于低頻系數(shù)被認(rèn)為是光譜全局信息的一個(gè)指標(biāo),分解級(jí)別1—11的每級(jí)變換光譜的低頻系數(shù)被用來(lái)重構(gòu),以便發(fā)現(xiàn)低頻系數(shù)如何描述反射光譜。反射光譜和重構(gòu)信號(hào)之間的相關(guān)性如圖3所示,相關(guān)系數(shù)從L4一直下降到L11,表明低頻系數(shù)對(duì)光譜的解釋和信號(hào)恢復(fù)能力從L4到L11逐漸下降;分解到7級(jí)后,相關(guān)性系數(shù)迅速下降到0.6以下,L11時(shí)一階導(dǎo)數(shù)光譜相關(guān)系數(shù)為0.4左右;母小波db10比其他母小波函數(shù)更不穩(wěn)定??紤]到數(shù)據(jù)壓縮有效性、母小波的穩(wěn)定性和保持光譜信息質(zhì)量的能力,選擇L1—L11分解層的母小波sym8進(jìn)行小波變換,用于分析與全氮含量的相關(guān)性。
圖3 每個(gè)分解級(jí)不同母小波重構(gòu)和一階導(dǎo)數(shù)光譜之間的相關(guān)性Fig.3 Correlations between reconstructed signals and FD spectra for different mother wavelets at each decomposition level
利用離散小波將土壤光譜數(shù)據(jù)分解為11個(gè)尺度的低頻數(shù)據(jù)與高頻數(shù)據(jù),由于小波變換分析的高頻系數(shù)代表光譜中的噪聲或微小的吸收,圖3顯示,光譜信號(hào)和分解級(jí)1—5的AC重建信號(hào)之間的相關(guān)系數(shù)接近1,這表明L1—L5處的DC振幅非常小(接近0),可以在信號(hào)信息內(nèi)容沒(méi)有重大損失的情況下去除,因此,利用各尺度低頻數(shù)據(jù)作為輸入結(jié)合機(jī)器學(xué)習(xí)方法構(gòu)建模型。圖4為不同分解級(jí)的低頻系數(shù)結(jié)合SVM和KNN模型構(gòu)建的土壤全氮含量建模和驗(yàn)證決定系數(shù)。
圖4 不同模型的決定系數(shù)與分解水平的關(guān)系Fig.4 Relationship between determination coefficient and decomposition level of different models
表3 低頻系數(shù)不同分解級(jí)土壤全氮回歸分析Table 3 Regression analysis of soil total nitrogen with low frequency coefficient at different decomposition levels
圖5 基于L5近似系數(shù)的K鄰近算法建模(a)及檢驗(yàn)(b)Fig.5 K proximity modeling (a) and testing (b) based on L5 approximate coefficient
進(jìn)一步將全波段和經(jīng)過(guò)相關(guān)性分析后選擇的10個(gè)特征波段分別作為輸入,結(jié)合支持向量機(jī)和K鄰近建立土壤全氮模型,見(jiàn)表4?;谔卣鞑ǘ螛?gòu)建的模型驗(yàn)證決定系數(shù)均在0.90以上,全波段構(gòu)建的模型驗(yàn)證決定系數(shù)均在0.85以上。其中,以特征波段結(jié)合KNN建模及驗(yàn)證結(jié)果表現(xiàn)最好,建模決定系數(shù)為0.91,RMSE為0.08 g·kg-1,RPD為3.30,驗(yàn)證決定系數(shù)為0.94,RMSE為0.07 g·kg-1,RPD為3.72。
表4 不同波段輸入土壤全氮模型比較Table 4 Comparison of soil total nitrogen models with different wave bands
小波變換是信號(hào)處理的一種新型技術(shù),利用低通與高通濾波器將光譜數(shù)據(jù)分離為低頻信息與高頻信息。高頻信息是光譜信號(hào)中包含的噪聲和特殊信息,低頻信息是光譜信號(hào)全局行為的一種表達(dá),對(duì)應(yīng)信號(hào)中的主趨勢(shì)[20]。已有研究表明土壤全氮的有益信息多集于低頻信息內(nèi),而高頻信息內(nèi)含噪聲較多,信噪比相對(duì)較低[21]。本文采用離散小波處理土壤光譜,并與傳統(tǒng)降維方法進(jìn)行對(duì)比建模。由表3和表4對(duì)比分析可知,基于不同輸入量構(gòu)建的SVM模型中,模型性能如下:近似系數(shù)1—7>相關(guān)分析>全波段>近似系數(shù)8—11?;诮葡禂?shù)的最優(yōu)模型的預(yù)測(cè)精度比相關(guān)分析模型和全波段模型精度提高6.7%和11.6%?;诓煌斎肓繕?gòu)建的KNN模型中,模型性能如下:近似系數(shù)2—6>相關(guān)分析>近似系數(shù)1>近似系數(shù)7>全波段>近似系數(shù)8—11?;诮葡禂?shù)的最優(yōu)模型的預(yù)測(cè)精度比相關(guān)分析模型和全波段模型精度提高3.2%和9.0%,表明離散小波可有效提升光譜對(duì)土壤全氮含量的敏感性,壓縮了光譜自變量并增加了各組分之間的區(qū)別,進(jìn)而提升模型的預(yù)測(cè)精度和穩(wěn)定性,這與其他學(xué)者的研究結(jié)果相似[22-23]。
機(jī)器學(xué)習(xí)被應(yīng)用到遙感數(shù)據(jù)的建模中,但不同方法在構(gòu)建模型時(shí)精度差別較大。Xu等[24]利用隨機(jī)森林回歸模型對(duì)濱海濕地的全氮含量估測(cè)并繪制空間分布地圖,模型決定系數(shù)為0.65,為大尺度全氮估測(cè)提供了技術(shù)指導(dǎo)。在本研究中,使用小波變換提取的低頻系數(shù)作為輸入構(gòu)建的模型要優(yōu)于全波段和敏感波段作為輸入構(gòu)建的模型,且整體上使用K鄰近算法構(gòu)建的模型精度要優(yōu)于支持向量機(jī),K鄰近算法可能是構(gòu)建土壤全氮含量反演模型的可靠建模方法,能獲取更高的精度。本研究還存在不足之處,如樣本量較小,模型的穩(wěn)定性和預(yù)測(cè)精度需要進(jìn)一步驗(yàn)證,在后續(xù)研究會(huì)擴(kuò)大取樣范圍,獲取更多的樣本,以進(jìn)一步驗(yàn)證模型的可靠性。
以砂漿黑土為研究對(duì)象,在系統(tǒng)分析土壤原始光譜和一階導(dǎo)數(shù)光譜的基礎(chǔ)上,利用離散小波變換對(duì)一階導(dǎo)數(shù)光譜進(jìn)行小波分解和重構(gòu),提取特征參數(shù),并結(jié)合支持向量機(jī)和K鄰近算法建立機(jī)土壤全氮模型。結(jié)果表明:離散小波分析在保持原始光譜質(zhì)量和降低光譜數(shù)據(jù)空間維度的基礎(chǔ)上,可對(duì)土壤全氮光譜特征進(jìn)行提取,利用sym8母小波對(duì)一階導(dǎo)數(shù)光譜進(jìn)行壓縮分解,L5層低頻系數(shù)結(jié)合K鄰近算法構(gòu)建的土壤全氮模型表現(xiàn)最好,要優(yōu)于全波段和以敏感波段作為輸入構(gòu)建的模型。研究結(jié)果可為利用高光譜遙感技術(shù)快速、實(shí)時(shí)、精確估測(cè)土壤全氮含量提供參考。