曹萌萌,楊圣舒,丁勝男,馬 燦,肖 瑩,劉煥軍*
(東北農(nóng)業(yè)大學(xué) 資源與環(huán)境學(xué)院,黑龍江哈爾濱 150030)
基于土壤反射光譜聚類分析的有機(jī)質(zhì)預(yù)測(cè)模型
曹萌萌,楊圣舒,丁勝男,馬 燦,肖 瑩,劉煥軍*
(東北農(nóng)業(yè)大學(xué) 資源與環(huán)境學(xué)院,黑龍江哈爾濱 150030)
結(jié)合土壤圖、Landsat8影像、DEM等,以松嫩平原典型土壤類型(黑土、黑鈣土、草甸土、風(fēng)砂土)的149個(gè)耕層(0~20 cm)土樣的高光譜數(shù)據(jù)為研究對(duì)象,通過(guò)重采樣、包絡(luò)線消除法對(duì)數(shù)據(jù)進(jìn)行處理,在此基礎(chǔ)上對(duì)不同波段反射率與土壤有機(jī)質(zhì)(SOM)含量進(jìn)行相關(guān)性分析,以敏感波段作為輸入量,采用K-均值聚類的方法對(duì)4種土壤進(jìn)行聚類分析,建立聚類分析前后不同土壤類型的SOM多元逐步回歸模型。結(jié)果表明:(1)K均值聚類法將土壤分成4類,其結(jié)果與實(shí)際采樣結(jié)果大體類似;(2)土壤經(jīng)過(guò)光譜分類后,預(yù)測(cè)模型精度較原來(lái)單一土類預(yù)測(cè)模型精度得到提高,R2的平均值由分類前的0.762提高到分類后的0.836,RMSE平均值由分類前的0.657降到分類后的0.504。該研究可應(yīng)用于土壤光譜的分類、土壤有機(jī)質(zhì)含量的速測(cè)、遙感反演、土地質(zhì)量評(píng)價(jià)等工作。
重采樣 包絡(luò)線消除法 K-均值聚類 多元逐步回歸
近年來(lái),土壤分類研究得到了快速的發(fā)展,由最初的定性分析到如今的定量化分類[1],劉煥軍等采用K-均值聚類和決策樹(shù)進(jìn)行分類模型的構(gòu)建,結(jié)果表明表層土壤光譜特性的決策樹(shù)模型可用于土壤分類[1],黃應(yīng)豐通過(guò)對(duì)華南地區(qū)的土壤進(jìn)行研究,采用主次元、模糊聚類分析后,將土壤分成平直型、緩斜型及陡坎型[2],王人潮等通過(guò)采用模糊數(shù)學(xué)方法,進(jìn)而對(duì)土壤19個(gè)土壤剖面進(jìn)行分類[3],康冉等通過(guò)對(duì)松嫩平原的土壤特征參數(shù)、光譜角度分析并結(jié)合聚類的方法,對(duì)松嫩平原土壤進(jìn)行分類[4],戴達(dá)昌對(duì)中國(guó)的現(xiàn)行土壤類型進(jìn)行研究,基于光譜反射率進(jìn)行了光譜分類[5],目前已有很多學(xué)者從事土壤的分類研究,在土壤分類研究的基礎(chǔ)上有很多學(xué)者也在進(jìn)行土壤有機(jī)質(zhì)反演模型的研究,武彥清等通過(guò)最小二乘法和多元逐步回歸方法對(duì)松嫩平原建立土壤有機(jī)質(zhì)高光譜預(yù)測(cè)模型,并具有很高的穩(wěn)定性[6],劉煥軍等利用多元統(tǒng)計(jì)回歸方法,建立黑土有機(jī)質(zhì)含量高光譜預(yù)測(cè)模型,并對(duì)模型的穩(wěn)定性和預(yù)測(cè)能力進(jìn)行檢驗(yàn),得出了歸一化一階微分模型為最優(yōu)預(yù)測(cè)模型[7],吳炳方等基于統(tǒng)計(jì)分析方法研究了光譜分辨率對(duì)黑土有機(jī)質(zhì)預(yù)測(cè)模型精度的影響,得到黑土有機(jī)質(zhì)含量高,土壤有機(jī)質(zhì)的光譜作用范圍寬;黑土有機(jī)質(zhì)光譜預(yù)測(cè)模型精度隨光譜分辨率降低,呈現(xiàn)先增后減的趨勢(shì)[8],該文在前人研究的基礎(chǔ)上選擇松嫩平原土壤作為研究目標(biāo),對(duì)土壤有機(jī)質(zhì)預(yù)測(cè)模型進(jìn)行研究。
東北地區(qū)是我國(guó)重要的商品糧基地,然而隨著近年來(lái)土壤侵蝕、土壤鹽漬化以及荒漠化等土壤退化問(wèn)題的加重,對(duì)東北地區(qū)土壤退化進(jìn)行實(shí)時(shí)、定量、動(dòng)態(tài)宏觀的監(jiān)測(cè)是必要的。因此該文針對(duì)東北地區(qū)尤其是松嫩平原地區(qū)的土壤進(jìn)行聚類以及不同土壤類型的SOM預(yù)測(cè)模型研究,旨在為區(qū)域土壤分類及土壤有機(jī)質(zhì)含量的速測(cè)提供支持。
1.1 研究區(qū)概況
研究區(qū)為位于大、小興安嶺與長(zhǎng)白山脈及松遼分水嶺之間的松嫩平原黑龍江省部分的耕地范圍,它屬于中溫帶大陸性季風(fēng)氣候,雨熱同季,光照充足,土壤類型從東北到西南依次有:草甸土、黑土、黑鈣土、風(fēng)砂土。該區(qū)耕地面積約占63.4%,土質(zhì)肥沃,是我國(guó)重要的商品糧生產(chǎn)基地。作物一年一季,裸土?xí)r間長(zhǎng),晴天多,適于土壤遙感研究。
1.2 土樣采集與處理
結(jié)合土壤圖、春季裸土?xí)r期環(huán)境星、Landsat 8影像、Google Map、DEM,在松嫩平原土壤區(qū)(北安市、杜爾伯特蒙古自治縣、林甸、依安、拜泉、等市縣境內(nèi))采集0~20 cm耕層土樣(選擇該區(qū)典型土壤類型:黑土、黑鈣土、草甸土、風(fēng)砂土)共149個(gè)。如圖1。
圖1 研究區(qū)示意與土壤分布
表1 樣本有機(jī)質(zhì)統(tǒng)計(jì)量
利用GPS測(cè)定采樣點(diǎn)經(jīng)緯度坐標(biāo),在室內(nèi)將土樣風(fēng)干、研磨、過(guò)2 mm篩,采用四分法將土樣分成兩份,分別供化學(xué)分析和光譜測(cè)試用。采用重鉻酸鉀容量法-外加熱法分析有機(jī)質(zhì)含量[9]。室內(nèi)測(cè)定土樣有機(jī)質(zhì)含量如表1。對(duì)采集的土樣有機(jī)質(zhì)含量進(jìn)行測(cè)定并進(jìn)行反射光譜測(cè)試。
1.3 室內(nèi)反射光譜測(cè)試
對(duì)處理加工過(guò)的土樣進(jìn)行光譜測(cè)試,采用ASD FieldSpec3地物光譜儀測(cè)量土壤樣品的反射光譜數(shù)據(jù)。該光譜儀波長(zhǎng)范圍為350~2 500 nm,光譜測(cè)量在一個(gè)能控制光照條件的暗室內(nèi)進(jìn)行。光源為1 000W的鹵素?zé)?,采用的探頭視場(chǎng)角為8°。光源照射方向與垂直方向夾角30°。探頭到土樣表面垂直距離為15 cm,把適量經(jīng)處理的土壤樣品倒入直徑為12 cm,深1.8 cm的盛樣皿中。用玻璃稍稍壓實(shí),使其表面盡量平整。每個(gè)土樣采集10條光譜曲線,取其平均值作為該測(cè)量樣本的光譜數(shù)據(jù)。
1.4 光譜數(shù)據(jù)的處理
利 用 遙 感 軟 件 ENVI5.1的 Spectral Library Resampling功能對(duì)光譜數(shù)據(jù)以5 nm為間隔進(jìn)行重采樣,同時(shí)利用軟件的Continuum Removed功能對(duì)重采樣的數(shù)據(jù)進(jìn)行包絡(luò)線消除法處理,將反射率歸一化到0~1之間,從而使光譜特征更加明顯。數(shù)據(jù)進(jìn)行去包絡(luò)線消除法后對(duì)比圖(圖2)。
圖2 去包絡(luò)線消除法后對(duì)比
1.5 K-均值聚類
1.5.1 指標(biāo)的標(biāo)準(zhǔn)化處理
在進(jìn)行K-均值聚類前,需要對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,即將各個(gè)指標(biāo)值按比例映射到相同的取值區(qū)間,從而能夠平衡各個(gè)屬性對(duì)距離的影響。映射區(qū)間為[0,1]。公式如下:
Zj(i)為第j個(gè)指標(biāo),第i個(gè)樣本的標(biāo)準(zhǔn)化結(jié)果,Xj(i)第j個(gè)指標(biāo),第i個(gè)樣本值,max[Xj(i)]和min[Xj(i)] 分別為第j個(gè)指標(biāo)的最大值和最小值。
1.5.2 K-均值聚類
K-means算法是典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大[1]。采用SPSS來(lái)進(jìn)行該算法的實(shí)現(xiàn)。
1.6 多元逐步回歸
多元線性回歸模型是指含有多個(gè)解釋變量(即含有兩個(gè)或兩個(gè)以上的自變量)的線性回歸模型,用于揭示變量與多個(gè)解釋變量的線性關(guān)系[4],其數(shù)學(xué)模型為:
式中Y為被解釋變量,Xj(j=1,2,3,…,k)為解釋變量,βj(j=0,1,2,3,…,k)為未知參數(shù),μ為隨機(jī)誤差項(xiàng)。該研究采用 SPSS進(jìn)行多元逐步線性回歸。
1.7 模型精度的檢驗(yàn)
模型穩(wěn)定性的判斷指標(biāo)用決定系數(shù)R2檢驗(yàn),預(yù)測(cè)精度評(píng)價(jià)指標(biāo)用均方根誤差(RMSE)判斷越大[9]。其計(jì)算公式為:
式中yi和分別檢驗(yàn)樣本的觀測(cè)值和預(yù)測(cè)值,為樣本觀測(cè)值的平均值,n為預(yù)測(cè)樣本數(shù),其中決定系數(shù)R2的值越接近于1則代表模型的穩(wěn)定性越強(qiáng)。
RMSE的計(jì)算公式如下:
式中yi和分別為檢驗(yàn)樣本的觀測(cè)值和預(yù)測(cè)值,n為預(yù)測(cè)樣本數(shù)。RMSE值越小則代表模型精度越高、預(yù)測(cè)能力越強(qiáng)。
2.1 松嫩平原不同土壤反射光譜特征
將松嫩平原4種典型土壤的光譜反射率進(jìn)行重采樣及去包絡(luò)線處理,為了更好地發(fā)現(xiàn)不同土壤類型的光譜特征,對(duì)每一種土壤光譜反射率及去包絡(luò)線后的數(shù)據(jù)求取均值,代表每一個(gè)土壤類型的平均光譜特征,如圖3。
由圖3可知:在430~930 nm較其他土壤,黑土由于有機(jī)質(zhì)含量較高,受其含量影響,黑土在這一波段的反射率較低,風(fēng)砂土的反射率較高。在去包絡(luò)線前后,4種土壤光譜反射曲線走勢(shì)大致相同,去包絡(luò)線后使數(shù)據(jù)的特征更加明顯,在小于930 nm之前,數(shù)據(jù)更是表現(xiàn)出之前沒(méi)有的特征,且在波長(zhǎng)小于1 400 nm時(shí),黑土曲線表現(xiàn)出下凸的趨勢(shì),風(fēng)砂土則表現(xiàn)為上凸的情況。
2.2 K均值聚類
在土壤有機(jī)質(zhì)含量與光譜數(shù)據(jù)的相關(guān)性分析的基礎(chǔ)上,選出相關(guān)性最大的幾個(gè)波段,并對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,作為K均值聚類的輸入量。利用SPSS軟件進(jìn)行標(biāo)準(zhǔn)化處理及聚類分析,結(jié)果如表2。
圖3 土壤反射率光譜曲線與去包絡(luò)線
表2 聚類分析結(jié)果
表3 分類前后不同土壤有機(jī)質(zhì)含量預(yù)測(cè)多元線性逐步回歸模型
表4 不同土壤有機(jī)質(zhì) 多元逐步回歸模型
圖4 不同類型土壤反射光譜曲線
與實(shí)際的土壤類別對(duì)比后發(fā)現(xiàn):第一類混有87.5%的風(fēng)砂土和12.5%的草甸土,其中風(fēng)砂土占比最大;第二類混有83.3%的草甸土、3.3%的風(fēng)砂土和13.3%的黑鈣土,其中草甸土占比較大;第三類混有76.8%的黑鈣土、 13.4%的風(fēng)砂土以及9.8%的草甸土,其中黑鈣土占比最大;第四類的光譜特征有機(jī)質(zhì)含量偏高,平均有機(jī)質(zhì)含量達(dá)到6.87,其中25個(gè)樣本均為黑土(即86%為黑土)混有部分黑鈣土和草甸土。
根據(jù)聚類后的結(jié)果,以占比多的土壤類型命名該類別,繪制出4類土壤的光譜反射率曲線如圖4。
2.3 多元逐步回歸
以分類前后不同土壤不同波段去包絡(luò)線處理后的土壤數(shù)據(jù)為自變量,以有機(jī)質(zhì)含量為因變量,利用SPSS軟件將全部變量的方差貢獻(xiàn)值按大小進(jìn)行排列,進(jìn)行多元線性逐步回歸分析,選入以及剔除自變量的概率參數(shù)為0.05和0.1,結(jié)果如表3。
由表3可知: 4種土壤類型的預(yù)測(cè)模型R2>0.494,風(fēng)砂土單獨(dú)建模精度高于其他土類,黑鈣土單獨(dú)建模精度低于其他土類。土壤類型的R2多集中于0.8附近,RMSE值<0.877,故模型的適用性較強(qiáng)。
整體看,土樣經(jīng)過(guò)分類以后,多數(shù)土壤的R2得到提高,RMSE值減小,其中黑土、草甸土以及風(fēng)砂土的R2均得到提高,其模型精度高于單一土類建模,同時(shí)4類土壤R2的平均值由分類前的0.762提高到分類后的0.836,RMSE平均值由分類前的0.657到分類后的0.504。
分類后4種土壤的預(yù)測(cè)模型如表4。
在風(fēng)砂土分類中加入了1個(gè)草甸土,風(fēng)砂土單獨(dú)建模時(shí)模型精度高于其他3種土類的模型精度,但當(dāng)風(fēng)砂土與部分的草甸土歸為一類時(shí),其模型精度又有所提高,這說(shuō)明該采樣點(diǎn)的表層草甸土的光譜反射率特征表現(xiàn)出風(fēng)砂土的特征。草甸土分類中加入了部分風(fēng)砂土和黑鈣土,由于黑鈣土與草甸土采樣點(diǎn)相鄰,這部分草甸土?xí)婢吆阝}土和草甸土兩種土壤的光譜反射率特征,因此草甸土的模型精度并未得到顯著的提高,黑鈣土與黑土的分類中,均混有少部分草甸土,說(shuō)明表層草甸土的光譜反射率特征表現(xiàn)出相鄰?fù)翗拥姆瓷渎侍卣鳎C實(shí)了表層草甸土的“向鄰性”。
(1)松嫩平原的4種土壤反射率數(shù)據(jù)去包絡(luò)線處理后均適用于多元逐步回歸模型,其中單一風(fēng)砂土的預(yù)測(cè)模型最好,預(yù)測(cè)精度可達(dá)到0.894,RMSE值為0.336。
(2)經(jīng)過(guò)聚類分析后,4類土壤有機(jī)質(zhì)預(yù)測(cè)模型的精度較單一土壤模型的預(yù)測(cè)精度均得到一定提高,因此可以認(rèn)為對(duì)于土壤有機(jī)質(zhì)含量進(jìn)行預(yù)測(cè)時(shí),先將其進(jìn)行光譜分類是有必要的,故該方法可應(yīng)用于土壤光譜分類,并且有利于土壤有機(jī)質(zhì)含量的速測(cè)。
(3)聚類分析后草甸土預(yù)測(cè)模型精度并未得到顯著提高,主要是由于黑鈣土與草甸土采樣點(diǎn)相鄰,這部分草甸土?xí)婢吆阝}土和草甸土兩種土壤的光譜反射率特征,因此預(yù)測(cè)模型精度不高。
該研究的結(jié)果僅是基于土壤光譜反射率去包絡(luò)線數(shù)據(jù)的K-均值聚類結(jié)果,并未基于土壤光譜特征參數(shù)進(jìn)行聚類分析,因此從不同角度對(duì)土壤進(jìn)行聚類分析從而提高聚類的精度還有待研究。
[1] 劉煥軍,張小康,張新樂(lè),等.面向土壤分類的高光譜反射特征參數(shù)模型.遙感學(xué)報(bào).2017,21(1)105~114
[2] 黃應(yīng)豐,劉騰輝.華南主要土壤類型的光譜特性與土壤分類.土壤學(xué)報(bào).1995.32(1):58~68
[3] 王人潮,蘇海萍,王深法.浙江省主要土壤光譜反射特性及其模糊分類在土壤分類中的應(yīng)用研究.浙江大學(xué)學(xué)報(bào)(農(nóng)業(yè)與生命科學(xué)版).1986
[4] 康冉,劉煥軍.松嫩平原典型土壤有機(jī)質(zhì)高光譜預(yù)測(cè)模型研究.哈爾濱:東北農(nóng)業(yè)大學(xué),2016
[5] 戴昌達(dá).中國(guó)主要土壤光譜反射特性分類與數(shù)據(jù)處理的初步研究.遙感選A集.北京:科學(xué)出版社.1981,5~323
[6] 武彥清,張柏,劉煥軍,等.松嫩平原土壤有機(jī)質(zhì)含量高光譜反演研究.中國(guó)科學(xué)院研究生院學(xué)報(bào).2011,187~194
[7] 劉煥軍,張柏,張興義,等.黑土有機(jī)質(zhì)含量高光譜模型研究.土壤學(xué)報(bào).2007,28~32
[8] 劉煥軍,吳炳方.光譜分辨率對(duì)黑土有機(jī)質(zhì)預(yù)測(cè)模型的影響.光譜學(xué)與光譜分析.2012,739~742
[9] 李勝男,曹萌萌,等.黑土典型區(qū)有機(jī)質(zhì)高光譜預(yù)測(cè)模型.國(guó)土與自然資源研究.2016,(4)