胡曉艷,宋海燕
(山西農(nóng)業(yè)大學工學院,山西太谷030801)
基于支持向量機和近紅外光譜特性的土壤質(zhì)地分類
胡曉艷,宋海燕
(山西農(nóng)業(yè)大學工學院,山西太谷030801)
為了分析不同質(zhì)地土壤的近紅外光譜特性,建立合適的土壤質(zhì)地分類預測模型。研究以沙土、壤土和黏土3種不同類型土壤作為研究對象,采集了山西省內(nèi)3個地區(qū)的土壤樣本共156個,獲取其近紅外光譜數(shù)據(jù),采用支持向量機(SVM)在1 001~2 500 nm波段內(nèi)對不同質(zhì)地土壤的吸光度值進行建模預測。結(jié)果表明,3種質(zhì)地土壤具有不同的光譜反射特性;利用支持向量機建立的土壤分類預測模型,其測試集的預測正確率達到91.67%,說明SVM在土壤分類應用中的效果較好,可以利用SVM模型進行土壤屬性預測。
質(zhì)地;近紅外;SVM
土壤含有豐富的營養(yǎng)物質(zhì),對農(nóng)作物生長有很大影響。實時獲取、了解土壤信息,對提高糧食產(chǎn)量和品質(zhì),實現(xiàn)農(nóng)業(yè)可持續(xù)發(fā)展具有重要意義。與傳統(tǒng)土壤類型識別方法(篩分、沉降)相比,近紅外光譜分析技術(shù)具有易操作、快速、無污染等優(yōu)勢,成為近年來國內(nèi)外土壤屬性檢測的熱點方法之一。
近紅外光譜主要反映有機物中氫基團在近紅外光區(qū)倍頻和合頻的吸收[1],蘊含著豐富的信息。大量研究表明,采用近紅外光譜技術(shù)可以很好地分析和預測土壤中的一些參數(shù)含量[2-4]。而土壤質(zhì)地、粒度等物理屬性的光譜吸收特性,一直被視為干擾土壤定量分析的因素[5-8]。為此,許多學者展開了一系列關(guān)于土壤質(zhì)地、類型等對土壤成分預測影響的研究。宋海燕等[9-11]用近紅外光譜技術(shù)進行不同質(zhì)地土壤參數(shù)預測的研究,結(jié)果表明,土壤質(zhì)地影響其參數(shù)預測精度,并指出分類建??梢蕴岣哳A測精度。目前,采用近紅外光譜技術(shù)對土壤質(zhì)地分類的研究較少,尚未找到一種普遍適用的分類方法,因此,需要不斷優(yōu)化和發(fā)展土壤分類建模方法。
支持向量機(SVM)是VAPNIK等于1992年在統(tǒng)計學理論(statistic learning theory,STL)基礎(chǔ)上提出的一種數(shù)據(jù)處理方法,由于其結(jié)構(gòu)比較簡單,有較好的泛化能力和全局最優(yōu)化的優(yōu)點,被廣泛應用于數(shù)據(jù)分析、模式識別、分類和回歸分析中[12-16]。
筆者嘗試將SVM引入土壤質(zhì)地分類分析,為近紅外光譜在土壤分類研究領(lǐng)域的應用提供參考。
根據(jù)試驗需要,研究區(qū)選在晉中、呂梁和晉北3個地區(qū)。受緯度、氣候、地形等因素影響,山西省各個地區(qū)形成明顯的地帶性土壤類型,晉北位于山西的北端,緯度高,氣候干燥寒冷,晝夜溫差大,年均降水量400 mm,受其氣候影響土壤質(zhì)地粗、砂性大。晉中地區(qū)和呂梁地區(qū),位于山西的中間位置,是濕潤向干旱過渡區(qū)域,氣候溫暖,晝夜溫差小,年均降水量450~600 mm,土壤質(zhì)地呈弱黏化性的淡褐土。
采集以上研究區(qū)5~15 cm深度土壤,共采集156個樣本。將采集的土樣用于實驗室近紅外光譜分析。由于土壤粒度、水分對土壤光譜特性影響較大,因此,在近紅外光譜檢測前,對采回的土樣作如下預處理:將土樣風干并編號;對風干后的土樣經(jīng)標準篩(2.5 mm)處理;把過篩土壤放入烤箱烘干。按各粒級土粒在土壤總質(zhì)量中所占的百分數(shù)[17],將土壤樣本分為51個沙土、51個壤土和54個黏土。
采用ASD公司Field Spec3(波長范圍350~2 500 nm)型光譜儀掃描土壤樣本,測得其反射率光譜,每次操作前使用白板(100%反射率)進行校正。為了排除周圍環(huán)境因素干擾,掃描過程均在室內(nèi)暗箱中進行。測試時將土樣分別放置于培養(yǎng)皿(12.5 cm)中,用直尺將土樣表面抹平,減小土壤表層粗糙度對試驗檢測的影響。采集到的光譜曲線使用ViewSpec 5.0.19軟件進行相關(guān)預處理,最后導出光譜的吸光度值,用于MATLAB(R2010b)實現(xiàn)數(shù)據(jù)分析和SVM建模。
支持向量機(SVM)是以結(jié)構(gòu)風險最小化(SRM準則)為原則的分類器,能夠?qū)Σ煌悩颖具M行劃分[18],最終轉(zhuǎn)化為一個二次規(guī)劃問題,從理論上講可以得到全局最優(yōu)解。圖1所示為二維平面內(nèi)二分類情況,圖中黑點和白點分別代表2類不同樣本的訓練集,H2是把2類樣本準確分類的分類線,且距離H3和H1空隙最大,H2即為所求的最優(yōu)分類線。H3,H1分別是過分類樣本與H2平行的直線,都距分類線距離最近。H3和H1之間的距離是分類空隙(margin)。上述分類線應用到高維空間即為分類面,高維樣本的分類原理與二分類相同。
核函數(shù)的選擇與參數(shù)尋優(yōu)選取對支持向量機模型的建立以及預測精度有很關(guān)鍵的影響,SVM在遇到低維空間不容易進行劃分的向量集時,通常是要把它們通過映射轉(zhuǎn)換到高維空間。選用恰當?shù)暮撕瘮?shù),能夠得到高維空間的分類函數(shù),從而解決計算復雜度的問題。不同的核函數(shù)會使SVM所建模型不同,也就導致SVM算法不同。但是,對核函數(shù)的選擇,現(xiàn)在還沒有一個準確的依據(jù),這仍然是一個需要進一步研究解決的問題。迄今為止,常用的3種核函數(shù)有多項式核函數(shù)、徑向基核函數(shù)(RBF核函數(shù))、Sigmoid核函數(shù)[19]。大量的試驗和研究證明,徑向基核函數(shù)的適應性最廣,在解決問題時不會出現(xiàn)太大偏差,所以,本研究選擇徑向基核函數(shù)。
徑向基核函數(shù)表達式如下。
式中,x為自變量觀測值,xi為自變量實測值,σ為核函數(shù)的寬度。
使用libsvm-3.1-[FarutoUltimate3.1Mcode]工具箱和MATLAB(R2010b)進行參數(shù)尋優(yōu)、SVM模型類型選擇以及樣本分類預測。其中,libsvm軟件包共實現(xiàn)了 C-SVC,one class-SVC,v-SVC,ε-SVR 和V-SVR共5種類型的SVM。這里通過對比分析選取C-SVC模型作為分類預測模型。
由于試驗中所測得的原始數(shù)據(jù)比較龐大,為了方便后面數(shù)據(jù)處理,本研究使用MATLAB軟件進行數(shù)據(jù)歸一化處理,將原始數(shù)據(jù)歸一化到(0,1)。
為了便于判別土壤質(zhì)地分類效果,這里把黏土、壤土和沙土3類土壤分別賦值數(shù)字標簽1,2,3。
為了比較不同質(zhì)地土壤的光譜特性變化趨勢,本研究對3種質(zhì)地土壤的平均吸光度譜進行了分析。
由圖2可知,在可見光區(qū)(380~780 nm)3種質(zhì)地土壤的光譜曲線重疊嚴重,無法從光譜曲線中分辨出土壤類型。在近紅外區(qū),尤其是從1 000 nm開始,不同質(zhì)地土壤的吸光度值明顯不同,其中,以沙土的吸光值最大,黏土次之,壤土最小。此外,3種質(zhì)地土壤的吸光度在整個波段范圍具有相同的變化趨勢,都在 1 400,1 660,1 900,2 200 nm附近出現(xiàn)吸收峰,其中,在1 400,1 900,2 200 nm波段的吸收峰分別是由分層間水(H2O)、羥基(-OH)、與羥基組合的Al-OH和Mg-OH引起的,1 660 nm波段是由土壤有機質(zhì)引起的[20],其吸收峰的高度和寬度隨土壤質(zhì)地的不同有所變化,可用于土壤SVM分類預測分析。
本研究選擇波長范圍在1 001~2 500 nm所測得的吸光度值建模,3類土壤樣本數(shù)據(jù)分別組成51×1 500矩陣、51×1 500矩陣和54×1 500矩陣作為輸入數(shù)據(jù)。將原始數(shù)據(jù)導入MATLAB,創(chuàng)建訓練集以及測試集,訓練集樣本類型的選取直接影響SVM建模的精度,考慮到單一類型土壤建模不能覆蓋全部信息,本研究隨機選取3種質(zhì)地混合樣本120個作為訓練集,其中,黏土、壤土和沙土各40個;36個樣本作為測試集,其中,黏土、壤土和沙土各40個;36個樣本作為測試集,其中,包括14個黏土、11個壤土和11個沙土,利用svmpredict進行測試集仿真預測,所得測試集預測結(jié)果如表1所示。
表1 測試集預測結(jié)果對比
從表1可以看出,只有樣本6,35,36出現(xiàn)預測錯誤,其余樣本吻合度一致,測試集的預測正確率達到91.67%。表明SVM應用在土壤分類預測準確性較高,可以利用SVM模型進行土壤屬性預測。為了直觀地觀察結(jié)果,這里給出測試集預測結(jié)果直觀圖(圖 3)。
本研究利用SVM對所采集的土壤光譜數(shù)據(jù)進行不同質(zhì)地土壤的分類預測。在預測過程中,為了提高預測準確度,已經(jīng)在原始數(shù)據(jù)處理以及樣本選取上做了相關(guān)優(yōu)化工作,所得預測結(jié)果中仍然存在一些樣本誤差。但從大部分樣本預測效果來看,已經(jīng)充分證明了SVM方法在土壤分類預測方面的優(yōu)勢和可行性。本研究的樣本僅取自部分地區(qū)土壤進行分析,所建預測模型受一定范圍的局限,今后可以大范圍采集土樣驗證以上結(jié)論,對支持向量機在土壤分類應用做進一步探索和研究,發(fā)揮其在實際分類問題中的潛力。
[1]嚴衍祿,趙龍蓮,韓東海,等.近紅外光譜分析基礎(chǔ)與應用[M].北京:中國輕工業(yè)出版社,2005:1-3.
[2]劉雪梅.近紅外漫反射光譜檢測土壤有機質(zhì)和速效N的研究[J].中國農(nóng)機化學報,2013(2):202-206.
[3]楊超.基于近紅外光譜技術(shù)的土壤全氮和有機質(zhì)含量估測研究[D].哈爾濱:東北林業(yè)大學,2013.
[4]黃富榮,潘濤,張甘霖,等.應用近紅外漫反射光譜快速測定土壤鋅含量[J].光學精密工程,2010(3):586-592.
[5]武紅旗,范燕敏,何晶,等.不同粒徑土壤的反射光譜對荒漠土壤有機質(zhì)含量的響應[J].草地學報,2014(2):266-270.
[6]楊雪紅.土壤粒徑對土壤光譜特征的影響 [J].科技信息,2010(25):390-391,154.
[7]安曉飛,李民贊,鄭立華,等.土壤水分對近紅外光譜實時檢測土壤全氮的影響研究[J].光譜學與光譜分析,2013(3):677-681.
[8]翟清云,張娟娟,熊淑萍,等.基于不同土壤質(zhì)地的小麥葉片氮含量高光譜差異及監(jiān)測模型構(gòu)建 [J].中國農(nóng)業(yè)科學,2013,46(13):2655-2667.
[9]宋海燕,秦剛,韓小平,等.基于可見光譜的不同質(zhì)地土壤有機質(zhì)快速測定[J].農(nóng)業(yè)機械學報,2012,43(7):69-72.
[10]張娟娟,田永超,朱艷,等.不同類型土壤的光譜特征及其有機質(zhì)含量預測[J].中國農(nóng)業(yè)科學,2009,42(9):3154-3163.
[11]張雪蓮,李曉娜,武菊英,等.不同類型土壤總氮的近紅外光譜技術(shù)測定研究[J].光譜學與光譜分析,2010(4):906-910.
[12]常甜甜.支持向量機學習算法若干問題的研究[D].西安:西安電子科技大學,2010.
[13]鄭立華,李民贊,安曉飛,等.基于近紅外光譜和支持向量機的土壤參數(shù)預測[J].農(nóng)業(yè)工程學報,2010(S2):81-87.
[14]劉江華,陳佳品,程君實.基于Gabor小波特征抽取和支持向量機的人臉識別[J].計算機工程與應用,2003,23(3):81-83.
[15]盛慶凱.基于支持向量機的土壤養(yǎng)分制圖研究[D].重慶:西南大學,2013.
[16]趙汝東,王殿武,陳延華,等.應用支持向量機方法對北京平原糧田區(qū)土壤養(yǎng)分肥力的評價研究 [J].土壤通報,2009(3):513-517.
[17]黃昌勇.土壤學[M].北京:中國農(nóng)業(yè)出版社,2000:77.
[18]張學工.關(guān)于統(tǒng)計學習理論與支持向量機 [J].自動化學報,2000,26(1):33-39.
[19]楊海燕.支持向量機參數(shù)優(yōu)化方法及其應用[D].南寧:廣西民族大學,2010.
[20]王世芳,程旭,宋海燕.水分對土壤有機質(zhì)檢測影響的光譜特性分析及抗水分干擾模型建立 [J].光譜學與光譜分析,2016(10):3249-3253.
Soil Texture Classification Based on Support Vector Machine and Near Infrared Spectral Characteristics
HUXiaoyan,SONG Haiyan
(College of Engineering,Shanxi Agricultural University,Taigu 030801,China)
Toanalyze the near infrared spectral characteristics of different texture soils,a suitable prediction model was established.In this study,3 types of soil were studied,including sand,loam and clay,the 156 soil samples were collected from 3 regions in Shanxi province and the data of the near infrared spectra were obtained.Support vector machine(SVM)was used to model and predict the absorbance value of different texture soils in the 1 001-2 500 nm band.The results showed that three kinds of soil texture had different spectral reflectance characteristics.Soil classification prediction model by using support vector machine,predict accuracy of the test set reached 91.67%,indicating good effect in the application of SVM in soil classification,soil properties can be predicted by the SVM model.
texture;near infrared;SVM
S152.3
A
1002-2481(2017)10-1643-04
10.3969/j.issn.1002-2481.2017.10.17
2017-05-10
國家自然科學基金項目(41201294);山西省科技攻關(guān)項目(20130313010-6)
胡曉艷(1990-),女,山西朔州人,在讀碩士,研究方向:生物環(huán)境測控技術(shù)與裝備。宋海燕為通信作者。