鐘亮,郭熙,國佳欣,韓逸,朱青,熊杏
基于數(shù)據(jù)挖掘技術(shù)的高光譜土壤質(zhì)地分類研究
鐘亮,郭熙,國佳欣,韓逸,朱青,熊杏
(江西農(nóng)業(yè)大學國土資源與環(huán)境學院/江西省鄱陽湖流域農(nóng)業(yè)資源與生態(tài)重點實驗室,南昌 330045)
【】尋找紅壤地區(qū)不同土壤質(zhì)地類型的Vis-NIR光譜反射規(guī)律,通過光譜對土壤質(zhì)地類別進行快速、準確的預測。以江西省奉新縣北部為研究區(qū),245個土壤樣本為研究對象,在國際制土壤質(zhì)地4組和12級兩種分類標準下,首先分析不同土壤質(zhì)地類型的光譜反射率,然后采用9種數(shù)學變換方法和5種機器學習算法相互組合的數(shù)據(jù)挖掘模型,進行土壤質(zhì)地的分類研究,最后對建模準確度最高的混淆矩陣和預測結(jié)果三角坐標分布圖進行分析。(1)不同土壤質(zhì)地之間的光譜反射率存在較多的交叉重疊現(xiàn)象,土壤質(zhì)地與光譜反射率之間的規(guī)律較為復雜;(2)分數(shù)階導數(shù)變換是整數(shù)階導數(shù)的擴展,有助于土壤質(zhì)地的分類,但原始光譜數(shù)據(jù)具有更加豐富的特征信息,更適合進行土壤質(zhì)地分類建模;(3)在對非均衡數(shù)據(jù)集建模時,集成學習方法和神經(jīng)網(wǎng)絡方法都是不錯的選擇;(4)較難通過模型去區(qū)分土壤質(zhì)地分界線附近的類別,其中在4組分類標準下最容易被預測錯誤成黏壤土組,在12級分類標準下最容易被預測錯誤成黏壤土和壤質(zhì)黏土這兩種土壤質(zhì)地類型;(5)在4組分類標準中,進行歸一化處理和MLP模型組合取得了0.68的最高預測準確度,其中黏壤土組的預測準確度能達到0.84;再細分到12級分類后,分類效果最佳的組合來自于原始數(shù)據(jù)和MLP模型,其中壤質(zhì)黏土分類準確度達到了0.89。本研究結(jié)果可為南方紅壤地區(qū)通過高光譜數(shù)據(jù)進行土壤質(zhì)地分類提供參考依據(jù)。
紅壤區(qū);可見光近紅外光譜;土壤質(zhì)地;分類;數(shù)據(jù)挖掘技術(shù)
【研究意義】土壤質(zhì)地是土壤重要的物理性質(zhì)之一,它與土壤保肥能力、保水狀況、通氣性及耕作的難易程度有著密切關(guān)系[1]。不同的土壤質(zhì)地往往具有明顯不同的農(nóng)業(yè)生產(chǎn)性狀,了解土壤的質(zhì)地類型,對農(nóng)業(yè)生產(chǎn)具有指導價值[2]。傳統(tǒng)測定土壤質(zhì)地的方法有比重計法、激光粒度儀法、吸管法和密度計法[3],這些方法耗時耗力,容易出現(xiàn)人為誤差,且無法解釋區(qū)域土壤質(zhì)地的確定問題[4]。近年來,隨著光譜技術(shù)的發(fā)展,為快速獲取土壤屬性信息提供了新的途徑[5]。土壤高光譜技術(shù)以其光譜分辨率高和波段信息豐富的特點,在估測土壤特性上具有強大的優(yōu)勢[6],可節(jié)省大量的人力物力,在精準農(nóng)業(yè)、數(shù)字土壤制圖、土壤資源遙感調(diào)查等工作中起到至關(guān)重要的作用[7]?!厩叭搜芯窟M展】目前國內(nèi)外分別有學者利用遙感影像[8-10]、土壤圖像[11-13]、環(huán)境因子[1,14-17]和便攜式X射線熒光光譜[18]進行土壤質(zhì)地的預測研究,同時都表現(xiàn)出較好的精度。然而,眾多學者利用光譜數(shù)據(jù)預測土壤質(zhì)地時,現(xiàn)有的研究中大部分是進行土壤粒徑的回歸建模[19-23],將得到的各粒徑百分含量再推測出土壤質(zhì)地的類別[4],這樣很難保證單獨預測到的三種粒徑含量總和為100%[24-25],不利于土壤質(zhì)地類別的推測。因此,用光譜數(shù)據(jù)直接進行土壤質(zhì)地的分類建模顯得更加直接和準確[26-27];同時,大部分的研究是尋找特征波段進行建模[5,28-29],基于全譜建模的研究相對較少[30];另外,在對光譜數(shù)據(jù)進行預處理時,常采用整數(shù)階導數(shù)變換[31-32],也有研究使用分數(shù)階導數(shù)變換[33-34]。如今,數(shù)據(jù)挖掘技術(shù)因其能處理高維度數(shù)據(jù),并且能夠快速、準確地建立土壤屬性與光譜反射率之間的關(guān)系模型,廣泛應用在光譜與土壤屬性的建模研究中[35-36]?!颈狙芯壳腥朦c】以江西省奉新縣北部為本研究區(qū),245個紅壤樣本為研究對象,在國際制土壤質(zhì)地4組和12級兩種分類標準下[3],采用包含分數(shù)階導數(shù)在內(nèi)的9種數(shù)學變換方法以及SVM、RF、MLP等5種機器學習算法相互組合的數(shù)據(jù)挖掘模型,利用Vis-NIR光譜進行土壤質(zhì)地分類的研究?!緮M解決的關(guān)鍵問題】以明確高光譜數(shù)據(jù)預測紅壤地區(qū)土壤質(zhì)地類型的建模能力,并且尋找最優(yōu)數(shù)學變換和機器學習算法的組合模型,以期為南方紅壤地區(qū)通過高光譜數(shù)據(jù)進行土壤質(zhì)地分類提供參考依據(jù)。
研究區(qū)位于江西省奉新縣北部,總面積約20 000 hm2,坐標115°03′—115°23′ E,28°40′—28°47′ N,屬中亞熱帶濕潤氣候,年平均降雨量1 612 mm,年平均氣溫17.3℃,海拔介于31—133 m之間。研究區(qū)土地利用類型包括耕地、園地、林地和其他用地,分別占整個研究區(qū)面積的25%、5%、55%和15%。土壤類型主要為紅壤。
土樣的采集時間為2018年7月23日至8月11日,為了保證數(shù)據(jù)的代表性,將研究區(qū)劃分為1 km× 1 km的規(guī)則網(wǎng)格,在各網(wǎng)格內(nèi)隨機選取采樣點,并且充分考慮地理環(huán)境因素,對個別網(wǎng)格進行采樣點加密。在深度為0—30 cm內(nèi)通過5點混合法進行土壤樣本的采集,均勻混合后得到最終樣本。采樣點使用手持GPS儀器獲取并記錄位置,分布如圖1所示,在研究區(qū)內(nèi)共采集了245個樣本,其中耕地97個、林地92個、園地56個。將采回的樣本于實驗室自然風干、研磨后過2 mm篩,并將其均勻分成兩部分,分別用于土壤質(zhì)地和土壤光譜測定。土壤質(zhì)地采用激光衍射法(Beckman Coulter LS230,USA,測試粒徑范圍0.04—2 000 μm)測定[37-39]。本研究采用國際制土壤質(zhì)地分類標準,把土壤質(zhì)地劃分為4組12級,如圖2所示,在國際制土壤質(zhì)地分類三角坐標圖中,3個坐標軸分別為砂粒(2—0.02 mm)、粉粒(0.02—0.002 mm)、黏粒(<0.002 mm)。
圖1 研究區(qū)采樣點分布示意圖
圖2 國際制土壤質(zhì)地分類和土壤樣本示意圖
光譜測量采用美國ASD公司的FieldSpec4地物光譜儀,波長范圍為350—2 500 nm,輸出得到2 151個波段。為避免干擾,在暗室環(huán)境下進行光譜的測量,每次測量前進行標準白板校正,對每個樣本進行不同方向上的5次光譜測量,取5條光譜數(shù)據(jù)的平均值作為土壤樣本的光譜曲線。將信噪比低的邊緣波段350—399 nm和2 451—2 500 nm去除,使用Daubechies6小波進行三層分解,采用軟閾法對光譜數(shù)據(jù)中的高頻系數(shù)進行去噪處理[40-42]。為了降低數(shù)據(jù)維數(shù)和減少冗余度,本研究使用最鄰近法重采樣,對光譜數(shù)據(jù)每10 nm間隔取平均值,每個樣本得到由205個波段組成的光譜曲線。
為尋找光譜數(shù)據(jù)預測土壤質(zhì)地的最佳數(shù)學變換形式,本研究選取了包括原始光譜反射率(R)、歸一化(Normalization)、標準化(Standardization)、0.5階導數(shù)(fractional order derivative,F(xiàn)OD(0.5))、1階導數(shù)(FOD(1))、1.5階導數(shù)(FOD(1.5))、2階導數(shù)(FOD(2))、倒數(shù)的對數(shù)(inverse-log reflectance,ILR)和對數(shù)的導數(shù)(log-derivative reflectance,LDR)共9種土壤光譜數(shù)學變換。這些數(shù)學變換有助于突出光譜特征,在一定程度上能夠提高建模精度,在土壤光譜研究中已經(jīng)得到廣泛應用。其中分數(shù)階導數(shù)變換采用Grünwald-Letnikov算法[43]通過MatlabR2017b編程實現(xiàn)。
1.3.1 建模方法 支持向量機(SVM)基于統(tǒng)計學習理論,通過非線性的核函數(shù)將數(shù)據(jù)映射到高維特征空間,以找出一個超平面作為決策邊界,使模型在數(shù)據(jù)上的分類誤差盡可能小。SVM在解決小樣本、非線性和高維度數(shù)據(jù)集時具有一定的優(yōu)勢[44]。
決策樹(DT)是一種樹形結(jié)構(gòu),通過計算特征的不純度指標,選取不純度最優(yōu)的特征進行樹的分枝,在子節(jié)點上重復分枝過程,直至所有特征分枝完成[45]。決策樹的缺點是容易過擬合,因此,需要對決策樹進行剪枝來提高模型的泛化性,最常用的剪枝策略是限制樹的深度。
集成學習是通過構(gòu)建多個基評估器,采用某種方式集成所有基評估器的結(jié)果,以此來獲取比單個模型更好的建模效果。裝袋法(Bagging)和提升法(Boosting)是使用最廣泛的兩種集成學習算法,裝袋法的核心思想是從訓練集中有放回的隨機選取若干樣本構(gòu)建多個相互獨立的基評估器,然后對基評估器的預測結(jié)果通過平均或者多數(shù)表決原則來決定集成評估器的結(jié)果,其代表模型就是隨機森林(RF)。提升法的基評估器是相關(guān)的,其核心思想是在迭代過程中提高前一輪錯誤評估的樣本權(quán)值,一次次對難以評估的樣本進行預測,從而構(gòu)建一個強評估器,自適應提升算法(AdaBoost)是其代表模型。李勇等[46]的研究綜述表明集成學習在不均衡數(shù)據(jù)集建模時有一定的優(yōu)勢。
多層感知器(MLP)是一種構(gòu)建多隱含層的深度學習模型,通過學習構(gòu)建的深層非線性網(wǎng)絡結(jié)構(gòu),從數(shù)據(jù)集中挖掘潛在的特征規(guī)律,使用非線性的激活函數(shù)提升模型的表達能力,通過優(yōu)化器更新和計算模型參數(shù),經(jīng)過多次迭代不斷地學習使誤差最小,具有從少數(shù)樣本集值學習數(shù)據(jù)集本質(zhì)特征的能力[47]。
1.3.2 精度評價 分別將9種光譜數(shù)學變換的全譜數(shù)據(jù)作為模型的輸入,對土壤質(zhì)地的4組分類和12級分類進行預測,以模型的預測準確度(預測正確的樣本個數(shù)占樣本總數(shù)的比例)作為精度評價指標,經(jīng)過多次重復訓練,選取各模型在不同參數(shù)調(diào)節(jié)下表現(xiàn)出的最高準確度作為建模的結(jié)果,以明確最佳的模型效果,其中SVM模型比較了不同核函數(shù)下的效果;DT、RF和AdaBoost模型比較了不同樹的深度下的效果;MLP模型通過調(diào)節(jié)隱含層個數(shù)、每個隱含層的神經(jīng)元數(shù)、迭代次數(shù)3個參數(shù)比較建模效果?;煜仃囀菣C器學習中總結(jié)分類模型預測結(jié)果的情形分析表,可以更好地了解模型對各類別的區(qū)分情況,特別是在樣本非均衡時,召回率(預測準確的類別個數(shù)占實際該類別總數(shù)的比例)能夠?qū)蝹€類別的預測情況進行分析[48]。
常規(guī)數(shù)據(jù)統(tǒng)計分析軟件使用軟件 ArcGIS 10.2、OriginPro 9.1和 Microsoft Excel 2010,機器學習模型的構(gòu)建在Spyder軟件中通過Python3.7語言編寫腳本調(diào)用Sklearn接口中的機器學習模塊實現(xiàn)。
首先隨機打亂所有樣本的順序,然后將每一類別的樣本按照1、2、3、4的順序重復進行編號,選擇編號為2、3、4的樣本作為訓練數(shù)據(jù)集,編號為1的樣本作為驗證數(shù)據(jù)集,共得到180個訓練樣本,65個驗證樣本。如表1所示,根據(jù)國際制土壤質(zhì)地分類標準的4組12級對所有樣本進行分類,研究區(qū)土壤樣本在4組分類中有壤土組38個、黏壤土組119個和黏土組88個,無砂土組樣本。再細分到12級分類中共有7種土壤質(zhì)地類型,分別為砂質(zhì)壤土29個、壤土9個、砂質(zhì)黏壤土22個、黏壤土81個、粉砂質(zhì)黏壤土16個、粉砂質(zhì)黏土13個和壤質(zhì)黏土75個。
表1 土壤質(zhì)地統(tǒng)計結(jié)果
為比較不同質(zhì)地土壤的光譜特征變化情況,對兩種分類標準下各質(zhì)地的原始光譜數(shù)據(jù)取其平均值進行分析。從圖3中發(fā)現(xiàn),在600、900、1 100和2 100 nm波長附近存在交叉現(xiàn)象,波長大于1 600 nm后黏壤土組和黏土組重疊明顯。在圖4中,也存在較多的交叉重疊現(xiàn)象,可以看出粉砂質(zhì)黏壤土的光譜曲線一直低于粉砂質(zhì)黏土,在1 400—1 900 nm之間壤土和黏壤土重疊非常明顯,砂質(zhì)壤土、砂質(zhì)黏壤土和壤質(zhì)黏土表現(xiàn)得也較為相近,說明土壤質(zhì)地與光譜反射率之間的規(guī)律較為復雜,用光譜反射率去區(qū)分土壤質(zhì)地相對困難,但對其研究是有應用價值的。另外,在900 nm左右有較為明顯的氧化鐵吸收谷,在1 400、1 900和2 200 nm附近存在明顯的水分吸收谷[49],由于樣本經(jīng)過了風干處理,對于建模的影響較小,本研究不作處理,保留光譜預處理后的205個波段進行建模。
圖3 4組分類土壤質(zhì)地反射光譜曲線
2.2.1 4組分類建模結(jié)果比較 在9種數(shù)據(jù)預處理下分別采用5種機器學習模型對土壤質(zhì)地的4組分類進行建模,模型在驗證集上的分類準確度比較如表2所示。從表2中可以看出,所有模型的準確度都在0.5以上,倒數(shù)的對數(shù)變換在使用SVM模型時得到全局最低準確度0.51,進行歸一化處理后使用MLP模型達到0.68的全局最高準確度。原始數(shù)據(jù)在5種模型中的建模準確度都位于0.6以上,并且DT和AdaBoost兩個模型在使用原始數(shù)據(jù)進行建模時都達到了各自方法的最高準確度;除標準化外的其他8種數(shù)學變換都是MLP模型取得最高準確度,并且MLP模型在9種數(shù)學變換中準確度都大于0.62,建模效果較好;SVM和RF模型分別在0.5階和1.5階導數(shù)變換時達到最高準確度為0.65;兩種基于樹模型的集成學習方法AdaBoost和RF在不同數(shù)學變換中建模準確度都大于或者等于單個DT模型,其中AdaBoost在多種數(shù)學變換中都優(yōu)于RF。
圖4 12級分類土壤質(zhì)地反射光譜曲線
表2 9種數(shù)據(jù)處理和5種模型進行土壤質(zhì)地4組分類的準確度比較
選取達到0.68最高準確度時的模型,建立其混淆矩陣如表3所示,預測結(jié)果分布如圖5所示。矩陣中的每一列代表預測值,每一行代表的是實際的土壤質(zhì)地類別,召回率可以知道各土壤質(zhì)地類別的預測準確度,壤土組為0.36(4/11)、黏壤土組為0.84(26/31)、黏土組為0.61(14/23),原始光譜數(shù)據(jù)在進行歸一化處理后對黏壤土組的預測效果最好,其次是黏土組,較難預測壤土組。同時,從表3中可以發(fā)現(xiàn)預測錯誤的樣本絕大部分是樣本數(shù)量多且與實際質(zhì)地相似的類別,由于黏壤土組同時具有壤土組和黏土組的特性,所以壤土組和黏土組最容易預測錯誤成黏壤土組,共有16(7+9)個樣本預測錯誤,占樣本總數(shù)的25%。從圖5中可以看出預測錯誤的類別容易出現(xiàn)在各類別的分界處,較難通過模型去區(qū)分土壤質(zhì)地分界線附近的類別。
表3 歸一化處理和MLP模型混淆矩陣
圖5 歸一化處理和MLP模型預測結(jié)果分布圖
2.2.2 12級分類建模結(jié)果比較 將4組分類的土壤質(zhì)地再細分到12級分類進行建模,模型在驗證集上的分類準確度比較如表4所示。從表中可以看出,由于再將土壤質(zhì)地類別進行細分,模型的準確度都在一定程度上有所降低,較難再用光譜數(shù)據(jù)對土壤質(zhì)地進行區(qū)分。使用原始數(shù)據(jù)在MLP模型中達到0.55的全局最高準確度,0.40的全局最低準確度來自于SVM在進行1階導數(shù)或者對數(shù)的導數(shù)變換;兩種集成學習方法和MLP模型使用原始數(shù)據(jù)建模都取得了最高的準確度;歸一化和標準化處理的效果基本相當;在5種導數(shù)變換中,1.5階導數(shù)變換在除SVM外的其他4種建模方法中準確度都最高;除倒數(shù)的對數(shù)外的其他8種數(shù)學變換都是MLP模型取得最高準確度,并且在所有數(shù)學變換中的準確度都大于0.49,模型表現(xiàn)依然較好;兩種集成學習方法依然在多種數(shù)學變換中都優(yōu)于DT模型,但在0.5階導數(shù)變換時效果不好。從整體來看4組和12級兩次分類,各種機器學習模型的建模效果趨勢基本相同,各數(shù)學變換方法略微有所差異,但依然是原始光譜建模效果較好,分數(shù)階導數(shù)普遍優(yōu)于整數(shù)階導數(shù)變換。
選取原始數(shù)據(jù)和MLP組合的0.55最高準確度時的模型,建立其混淆矩陣如表5所示,預測結(jié)果分布如圖6所示。從召回率可以得到7種土壤質(zhì)地類別的預測準確度,砂質(zhì)壤土為0.38(3/8)、壤土0(0/3)、砂質(zhì)黏壤土為0.17(1/6)、黏壤土為0.67(14/21)、粉砂質(zhì)黏壤土0(0/4)、粉砂質(zhì)黏土為0.25(1/4)、壤質(zhì)黏土為0.89(17/19),原始光譜數(shù)據(jù)和MLP的組合模型對壤質(zhì)黏土的預測效果最好,達到0.89,其次是黏壤土0.67,較難分辨砂質(zhì)壤土、砂質(zhì)黏壤土和粉砂質(zhì)黏土,完全不能區(qū)分壤土和粉砂質(zhì)黏壤土。此時,從表5中可以發(fā)現(xiàn)預測錯誤的樣本除了是與實際質(zhì)地相似的類別外,還容易預測錯誤成樣本數(shù)量較多的類別,如有15個樣本預測錯誤為黏壤土,7個樣本錯分成壤質(zhì)黏土,被預測錯誤的比例分別占了驗證集樣本總數(shù)的23%和11%。結(jié)合圖6,除了仍然在土壤質(zhì)地劃分的邊界處容易預測錯誤外,黏壤土和壤質(zhì)黏土位于三角坐標圖的中心,兩種質(zhì)地同時具有黏土和壤土的特性,最容易被錯分成這兩種質(zhì)地類型。
表4 9種數(shù)據(jù)處理和5種模型進行土壤質(zhì)地12級分類的準確度比較
表5 原始數(shù)據(jù)和MLP模型混淆矩陣
圖6 原始數(shù)據(jù)和MLP模型預測結(jié)果分布圖
通過光譜反射率預測土壤質(zhì)地是高光譜技術(shù)的重要應用,在構(gòu)建模型時,對原始數(shù)據(jù)進行各種數(shù)學變換以及選取合適的建模方法是研究此類問題的關(guān)鍵。目前較多研究表明,進行相應的數(shù)學變換可以提高模型的精度[21,28,30,32],國佳欣等[50]將分數(shù)階導數(shù)應用到有機質(zhì)的回歸建模中,而在分類建模中使用較少,本研究在應用較多的整數(shù)階導數(shù)的基礎上選取了0.5階和1.5階兩個中間段的分數(shù)階導數(shù),結(jié)果表明分數(shù)階導數(shù)建模效果普遍優(yōu)于整數(shù)階導數(shù)。由此可見,在進行光譜數(shù)據(jù)預處理時,不應局限于整數(shù)階導數(shù)變換,進行分數(shù)階導數(shù)變換能將光譜內(nèi)隱含的信息更好的表現(xiàn)出來,以提高建模的精度。但結(jié)合兩次分類結(jié)果來看,原始數(shù)據(jù)由于具有了更加豐富的信息,在多種模型中的建模準確度相較于其他數(shù)學變換方法都最高,更適合預測土壤質(zhì)地,這與王德彩等[31]結(jié)果一致。從建模方法來看,在兩次分類中MLP、AdaBoost和RF模型效果都較好,其中MLP模型因其能更好地挖掘特征之間的內(nèi)在規(guī)律而效果最佳,這也是神經(jīng)網(wǎng)絡模型在光譜建模的研究中廣泛應用的原因[35];AdaBoost和RF模型是以樹模型為基評估器的集成評估器,有著能夠處理高維度數(shù)據(jù)、抗過擬合和泛化能力強的優(yōu)點[51],建模效果要比單個DT模型好。
各種土壤質(zhì)地的光譜曲線形狀基本相似,不同質(zhì)地之間的區(qū)分不明顯,且在數(shù)值上存在較多的交叉重疊現(xiàn)象,說明土壤質(zhì)地與光譜反射率的規(guī)律較為復雜,用光譜反射率去區(qū)分土壤質(zhì)地相對困難。這在預測結(jié)果中也得到了證明,土壤質(zhì)地4組分類的預測精度最高僅為0.68,在12級分類中的最高準確度降至0.55,相較于曾慶猛等[26]的研究結(jié)果4組類0.72的準確度稍低,12級類0.22的準確度高很多。同時,通過兩次分類中取得最高準確度的混淆矩陣和預測結(jié)果三角坐標圖發(fā)現(xiàn),預測錯誤的樣本大部分錯分為與實際質(zhì)地相似的類別,且容易出現(xiàn)在圖中各類別的分界處,這是因為分界附近的各粒徑百分含量很接近,質(zhì)地類型相似,因此光譜反射率也會相差較小,較難通過模型去區(qū)分土壤質(zhì)地分界線附近的質(zhì)地類別。另外,還容易錯分成樣本數(shù)量多的類別,一方面可能是因為在樣本數(shù)量不均衡的情況下,模型在訓練時對樣本數(shù)量多的類別能夠?qū)W習到更多的特征規(guī)律,在驗證集上容易將其他類別錯分成樣本數(shù)量多的類別[52];另一方面4組類的黏壤土組以及12級類的黏壤土和壤質(zhì)黏土都位于三角坐標圖的中心,與多種質(zhì)地邊界相鄰,同時具有黏土和壤土的特性,所以最容易被預測錯誤成這兩種質(zhì)地類型,這與CHAWLA等[53]提到非均衡數(shù)據(jù)集錯誤分類經(jīng)常發(fā)生在類邊界附近相同。
本研究的不足之處在于樣本各土壤質(zhì)地類別存在一定的不均衡問題,但在實際的采樣過程中很難保證樣本的絕對均衡性和代表性。因此,為了提高建模的精度,可以發(fā)掘更好的數(shù)學變換方法,尋找特征波段,嘗試降維處理,使用更好的模型,如當前最熱門的深度學習模型,同時還可以考慮不同土地利用類型下的土壤質(zhì)地分類,這些也是今后需要進一步深入研究的方向。
基于245個紅壤樣本的Vis-NIR光譜,在國際制土壤質(zhì)地4組和12級兩種分類標準下,采用的9種數(shù)學變換方法和5種機器學習算法相互組合的數(shù)據(jù)挖掘模型,進行土壤質(zhì)地的分類研究?;谕寥蕾|(zhì)地4組分類時,歸一化處理和MLP模型組合取得了0.68的最高準確度,其中黏壤土組的預測準確度能達到0.84;再細分到12級分類后,分類效果最佳的組合來自于原始數(shù)據(jù)和MLP模型,其中壤質(zhì)黏土分類準確度達到了0.89。因此,本文的研究結(jié)果表明光譜分析方法快速進行土壤質(zhì)地分類是可行的,同時為非均衡數(shù)據(jù)集分類建模在方法和思路上提供一定的參考。
[1] Greve M H, Kheir R B, Greve M B, B?CHER P K. Quantifying the ability of environmental parameters to predict soil texture fractions using regression-tree model with GIS and LIDAR data: The case study of Denmark., 2012, 18: 1-10.
[2] Shahriari M, Delbari M, Afrasiab P, PAHLAVAN-Rad M R. Predicting regional spatial distribution of soil texture in floodplains using remote sensing data: A case of southeastern Iran., 2019, 182: 104149.
[3] 吳克寧, 趙瑞. 土壤質(zhì)地分類及其在我國應用探討. 土壤學報, 2019, 56(1): 227-241.
WU K N, ZHAO R. Soil texture classification and its application in China., 2019, 56(1): 227-241. (in Chinese)
[4] 張娜, 張棟良, 李立新, 屈忠義. 基于高光譜的區(qū)域土壤質(zhì)地預測模型建立與評價——以河套灌區(qū)解放閘灌域為例. 干旱區(qū)資源與環(huán)境, 2014, 28(5): 67-72.
ZHANG N, ZHANG D L, LI L X, QU Z Y. Establishment and evaluation of model for predicting soil texture based on hyperspectral data—Case study of Jiefangzha irrigation area in Hetao irrigation district., 2014, 28(5): 67-72. (in Chinese)
[5] 喬天, 呂成文, 肖文憑, 呂凱, 水宏偉. 基于遺傳算法的土壤質(zhì)地高光譜預測模型研究. 土壤通報, 2018, 49(4): 773-778.
QIAO T, Lü C W, XIAO W P, Lü K, SHUI H W. Hyperspectral prediction modeling of soil texture based on genetic algorithm., 2018, 49(4): 773-778. (in Chinese)
[6] 于雷, 洪永勝, 周勇, 朱強, 徐良, 李冀云, 聶艷. 高光譜估算土壤有機質(zhì)含量的波長變量篩選方法. 農(nóng)業(yè)工程學報, 2016, 32(13): 95-102.
YU L, HONG Y S, ZHOU Y, ZHU Q, XU L, LI J Y, NIE Y. Wavelength variable selection methods for estimation of soil organic matter content using hyperspectral technique., 2016, 32(13): 95-102. (in Chinese)
[7] 史舟, 王乾龍, 彭杰, 紀文君, 劉煥軍, 李曦. 中國主要土壤高光譜反射特性分類與有機質(zhì)光譜預測模型. 中國科學:地球科學, 2014, 44(5): 978-988.
SHI Z, WANG Q L, PENG J, JI W J, LIU H J, LI X. Classification of hyperspectral reflectance characteristics and prediction model of organic matter spectra of main soils in China., 2014, 44(5): 978-988. (in Chinese)
[8] Müller B Bernhardt M, Jackisch C, SCHULZ K. Estimating spatially distributed soil texture using time series of thermal remote sensing & ndash: a case study in central Europe., 2016, 20(9): 3765-3775.
[9] SayAo V M, DemattêJéA M. Soil texture and organic carbon mapping using surface temperature and reflectance spectra in Southeast Brazil., 2018, 14: e174.
[10] Zhai Y s, Thomasson J A, Boggess J E, SUI R X. Soil texture classification with artificial neural networks operating on remote sensing data., 2006, 54(2): 53-68.
[11] Zhao Z y, Chow T L, Rees H W, YANG Q, XING Z S, MENG F R. Predict soil texture distributions using an artificial neural network model., 2009, 65(1): 36-48.
[12] Chung S O, Cho K H, Kong J W, JUNG K Y. Soil Texture classification algorithm using RGB characteristics of soil images., 2010, 43(26): 34-38.
[13] Barman U, Choudhury R D. Soil texture classification using multi class support vector machine., 2020, 7(2): 318-332.
[14] Wu W, Li A D, He X H, MA R, LIU H B, Lü J K. A comparison of support vector machines, artificial neural network and classification tree for identifying soil texture classes in southwest China., 2018, 144: 86-93.
[15] Adhikari K, Kheir R B, Greve M B, B?CHER P K, MALONE B P, MINASNY B, MCBRATNEY A B, GREVE M H. High-resolution 3-D mapping of soil texture in denmark., 2013, 77(3): 860-876.
[16] Lie M, Glaser B, Huwe B. Uncertainty in the spatial prediction of soil texture., 2012,170:70-79.
[17] 孫艷俊, 張甘霖, 楊金玲, 趙玉國. 基于人工神經(jīng)網(wǎng)絡的土壤顆粒組成制圖. 土壤, 2012, 44(2): 312-318.
SUN Y J, ZHANG G L, YANG J L, ZHAO Y G. Mapping of soil particle composition based on artificial neural network., 2012, 44(2): 312-318. (in Chinese)
[18] Silva S H G, Weindorf D C, Pinto L C, FARIA W M, JUNIOR F W A, GOMIDE L R, MELLO J M D, JUNIOR A L D P, SOUZA I A D, TEIXEIRA A F D S, GUILHERME L R G, CURI N. Soil texture prediction in tropical soils: A portable X-ray fluorescence spectrometry approach., 2020, 362: 114136.
[19] Bao N s, Liu S j, Zhou Y c. Predicting particle-size distribution using thermal infrared spectroscopy from reclaimed mine land in the semi-arid grassland of North China., 2019, 183: 104190.
[20] Peng Y, Knadel M, Gislum Ré, SCHELDE K, THOMSEN A, GREVE M H. Quantification of SOC and clay content using visible Near-Infrared Reflectance-Mid-Infrared reflectance spectroscopy with Jack-Knifing partial least squares regression., 2014: 179(7): 325-332.
[21] 王德彩, 蔚霖, 張俊輝, 楊紅震, 黃家榮, 孫孝林. 基于正交信號校正的Vis-NIR光譜土壤質(zhì)地預測. 河南農(nóng)業(yè)大學學報, 2017(3): 408-413.
WANG D C, WEI L, ZHANG J H, YANG H Z, HUANG J R, SUN X L. Prediction of soil texture using Vis-NIR spectra based on orthogonal signal correction., 2017(3): 408-413. (in Chinese)
[22] 王德彩, 鄔登巍, 趙明松, 張甘霖. 平原區(qū)土壤質(zhì)地的反射光譜預測與地統(tǒng)計制圖. 土壤通報, 2012, 43(2): 257-262.
WANG D C, WU D W, ZHAO M S, ZHANG G L. Prediction and mapping of soil texture of a plain area using reflectance spectra and geo-statistics., 2012, 43(2): 257-262. (in Chinese)
[23] 沈掌泉, 單英杰, 王珂. 田間行走式測定的紅外光譜數(shù)據(jù)與土壤質(zhì)地之間的相關(guān)性研究. 光譜學與光譜分析, 2009, 29(6): 1526-1530.
SHEN Z Q, DAN Y J, WANG K. Study on relationship between on-the-go near-infrared spectroscopy and soil texture., 2009, 29(6): 1526-1530. (in Chinese)
[24] Amirian-Chakan A Minasny B, Taghizadeh-Mehrjardi R, AKBARIFAZLI R, DARVISHPASAND Z, KHORDEHBIN S. Some practical aspects of predicting texture data in digital soil mapping., 2019, 194: 104289.
[25] Lark R M, Bishop T F A. Cokriging particle size fractions of the soil., 2007, 58(3): 763-774.
[26] 曾慶猛, 孫宇瑞, 嚴紅兵. 土壤質(zhì)地分類的近紅外光譜分析方法研究. 光譜學與光譜分析, 2009, 29(7): 1759-1763.
ZENG Q M, SUN Y R, YAN H B. NIR spectral analysis for soil textural classification., 2009, 29(7): 1759-1763. (in Chinese)
[27] 胡曉艷, 宋海燕. 基于支持向量機和近紅外光譜特性的土壤質(zhì)地分類. 山西農(nóng)業(yè)科學, 2017, 45(10): 1643-1645.
HU X Y, SONG H Y. Soil texture classification based on support vector machine and near infrared spectral characteristics., 2017, 45(10): 1643-1645. (in Chinese)
[28] 白燕英, 魏占民, 劉全明, 郭桂蓮,劉霞. 基于高光譜的河套灌區(qū)農(nóng)田表層土壤質(zhì)地反演研究. 地理與地理信息科學, 2013, 29(5): 68-71.
BAI Y Y, WEI Z M, LIU Q M, GUO G L, LIU X. Surface soil texture of field inverted using hyper-spectrum in Hetao irrigation., 2013, 29(5): 68-71. (in Chinese)
[29] Salazar D F U, Dematt JéA M, Vicente L E, GUIMARAES C C B, SAYAO V M, CERRI C E P, PADILHA M C D C, MENDES W D S. Emissivity of agricultural soil attributes in southeastern Brazil via terrestrial and satellite sensors., 2020,361: 114038.
[30] 黃明祥, 程街亮, 王珂, 龔建華,李洪義,史舟. 海涂土壤高光譜特性及其砂粒含量預測研究. 土壤學報, 2009, 46(5): 932-937.
HUANG M X, CHENG J L, WANG K, GONG J H, LI H Y, SHI Z. Coastal soil hyperspectral characteristics and soil sand content prediction., 2009, 46(5): 932-937. (in Chinese)
[31] 王德彩, 張俊輝. 基于Vis-NIR光譜的土壤質(zhì)地BP神經(jīng)網(wǎng)絡預測. 天津農(nóng)業(yè)科學, 2015, 21(8): 6-9.
WANG D C, ZHANG J H. Estimation of soil texture based on Vis-NIR spectroscopy and BP neural network., 2015, 21(8): 6-9. (in Chinese)
[32] 李春蕾, 許端陽, 陳蜀江. 基于高光譜遙感的新疆北疆地區(qū)土壤砂粒含量反演研究. 干旱區(qū)地理, 2012, 35(3): 473-478.
LI C L, XU D Y, CHEN S J. Soil sand content retrieving of bare soil in north Xinjiang based on hyper-spectral remote sensing., 2012, 35(3): 473-478. (in Chinese)
[33] Tong P j, Du Y p, Zheng K y, WU T, WANG J J. Improvement of NIR model by fractional order Savitzky-Golay derivation(FOSGD) coupled with wavelength selection., 2015, 143: 40-48.
[34] 王敬哲, 塔西甫拉提·特依拜, 丁建麗, 張東,劉巍. 基于分數(shù)階微分預處理高光譜數(shù)據(jù)的荒漠土壤有機碳含量估算. 農(nóng)業(yè)工程學報, 2016, 32(21): 161-169.
WANG J Z, TASHPOLAT TIYIP, DING J L, ZHANG D, LIU W. Estimation of desert soil organic carbon content based on hyperspectral data preprocessing with fractional differential., 2016, 32(21): 161-169. (in Chinese)
[35] Xu Z, Zhao X m, Guo X, GUO J X. Deep learning application for predicting soil organic matter content by Vis-NIR spectroscopy., 2019, 2019: 1-11.
[36] 紀文君, 李曦, 李成學, 周銀,史舟. 基于全譜數(shù)據(jù)挖掘技術(shù)的土壤有機質(zhì)高光譜預測建模研究. 光譜學與光譜分析, 2012(9): 91-96.
JI W J, LI X, LI C X, ZHOU Y, SHI Z. Using different data mining algorithms to predict soil organic matter based on visible-near infrared spectroscopy., 2012(9): 91-96. (in Chinese)
[37] Eshel G, Levy G J, Mingelgrin U, SINGER M J. Critical evaluation of the use of laser diffraction for particle-size distribution analysis., 2004, 68(3): 736.
[38] 楊金玲, 張甘霖, 李德成, 潘繼花. 激光法與濕篩-吸管法測定土壤顆粒組成的轉(zhuǎn)換及質(zhì)地確定. 土壤學報, 2009(5): 22-30.
YANG J L, ZHANG G L, LI D C, PAN J H. Relationships of soil particle size distribution between sieve-pipetie and laser diffraction methods., 2009(5): 22-30. (in Chinese)
[39] 李學林, 李福春, 陳國巖, 謝昌仁, 王金平, 李文靜. 用沉降法和激光法測定土壤粒度的對比研究. 土壤, 2011(1): 132-136.
LI X L, LI M C, CHEN G Y, XIE C R, WANG J P, LI W J. Comparative study on grain-size measured by laser diffraction and sedimentation techniques., 2011(1): 132-136. (in Chinese)
[40] 史舟. 土壤地面高光譜遙感原理與方法. 北京: 科學出版社, 2014: 61-63.
SHI Z.. Beijing: Science Press, 2014: 61-63. (in Chinese)
[41] Hu Y g, Jiang T, Shen A g, LI W, WANG X, HU J. A background elimination method based on wavelet transform for Raman spectra., 2007, 85(1): 94-101.
[42] 馬翠紅, 劉立業(yè). 基于小波分析的光譜數(shù)據(jù)處理. 冶金分析, 2012, 32(1): 34-37.
Ma C H, Liu L Y. Spectral data processing based on wavelet analysis., 2012, 32(1): 34-37. (in Chinese)
[43] Benkhettou N, CRUZ A M C B D, Torres D F M. A fractional calculus on arbitrary time scales: Fractional differentiation and fractional integration., 2015, 107: 230-237.
[44] 丁世飛, 齊丙娟, 譚紅艷. 支持向量機理論與算法研究綜述. 電子科技大學學報, 2011, 40(1): 2-10.
DING S F, QI B J, TAN H Y. An overview on theory and algorithm of support vector machines., 2011, 40(1): 2-10. (in Chinese)
[45] 劉勇洪, 牛錚, 王長耀. 基于MODIS數(shù)據(jù)的決策樹分類方法研究與應用. 遙感學報, 2005(4): 405-412.
LIU Y H, NIU Z, WANG C Y. Research and application of the decision tree classification using MODIS data., 2005(4): 405-412. (in Chinese)
[46] 李勇, 劉戰(zhàn)東, 張海軍. 不平衡數(shù)據(jù)的集成分類算法綜述. 計算機應用研究, 2014, 31(5): 1287-1291.
LI Y, LIU Z D, ZHANG H J. Review on ensemble algorithms for imbalanced data classification., 2014, 31(5): 1287-1291. (in Chinese)
[47] 孫志軍, 薛磊, 許陽明, 王正. 深度學習研究綜述. 計算機應用研究, 2012, 29(8): 2806-2810.
SUN Z J, XUE L, XU Y M, WANG Z. Overview of deep learning.2012, 29(8): 2806-2810. (in Chinese)
[48] Xu J f, Zhang Y j, Miao D q. Three-way confusion matrix for classification: a measure driven view., 2020, 507: 772-794.
[49] 趙小敏, 楊梅花. 江西省紅壤地區(qū)主要土壤類型的高光譜特性研究. 土壤學報, 2018, 55(1): 31-42.
ZHAO X M, YANG M H. Hyper-spectral characteristics of major types of soils in red soil region of Jiangxi Province, China., 2018, 55(1): 31-42. (in Chinese)
[50] 國佳欣, 趙小敏, 郭熙, 徐喆, 朱青, 江葉楓. 基于PLSR-BP復合模型的紅壤有機質(zhì)含量反演研究. 土壤學報, 2020, 57(3): 636-645.
GUO J X, ZHAO X M, GUO X, XU Z, ZHU Q, JIANG Y F. Inversion of organic matter content in red soil based on PLSR-BP composite model., 2020, 57(3): 636-645. (in Chinese)
[51] 方匡南, 吳見彬, 朱建平, 謝邦昌. 隨機森林方法研究綜述. 統(tǒng)計與信息論壇, 2011, 26(3): 32-38.
FANG K N, WU J B, ZHU J P, XIE B C. A review of technologies on random forests., 2011, 26(3): 32-38. (in Chinese)
[52] 葉志飛, 文益民, 呂寶糧. 不平衡分類問題研究綜述. 智能系統(tǒng)學報, 2009, 4(2): 148-156.
YE Z F, WEN Y M, Lü B L. A survey of imbalanced pattern classification problems.2009, 4(2):148-156. (in Chinese)
[53] ChAWLA N V, JAPKOWICZ N, KOTCZ A. Editorial: Special issue on learning from imbalanced data sets., 2004, 6(1): 1-6.
Soil Texture Classification of Hyperspectral Based on Data Mining Technology
ZHONG Liang, GUO Xi, GUO JiaXin, HAN Yi, ZHU Qing, XIONG Xing
(College of Land Resources and Environment, Jiangxi Agricultural University/Key Laboratory of Poyang Lake Watershed Agricultural Resources and Ecology of Jiangxi Province, Nanchang 330045)
【】 The aim of this study was to find the reflection law of Vis-NIR spectra of different soil texture types in red soil region, and to quickly and accurately predict the soil texture type by the spectrum.【】 Taking the north of Fengxin County in Jiangxi Province as the research area, 245 soil samples were taken as the research objects. Under the 4 groups and 12 levels of international soil texture classification standards, the spectral reflectance of different soil texture types was analyzed first, then the data mining models combining 9 mathematical transformation methods and 5 machine learning algorithms were used to classify the soil texture, and finally analysis of the confusion matrix with the highest modeling accuracy and the triangular coordinate distribution map of prediction results. 【】 (1) There were many overlaps and overlaps in the spectral reflectance between different soil textures, and the law between the soil texture and the spectral reflectance was more complicated. (2) Fractional derivative transformation was an extension of the integer derivative, which was helpful for the classification of soil texture, but the original spectral data had more abundant feature information and was more suitable for the classification of soil texture. (3)Both ensemble learning methods and neural network methods were good choices when modeling unbalanced data sets. (4) It was difficult to distinguish the categories near the boundary of soil texture by using the model. Among them, clay loam group was the most likely to be predicted wrongly under the four classification standards, and clay loam and loamy clay were the two most likely to be predicted wrongly under the 12 classification standards. (5) Among the four groups of classification standards, the highest prediction accuracy (at 0.68) was obtained by the combination of normalization treatment and MLP model, and the prediction accuracy of clay loam group could reach 0.84. After subdivision to 12 levels classification, the best classification result came from combination of original data and MLP model, and the classification accuracy of loamy clay was 0.89. 【】 The results of this study could provide a reference for soil texture classification by using hyperspectral data.
red soil region; Vis-NIR spectroscopy; soil texture; classification; data mining technology
10.3864/j.issn.0578-1752.2020.21.013
2020-02-22;
2020-03-18
國家自然科學基金項目(41361049)、國家重點研發(fā)計劃項目(2017YFD0301603)
鐘亮,E-mail:zhongliang1007@163.com。通信作者郭熙,E-mail:xig435@163.com
(責任編輯 李云霞)