蘆倩,趙維俊,黃鑫
(1. 甘肅農(nóng)業(yè)大學(xué)資源與環(huán)境學(xué)院,甘肅 蘭州 730070;2. 甘肅省祁連山水源涵養(yǎng)林研究院,甘肅 張掖 734000;3. 甘肅農(nóng)業(yè)大學(xué)管理學(xué)院,甘肅 蘭州 730070)
土壤在人類生活及各項農(nóng)業(yè)生產(chǎn)活動中發(fā)揮著不可替代的作用,是重要的自然資源。人們通過傳統(tǒng)的土壤調(diào)查認(rèn)識土壤,獲取土壤信息,并且借助常規(guī)繪圖工具完成土壤制圖。這種方法不僅工作周期長,而且耗費(fèi)大量人力,無法保證數(shù)據(jù)時效性,使制圖準(zhǔn)確性受到影響。近年來,隨著信息技術(shù)、地理信息系統(tǒng)及遙感技術(shù)、衛(wèi)星導(dǎo)航定位技術(shù)的快速發(fā)展,數(shù)字土壤制圖逐漸表現(xiàn)出其優(yōu)良的制圖能力。數(shù)字土壤制圖是基于土壤?景觀模型,借助地理信息系統(tǒng)中的空間分析方法和數(shù)學(xué)規(guī)則,模擬出土壤類型和不同屬性在空間上的分布情況[1]。根據(jù)土壤?景觀模型相關(guān)理論及五大成土因素理論,土壤的性質(zhì)與氣候、地形、母質(zhì)、時間、生物等因素密不可分,因此數(shù)字制圖將這些環(huán)境因素作為協(xié)同變量,輔助制作土壤類型圖、土壤性質(zhì)圖等。
數(shù)字土壤制圖研究發(fā)展迅速,基于環(huán)境協(xié)同變量構(gòu)建的土壤類型或土壤性質(zhì)制圖模型層出不窮。諸如神經(jīng)網(wǎng)絡(luò)模型[2-3]、廣義線性模型[4-5]、分類回歸樹模型[6]等。趙明松[7]基于地理加權(quán)回歸方法構(gòu)建土壤有機(jī)質(zhì)空間模型,發(fā)現(xiàn)該模型在大尺度區(qū)域更具優(yōu)勢,并且相較傳統(tǒng)的全局回歸模型,建模結(jié)果精度更高。任麗[8]等選擇隨機(jī)森林模型對蘋果區(qū)土壤有機(jī)質(zhì)含量進(jìn)行預(yù)測,發(fā)現(xiàn)該方法在研究區(qū)適用。楊煜岑[9]等人通過多元線性回歸預(yù)測方法,將研究區(qū)不同的環(huán)境影響因子進(jìn)行篩選建模,最終對土壤養(yǎng)分進(jìn)行了空間預(yù)測,并得到較為理想的結(jié)果。過往的研究也表明神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建結(jié)果不易解釋,不能得到較為理想的結(jié)果。廣義線性模型的使用主要考慮土壤屬性和環(huán)境因子在非正態(tài)分布狀態(tài)下。決策樹的基本思想是分類與回歸。它可以依據(jù)樣本數(shù)據(jù)通過建立分類規(guī)則來構(gòu)建決策樹模型。韓浩武等[10]通過決策樹算法構(gòu)建了土壤?環(huán)境關(guān)系模型,基于模型實現(xiàn)了研究區(qū)的土壤類型預(yù)測,結(jié)果精度較傳統(tǒng)土壤圖有明顯提升。決策樹算法眾多,如ID3,C5.0,CART 等,可提供多種選擇進(jìn)行研究,其分類精度高,可讀性強(qiáng),而且速度較快。因此被廣泛應(yīng)用在各個領(lǐng)域,如水質(zhì)監(jiān)測[11]、生態(tài)環(huán)境預(yù)測[12-14]、土壤屬性制圖[14-16]等。此外還有支持向量機(jī)、專家知識模型等方法運(yùn)用在數(shù)字土壤制圖中。
研究選擇在祁連山排露溝流域開展。長久以來,該流域土壤調(diào)查工作大多基于傳統(tǒng)的土壤調(diào)查方法,對土壤類型的分布研究多利用地形圖及航片等資料進(jìn)行判讀,制圖方法耗時耗力,制圖精度不高。但土壤類型的研究一方面可以讓人們直觀認(rèn)識其空間分布狀況,另一方面影響著研究區(qū)土地利用、植被恢復(fù)和水土流失等。因此只有明確表達(dá)土壤類型在空間上的分布情況,才能夠有效開展土壤資源的科學(xué)規(guī)劃。本研究在研究區(qū)進(jìn)行野外土壤采樣,利用數(shù)字土壤制圖方法繪制高精度土壤分類圖,打破傳統(tǒng)土壤制圖方法的局限性,保證土壤數(shù)據(jù)的時效性,提高制圖精度?;诟叻直媛蔬b感影像數(shù)據(jù)及研究區(qū)數(shù)字高程模型,提取遙感光譜指數(shù)和地形因子等環(huán)境協(xié)同變量,采用C5.0決策樹算法、CART決策樹算法及支持向量機(jī)方法對研究區(qū)土壤類型分別進(jìn)行高精度數(shù)字土壤制圖,并對制圖結(jié)果進(jìn)行評價對比,旨在探索適用于研究區(qū)的數(shù)字土壤制圖模型,為研究區(qū)土壤調(diào)查提供新的技術(shù)手段,對流域植被恢復(fù)和水源涵養(yǎng)提供空間數(shù)據(jù)支持和科學(xué)依據(jù)。
排露溝流域(N 38°32′~38°33′,E 100°17′~100°18′,)位于祁連山中段西水林區(qū),海拔在2 600~3 800 m 之間,縱坡比降1∶4.2,流域面積2.71 km2。該區(qū)屬大陸性高寒山地森林草原氣候。根據(jù)祁連山西水生態(tài)站多年統(tǒng)計資料顯示,該流域年均氣溫-0.6~2.0 ℃;年均降水量291.3~453.8 mm,多集中在5~9 月;年均蒸發(fā)量1 081.7 mm;年均日照時數(shù)1 895 h;日輻射總量110.28 kW/m2;年均相對濕度60%[17]。研究中用到的DEM 數(shù)據(jù)來源于國家青藏高原科學(xué)數(shù)據(jù)中心,是從大野口流域1 m 分辨率的DEM裁剪獲得。國產(chǎn)“高分二號(GF-2)”遙感影像數(shù)據(jù)分辨率為1 m,其不僅具有優(yōu)越的空間分辨率,而且定位精度準(zhǔn)確,對于排露溝流域這種小尺度研究區(qū),選擇高分辨率影像尤為重要。本次研究中遙感影像成像時間為2015年12月3日。
排露溝流域土壤類型主要有山地栗鈣土、山地森林灰褐土和亞高山灌叢草甸土3類。在流域海拔2 700~3 300 m的陰坡和半陰坡區(qū)域,分布著建群種青海云杉,其土壤類型為山地森林灰褐土。草地主要分布在2 700~2 900 m的陽坡和半陽坡,土壤類型為山地栗鈣土。流域高海拔3 300~3 800 m 的土壤類型多為亞高山灌叢草甸土。本次研究對流域內(nèi)不同植被類型下的土壤進(jìn)行采樣。為了力求采樣點(diǎn)分布均勻,并保證采樣的合理性,首先基于研究區(qū)GF-2 數(shù)據(jù)對流域植被采用面向?qū)ο蟮母叻直媛蔬b感影像分類方法進(jìn)行分類。該方法能夠最大程度地基于圖像信息和目標(biāo)劃分地理對象,同時借助于光譜統(tǒng)計特征、圖像形狀、大小、影像紋理、空間關(guān)系等眾多因素,進(jìn)行高精度的對象分類。分類操作在eCogni?tion 8.7軟件中完成,多次試驗后,在影像分割時確定波段權(quán)重全為1,分割尺度為100,形狀指數(shù)0.2,緊致度因子0.5。光譜差異分割進(jìn)一步對相鄰分割對象進(jìn)行光譜特征分析,最終設(shè)定光譜差異最大值為70,有效避免了“過分割”現(xiàn)象。特征參數(shù)選擇歸一化植被指數(shù)NDVI和改進(jìn)后的歸一化水體MNDWI進(jìn)行特征計算,最終借助面向?qū)ο笞钹徑▽⒅脖活愋头譃榍嗪T粕?、灌叢、草地及裸巖四種類型,如圖1所示。因高海拔地區(qū)地形復(fù)雜,常用的規(guī)則網(wǎng)格采樣法實施起來難度較大,根據(jù)植被空間分布圖和DEM數(shù)據(jù),借助研究區(qū)《土壤志》等數(shù)據(jù)材料,采用非等間距不規(guī)則網(wǎng)格布點(diǎn)法,在不同高程、坡向上均進(jìn)行了樣點(diǎn)采集,并通過手持GPS記錄了樣點(diǎn)經(jīng)緯度。其中,青海云杉林下共采集45個山地灰褐土類型樣點(diǎn);草地35個,為山地栗鈣土類型樣點(diǎn);灌叢33個,為亞高山灌叢草甸土類型樣點(diǎn),共計113個采樣點(diǎn),其中80 個用于土壤類型制圖,33 個用于制圖結(jié)果驗證。圖1為樣點(diǎn)分布圖。
圖1 采樣點(diǎn)的空間分布Figure 1 Spatial distribution of sampling points
排露溝流域面積較小,過去的研究中形成了大量的野外土壤調(diào)查文檔數(shù)據(jù),有關(guān)土壤類型空間制圖的研究較少,因此研究區(qū)沒有形成傳統(tǒng)的土壤類型分布圖。為了便于和后續(xù)研究中基于機(jī)器學(xué)習(xí)產(chǎn)生的土壤類型預(yù)測圖進(jìn)行對比,所以對研究區(qū)野外土壤類型采樣點(diǎn)進(jìn)行空間插值,基于克里金插值方法得到的圖2作為傳統(tǒng)土壤類型圖,將在下文中和其他預(yù)測方法結(jié)果進(jìn)行對比。
圖2 傳統(tǒng)土壤分類Figure 2 Conventional soil map
不同的環(huán)境條件造就了各異的土壤屬性。數(shù)字土壤制圖中,影響土壤環(huán)境差異的地理變量可以輔助預(yù)測土壤性質(zhì)的空間變化,這些變量即為環(huán)境協(xié)同變量[1]。母質(zhì)、氣候、生物和地形等因素都能夠作為環(huán)境協(xié)同變量。土壤母質(zhì)信息一般較難獲得,因此研究中用地貌信息代替[1]。由于排露溝流域尺度較小,因此沒有考慮氣候因素,認(rèn)為其影響是均質(zhì)的,研究中主要借助地形因素來體現(xiàn)局域氣候?qū)ν寥腊l(fā)育的影響。生物因素在文中主要通過流域內(nèi)的植被來綜合反映。綜上,本次研究中環(huán)境協(xié)同變量的選擇主要從影響土壤空間變化的強(qiáng)度及信息獲取的難易程度這兩方面考慮。首先,基于排露溝流域DEM 數(shù)據(jù)提取相關(guān)地形要素。包括高程、坡度、坡向、平面曲率、剖面曲率和地形濕度指數(shù)(TWI)。其次,根據(jù)GF-2 裁剪出的研究區(qū)遙感影像,計算遙感光譜指數(shù)。其中遙感光譜指數(shù)中的紋理特征能夠表現(xiàn)研究對象自身的屬性,所以在影像分類中起到關(guān)鍵的作用。環(huán)境協(xié)同變量的具體選取情況見表1。
表1 環(huán)境協(xié)同變量的選取Table 1 Selection of environmental covariates
1.4.1 環(huán)境協(xié)同變量篩選 根據(jù)采樣點(diǎn)的空間分布情況,提取各個采樣點(diǎn)上的環(huán)境協(xié)同變量信息,制作樣本集。根據(jù)圖3環(huán)境協(xié)同變量信息發(fā)現(xiàn),流域內(nèi)高差較大,且坡度坡向變化明顯。平面曲率和剖面曲率也呈現(xiàn)出較大的地表變率,因此流域內(nèi)地表物質(zhì)運(yùn)動過程明顯,從而使土壤性質(zhì)的空間異質(zhì)性顯著[18]。地形濕度指數(shù)反映了土壤水分的空間分布狀態(tài),距離研究區(qū)水系越近,其值越大。NDVI則表明流域內(nèi)植被覆蓋度較高。在眾多環(huán)境協(xié)同變量中如何篩選出作用顯著的變量還需要繼續(xù)探討。研究中通過逐步回歸方法分析環(huán)境協(xié)同變量的重要性,其分析思路是判定全部變量對土壤類型的貢獻(xiàn)大小,并按貢獻(xiàn)大小順序逐個代入回歸方程,其中作用不顯著的變量有可能被淘汰。為了保證新引入的變量參與判定,每一次進(jìn)入方程計算后都要進(jìn)行F檢驗,這樣不斷判定直到確定出各個變量的重要性。該過程借助Clementine 軟件完成環(huán)境因子篩選,如表2,最終選出高程、均值、地形濕度指數(shù)、二階矩和NDVI5種環(huán)境協(xié)同變量深入挖掘探索。
表2 環(huán)境協(xié)同變量重要性值Table 2 The important value of environmental covariates
圖3 環(huán)境協(xié)同變量篩選Figure 3 Environmental covariates selection
1.4.2 數(shù)據(jù)挖掘 研究選用C5.0算法進(jìn)行決策樹模型構(gòu)建,其構(gòu)建方法可以從單一模型或者Boost模型入手。Boost 模型[19]的最大優(yōu)勢在于建模時能夠?qū)颖具M(jìn)行正確和錯誤的劃分,并且予以賦值,在完成多個模型建立后,根據(jù)加權(quán)投票的結(jié)果,判定出精度最高的模型,而且可以對模型結(jié)果進(jìn)行測試驗證。但是在模型構(gòu)建時,并不能完全使用其形成的規(guī)則,還要對其改進(jìn),這就需要對決策樹進(jìn)行剪枝修正,再次建模,直到模型可信度達(dá)到70%以上,即可停止建模。本次研究根據(jù)排露溝流域的相關(guān)土壤資料,結(jié)合基于C5.0算法構(gòu)建的決策樹模型,修剪建模規(guī)則,得到如表3的土壤分類推理規(guī)則。根據(jù)該規(guī)則進(jìn)行土壤類型數(shù)字制圖,如圖4-A所示。
表3 推理規(guī)則Table 3 Inferenced rules
圖4 不同制圖方法下排露溝流域的土壤分類Figure 4 Soil classification map of Pailugou watershed with different mapping methods
分類決策樹,是以樹形結(jié)構(gòu)對研究對象進(jìn)行分類。在構(gòu)建樹的過程中,需要選擇不同的變量作為構(gòu)建節(jié)點(diǎn),其中葉節(jié)點(diǎn)用來表示劃分完成的一個類。通過分類決策樹進(jìn)行分類時,首先完成訓(xùn)練集的組成,這其中包括不同變量的屬性和即將分類的類別,然后基于CART 算法建立各個變量之間的規(guī)則,最后確定出變量屬性和類別的關(guān)系,即可完成分類。
CART算法構(gòu)建決策樹模型的核心是進(jìn)行特征選擇和剪枝?;谏鲜鲅芯恐械?5 個環(huán)境協(xié)同變量,通過CART算法選擇最優(yōu)變量組合,并形成決策規(guī)則。通過自變量標(biāo)準(zhǔn)化重要性分析,最終篩選出高程、坡向、信息熵(entroy)3個自變量。CART規(guī)則樹如圖5所示,可以看出,該規(guī)則樹將土壤類型作為根節(jié)點(diǎn),高程變量將其分為2個子節(jié)點(diǎn),分別為高程小于等于3 271.05 m和大于3 271.05 m,且在后者劃分出部分亞高山灌叢草甸土。然后又基于坡向?qū)η罢哌M(jìn)一步劃分,在坡向值小于等于121.338°處劃分出部分山地森林灰褐土,并對坡向大于121.338°處再次以坡向值劃分,此時,當(dāng)坡向值小于等于315.443 5°時,得到部分山地栗鈣土。坡向值大于315.443 5°時,根據(jù)影像的信息熵(entroy)進(jìn)行劃分,在該值小于等于1.783時,劃分出部分灰褐土,大于1.783時得到部分栗鈣土。同時在構(gòu)建過程中,為了防止過度擬合,研究中選擇分割樣本驗證方法,隨機(jī)選擇70%作為訓(xùn)練樣本用來構(gòu)建模型,剩余30%則用來檢驗。最終分類結(jié)果如圖4-B所示。
圖5 CART規(guī)則樹Figure 5 CART decision tree
支持向量機(jī)(Support Vector Machine,SVM)是一種機(jī)器學(xué)習(xí)算法。SVM支持線性可分,即在二維空間上,2類點(diǎn)可以被一條直線完全分開,從二維擴(kuò)展到多維空間,SVM 力求尋找能夠把2類樣本分開的最大間隔,即最優(yōu)超平面,這時兩類樣本被劃分至該超平面兩側(cè),即便距離超平面最近的兩側(cè)樣本點(diǎn)也被距離最大化。SVM可以通過核函數(shù)進(jìn)行分類,本次研究選擇了核函數(shù)中的徑向基方法,該方法中參數(shù)眾多,其中懲罰因子C,在理論上表現(xiàn)出模型的精度隨著C 值的增大而提高,但是也不能使該值過大,否則易造成模型的過度擬合,導(dǎo)致模型性能降低。支持向量機(jī)算法中參數(shù)的確定需要經(jīng)過多次遍歷優(yōu)化后方可獲得,研究中經(jīng)過多次試驗,最終獲取的最優(yōu)參數(shù)組合中,C值取值15。建模結(jié)果如圖4-C所示。
通過圖4可以看出,不同制圖方法下,在流域海拔3 300~3 700 m的亞高山地帶,土壤類型主要是亞高山灌叢草甸土。在流域海拔2 600~3 300 m 的陰坡區(qū)域,土壤類型多為山地森林灰褐土。在流域海拔2 700~3 000 m 的陽坡區(qū)域,分類結(jié)果存在差異:圖4-A 中該區(qū)域土壤類型主要以山地栗鈣土居多,伴隨少量山地森林灰褐土;圖4-B 中該區(qū)域則主要是山地栗鈣土;圖4-C 中該區(qū)域分布有山地栗鈣土和亞高山灌叢草甸土。
本次研究通過均勻采樣選擇的33 個野外采樣點(diǎn)對不同制圖方法下的土壤圖進(jìn)行精度評價,結(jié)果(表4)表明基于C5.0決策樹制圖結(jié)果精度明顯高于采樣點(diǎn)插值的結(jié)果。為進(jìn)一步驗證3種機(jī)器算法的制圖結(jié)果,通過混淆矩陣計算得到的Kappa系數(shù)、生成精度和用戶精度實現(xiàn),結(jié)果如表5所示。由精度評價結(jié)果可以看出,C5.0 決策樹分類方法總體精度為89%,Kappa 系數(shù)為0.83;CART 決策樹分類方法總體精度為83%,Kappa系數(shù)為0.78;支持向量機(jī)分類方法總體精度為57%,Kappa 系數(shù)為0.52。由此可見,C5.0和CART 決策樹分類方法得到的土壤分類結(jié)果較為滿意,而支持向量機(jī)方法分類結(jié)果較差。
表4 不同制圖方法下驗證點(diǎn)精度比較Table 4 Comparison of the validation point accuracy among different mapping methods
表5 精度評價Table 5 Accuracy evaluation
對比3種不同方法的精度評價結(jié)果,從整體上來看,3種方法下各土壤類型的空間分布具有明確的相似性,C5.0決策樹的分類結(jié)果較CART 決策樹結(jié)果的圖斑數(shù)量更多,圖上細(xì)節(jié)也更為清晰。盡管支持向量機(jī)分類結(jié)果圖斑數(shù)增多,但是分類結(jié)果較差,在流域陽坡地帶出現(xiàn)了較多的亞高山灌叢草甸土,和傳統(tǒng)土地調(diào)查的結(jié)果有一定出入。生產(chǎn)精度方面,C5.0 算法和CART 算法分類結(jié)果中,3 種土壤類型的精度均比較高,支持向量機(jī)分類精度較低。用戶精度方面,支持向量機(jī)分類精度較差。綜上,3種方法都基于高清遙感影像獲取的環(huán)境協(xié)同變量進(jìn)行土壤?景觀模型構(gòu)建,并借助構(gòu)建的模型對推理預(yù)測土壤類型的空間分布狀態(tài),但由于選取的數(shù)據(jù)挖掘算法不同,提取的環(huán)境協(xié)同變量也存在一定的差異,因此得到了不同的制圖輸出。通過精度評價,基于C5.0算法構(gòu)建的決策樹模型應(yīng)用在排露溝流域的土壤分類圖結(jié)果最佳。
數(shù)字土壤制圖通常要經(jīng)過選擇環(huán)境變量、采集樣點(diǎn)、構(gòu)建模型及驗證評價4個步驟。環(huán)境變量的選擇要能夠充分表達(dá)土壤的空間變化并且易于獲取。Scull、Razakamanarivo、Sarkar[20-22]等人均采用了地形因子或土地利用信息作為環(huán)境變量來對土壤相關(guān)性質(zhì)做空間預(yù)測。本次研究從地形因子和遙感光譜指數(shù)兩方面入手,共選取高程、坡度、坡向及影像紋理特征等15個變量作為環(huán)境協(xié)同因子分析建模。建模過程中對變量重要性進(jìn)行了分析,盡管引入了遙感光譜指數(shù),但在最終選取的變量中遙感光譜指數(shù)參與度不如地形因子,在未來的研究中可以考慮將土壤理化性質(zhì)作為環(huán)境協(xié)同變量參與制圖。
本次研究中,土壤采樣點(diǎn)的選擇盡可能保證均勻分布在流域各個位置,但是受到流域地形的客觀條件限制,采樣點(diǎn)的典型性和一般性還有待繼續(xù)探索。
研究中模型的選擇主要考慮的是基于機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的方法。這種方法主要探討土壤類型和環(huán)境因子的關(guān)系,并建立相應(yīng)的規(guī)則預(yù)測空間分布狀況[23-27]。由于研究區(qū)面積較小,學(xué)者對土壤類型的分類研究大多基于傳統(tǒng)野外調(diào)查數(shù)據(jù)[28-30],較少分析流域土壤類型的空間分布。本文比較了3種不同的基于機(jī)器學(xué)習(xí)的土壤類型空間制圖方法,發(fā)現(xiàn)C5.0 算法對土壤類型的預(yù)測精度更高,更準(zhǔn)確地表現(xiàn)了土壤類型與各環(huán)境協(xié)同變量間的關(guān)系,清晰直觀地反映了流域土壤的空間分布狀況,后續(xù)研究還可以探索其他數(shù)字制圖方法,討論流域土壤類型的多樣性,為流域在植被恢復(fù)、水源涵養(yǎng)等方面的研究提供空間數(shù)據(jù)支持。
本文基于決策樹C5.0算法、CART 決策樹算法及支持向量機(jī)方法分別構(gòu)建土壤分類模型,并將其應(yīng)用在祁連山排露溝流域。得到結(jié)論是,對比3種土壤類型分類方法,C5.0 決策樹模型表現(xiàn)出較好的分類精度,總體精度和Kappa 系數(shù)均高于其他兩種方法。本文在提取地形因子作為地理協(xié)同變量的同時,加入了遙感光譜指數(shù)共同參與模型構(gòu)建,其中C5.0 決策樹運(yùn)用了比CART 決策樹更多的遙感光譜指數(shù),在一定程度上提升了制圖精度。研究中基于C5.0算法構(gòu)建的決策樹模型,獲取了明確的土壤—環(huán)境關(guān)系規(guī)則,該規(guī)則能夠清晰表達(dá)排露溝流域各土壤類型的發(fā)育環(huán)境,增強(qiáng)了C5.0算法在研究區(qū)的可用性,提升了數(shù)字土壤制圖的精度。在小尺度研究區(qū),高空間分辨率的遙感數(shù)據(jù)更有利于獲取與土壤空間變化相關(guān)的環(huán)境協(xié)同變量,對未來土壤普查工作的精細(xì)化提供一定的科學(xué)參考。