劉雪琦朱阿興,2,3,4楊 琳繆亞敏曾燦英
(1 南京師范大學地理科學學院,南京 210023)
(2 資源與環(huán)境信息系統(tǒng)國家重點實驗室(中國科學院地理科學與資源研究所),北京 100101)
(3 虛擬地理環(huán)境教育部重點實驗室(南京師范大學),江蘇省地理環(huán)境演化國家重點實驗室培育建設(shè)點,江蘇省地理信息資源開
發(fā)與利用協(xié)同創(chuàng)新中心,南京 210023)
(4 Department of Geography,University of Wisconsin-Madison,Madison,WI 53706,USA)
土壤圖更新中基于土壤類型面積分級的訓練樣點選擇方法*
劉雪琦1朱阿興1,2,3,4楊 琳2?繆亞敏1曾燦英1
(1 南京師范大學地理科學學院,南京 210023)
(2 資源與環(huán)境信息系統(tǒng)國家重點實驗室(中國科學院地理科學與資源研究所),北京 100101)
(3 虛擬地理環(huán)境教育部重點實驗室(南京師范大學),江蘇省地理環(huán)境演化國家重點實驗室培育建設(shè)點,江蘇省地理信息資源開
發(fā)與利用協(xié)同創(chuàng)新中心,南京 210023)
(4 Department of Geography,University of Wisconsin-Madison,Madison,WI 53706,USA)
基于數(shù)據(jù)挖掘模型的土壤圖更新是一項重要的研究。數(shù)據(jù)挖掘模型構(gòu)建中訓練樣點的質(zhì)量不僅決定其對研究區(qū)土壤-環(huán)境關(guān)系表達的充分程度,而且會對推理制圖的結(jié)果產(chǎn)生至關(guān)重要的影響。本文提出一種基于土壤類型面積分級的典型訓練樣點選擇方法,即依據(jù)土壤面積對土壤類型分級,并按照等級之間的比例關(guān)系基于典型點選擇訓練樣點。將方法應用于更新美國威斯康星州Raffelson流域的傳統(tǒng)土壤圖,并與另外兩種訓練樣點選擇方法對比,以驗證該方法的有效性。結(jié)果表明,500次重復實驗中,本研究方法與另外兩種訓練樣點選擇方法相比,能夠更新傳統(tǒng)土壤圖的比例分別為79.5%、71.8%和63.6%,而且其推理制圖結(jié)果更符合研究區(qū)土壤分布的特征。本研究所提方法是一種有效的訓練樣點選擇方法。
訓練樣點;數(shù)據(jù)挖掘模型;傳統(tǒng)土壤圖更新;土壤—環(huán)境關(guān)系
長期以來,土壤專家通過土壤普查技術(shù)積累了大量的土壤圖數(shù)據(jù)(傳統(tǒng)土壤圖)[1-2]。然而,受制圖技術(shù)、數(shù)據(jù)質(zhì)量以及人為主觀性(如:制圖者“經(jīng)驗”、人工目視解譯差別)等影響,土壤多邊形的邊界很可能產(chǎn)生錯置[3-4],造成傳統(tǒng)土壤圖的精度通常不高[5-6]。但是,土壤圖中蘊含著土壤專家們對當?shù)赝寥馈h(huán)境關(guān)系的理解和探究[7],隨著可獲取的環(huán)境數(shù)據(jù)的增多以及數(shù)據(jù)挖掘方法的推進,更新傳統(tǒng)土壤圖以提高其精度成為可能[8-11]。
目前利用數(shù)據(jù)挖掘模型更新傳統(tǒng)土壤圖是獲取土壤空間分布信息的一種重要方法[8,12-13],其原理是通過訓練樣點挖掘每種土壤類型發(fā)育或存在的環(huán)境條件,即獲取各土壤類型的土壤—環(huán)境關(guān)系,然后將這種關(guān)系應用于土壤類型(屬性)的推測與制圖[14]。訓練樣點的質(zhì)量對土壤—環(huán)境關(guān)系表達的充分與否,以及對推理制圖的精度高低均會產(chǎn)生至關(guān)重要的影響[15]。當前訓練樣點的獲取途徑主要有兩種:第一種是野外采集,其獲取的樣點實時性較好,但野外采樣耗時耗力,成本高昂[16];第二種是基于傳統(tǒng)土壤圖的采集,雖然受限于土壤圖的精度,但傳統(tǒng)土壤圖資源豐富,從土壤圖中選擇訓練樣點可極大地降低樣點采集成本,因此,這種方法得到廣泛應用[3,8,12]。
基于土壤圖選擇訓練樣點的方法主要有三種:(1)每種土壤類型選擇相同數(shù)目的訓練樣點[17];(2)每個土壤多邊形選擇相同數(shù)目的訓練樣點[18];(3)按照每種土壤類型的面積所占比例選擇相應數(shù)目的訓練樣點[19]。一般而言,對于土壤圖中像元數(shù)目少的土壤類型或斑塊面積小的土壤多邊形,只需數(shù)量較少的訓練樣點就能充分表達它們的土壤—環(huán)境關(guān)系,但對于像元數(shù)目多的土壤類型,它們發(fā)育的環(huán)境條件相對復雜,而且可能包含多種土壤—環(huán)境關(guān)系,所以需要數(shù)量較多的訓練樣點對其進行表達和體現(xiàn)[15,17,19]。但是方法一與方法二針對不同像元數(shù)目的土壤類型或不同面積的土壤多邊形均選擇相同數(shù)目的訓練樣點,這在很大程度上降低了訓練樣點的質(zhì)量。而方法三是完全依照土壤類型的面積比選擇相應數(shù)目的訓練樣點,對于面積相差較大的土壤類型可能會得到失衡的訓練樣點集[20-21],即利用過多的訓練樣點描述面積大的土壤類型的土壤—環(huán)境關(guān)系,但對于面積小的土壤類型卻不能通過極少的訓練樣點充分反映其環(huán)境特征,這很可能降低推理制圖的精度。
此外,上述方法運用時大多是在確定選取數(shù)量后直接在土壤多邊形中隨機選擇訓練樣點。然而,由于土壤圖中存在邊界錯置等問題,這種隨機選擇樣點的方式可能會造成訓練樣點無法充分表達土壤類型的土壤—環(huán)境關(guān)系或含有冗余數(shù)據(jù)的情況。已有研究者嘗試在土壤類型的典型像元中選擇訓練樣點[5,12]。結(jié)果表明,基于典型像元選取訓練樣點用于制圖的精度高于隨機選擇訓練樣點的推理制圖精度。但該研究選擇每種土壤類型的訓練樣點數(shù)目是采用與其面積成正比的方法,并未考慮土壤類型面積與該類型下所選擇的樣點數(shù)目之間的平衡關(guān)系。
本文針對以上問題,提出一種基于土壤類型面積分級的訓練樣點選擇方法,首先依據(jù)土壤類型面積對土壤類型分級,然后按照等級之間的比例關(guān)系基于典型樣點選擇訓練樣點。以美國威斯康星州Raffelson流域為研究區(qū),選擇在傳統(tǒng)土壤圖更新方面廣泛使用的隨機森林模型(Random forest model,RF)為推理制圖模型[22-24],對比本文方法與其他兩種訓練樣點選擇方法,利用野外獨立驗證樣點檢驗不同訓練樣點選擇方法用于推理制圖的結(jié)果與精度,以評價本研究方法的有效性。
1.1 訓練樣點獲取方法
(1)獲取各土壤類型的典型點集。訓練樣點的選擇應盡量減少因土壤多邊形的邊界錯置所產(chǎn)生的“噪音”像元[3]。假設(shè)傳統(tǒng)土壤圖中土壤多邊形覆蓋的大部分面積或范圍是準確的,那么某種土壤類型的所有土壤多邊形內(nèi)某個環(huán)境因子直方圖(即土壤—環(huán)境直方圖)的峰值即代表了該土壤發(fā)育或存在的典型環(huán)境特征,可以認為某土壤類型的環(huán)境條件接近或落入峰值區(qū)域內(nèi)的像元即為典型像元[3,12]。
針對每個土壤—環(huán)境直方圖,其橫軸代表某種環(huán)境因子的值域,縱軸代表環(huán)境條件在對應區(qū)間內(nèi)的像元數(shù)量。直方圖的區(qū)間數(shù)量會影響直方圖峰值區(qū)間的確定,也會影響對應峰值區(qū)間的典型像元的確定。本文通過設(shè)定落在每個區(qū)間內(nèi)的像元數(shù)目來確定區(qū)間數(shù)量,公式如下[4]:式中,Ni表示土壤類型i的土壤—環(huán)境直方圖中劃分的區(qū)間數(shù)量;Np表示該土壤類型的所有像元數(shù)目;ri表示該土壤類型選擇訓練樣點的數(shù)目,即每個區(qū)間內(nèi)的像元數(shù)目。
對于每種土壤類型典型像元的確定均通過以下兩個步驟完成,第一步是一次對一種環(huán)境因子進行像元采樣,即只采用某環(huán)境條件落入土壤—環(huán)境直方圖峰值區(qū)的像元;第二步是將某土壤類型的所有環(huán)境因子的像元匯總,對于可能不止一次落入土壤—環(huán)境直方圖峰值的像元只保留一次,其余像元直接合并進該土壤類型的典型點集,以此類推得到每種土壤類型的典型點集。根據(jù)直接合并所得每種土壤類型的典型點集在一定程度上降低了樣點中“噪音”像元的出現(xiàn)概率,但隨著所選總樣點數(shù)目的增加,這種減少“噪音”像元的能力也逐漸弱化。
(2)基于土壤類型面積分級的典型訓練樣點選擇方法?;诿糠N土壤類型的典型點集進行訓練樣點的選擇,以提高訓練樣點的質(zhì)量。為平衡土壤類型面積與訓練樣點數(shù)量之間的關(guān)系,本文所采用的方法是對土壤類型的面積進行分級,利用不同等級之間的比例關(guān)系選擇訓練樣點,以適當縮小不同土壤類型面積之間的差距。
土壤類型面積分級方法的基本思路是,首先對各土壤類型所占面積比取對數(shù),以縮小不同土壤類型面積之間的絕對差異,然后,將對數(shù)結(jié)果轉(zhuǎn)換為正值再進行取整分級,即可以將各土壤類型所占面積比轉(zhuǎn)換為不同的等級,例如,1、2、3三個等級,最后根據(jù)等級值的比值得到各等級中訓練樣點數(shù)目的比例關(guān)系,在此考慮到仍需體現(xiàn)土壤類型面積之間的差異,可利用對等級值取平方的方式拉伸等級之間的比例關(guān)系,例如,1、2、3三個等級內(nèi)的土壤類型所選訓練樣點數(shù)目之比為1∶4∶9,各土壤類型訓練樣點數(shù)目的比例關(guān)系具體求算方式如下:式中,L表示該種土壤類型所在等級對應的訓練樣點比值;Np表示某種土壤類型的所有像元數(shù)目;N表示土壤圖的所有像元數(shù)目;R表示一個實數(shù),其值的確定需保證最小等級Ⅰ所對應的比值至少為1;(int(R-lg(Np/ N)))代表各土壤類型的取整分級結(jié)果。
利用式(2)選擇訓練樣本,只需設(shè)定等級I的訓練樣點數(shù)目,便可根據(jù)比例關(guān)系確定其他等級的訓練樣點數(shù)目,之后基于每種土壤類型的典型點集選擇相應數(shù)目的樣點構(gòu)成訓練樣點集。
1.2 利用隨機森林模型推理制圖
隨機森林模型的基本原理是以隨機的方式建立起一棵棵決策樹,然后由這些決策樹組成一個森林,其中每棵決策樹之間沒有關(guān)聯(lián),當有一個新的樣本輸入時,每棵樹會獨立地做出判斷,按照投票原則決定該樣本的分類結(jié)果[25-27]。其中“隨機”包括兩次隨機選擇的過程,第一次是按比例隨機選擇訓練樣本集中的子樣本集;第二次是對變量,即環(huán)境因子的隨機選擇。隨機森林模型不易出現(xiàn)過擬合現(xiàn)象,同時因其最終結(jié)果是以投票原則決定,所以它對離群值不敏感,抗噪能力強[28],推理制圖精度較高。
模型建立過程涉及到2個關(guān)鍵的參數(shù):mtry 和ntree。其中mtry是每次樹模型重建時隨機選擇環(huán)境因子的個數(shù),模型推測結(jié)果為類別變量時mtry=[29],E表示輸入到模型的環(huán)境因子個數(shù);ntree是隨機森林中決策樹的個數(shù),利用R語言中的random Forest包在確定mtry的前提下可以自動推薦ntree的最優(yōu)數(shù)值。
訓練樣點和最優(yōu)參數(shù)輸入隨機森林模型中建模,并應用到整個研究區(qū),對土壤圖中每個像元的土壤類型進行分類預測,得到推理土壤圖。為更加準確地探究訓練樣點的選擇方法與土壤圖更新之間的關(guān)系,避免個別訓練樣點集對制圖精度的影響,本文針對提出的訓練樣點選擇方法重復采樣500次,即利用所選訓練樣點和模型最優(yōu)參數(shù),基于隨機森林模型的推理制圖重復實驗500次。
1.3 精度驗證
本文將提出的訓練樣點選擇方法A與另外兩種訓練樣點選擇方法B和C進行對比,驗證方法A的有效性。方法B是按照方法A所得每種土壤類型等級之間的比例關(guān)系,在每種土壤類型多邊形內(nèi)的所有像元中隨機選擇樣點構(gòu)成訓練樣點集,方法C是完全按照土壤類型面積所占比例,在每種土壤類型多邊形內(nèi)的所有像元中隨機選擇樣點構(gòu)成訓練樣點集(即引文中提到的第三種方法)。方法A與方法B的區(qū)別在于方法A 是在典型像元中進行選點而方法B是在土壤類型多邊形內(nèi)的所有像元中進行隨機選點,二者對比針對基于典型像元選擇訓練樣點與多邊形內(nèi)隨機選擇訓練樣點的差異;方法B與方法C均是在土壤類型多邊形內(nèi)的所有像元中進行選點,但區(qū)別在于方法B是按照土壤類型面積分級確定樣點數(shù)量而方法C是完全依照土壤類型的面積比確定樣點數(shù)量,二者對比針對基于土壤類型面積分級選擇訓練樣點與基于土壤類型面積比選擇訓練樣點的差異。
本研究按地形地貌采樣獲取92個野外獨立驗證樣點(圖1),旨在檢驗利用不同訓練樣點所生成的土壤類型圖是否可以很好地表達土壤信息的空間變化。地形地貌采樣策略是在橫穿山坡、溝谷的線路上設(shè)計樣點,使所布設(shè)的樣點能在較短距離內(nèi)穿越主要的景觀類型變化[30];驗證樣點中各土壤類型的分布情況為土壤類型面積越大則該類型對應的驗證樣點數(shù)目越多,比如41號土壤類型因其面積最小僅有2個驗證樣點,而503號土壤類型因其面積最大所以有13個驗證樣點。
精度驗證包括兩個驗證指標,第一個是平均推理制圖精度,本文為檢驗每種訓練樣點選擇方法的穩(wěn)定性而分別進行了500次重復采樣,計算推理制圖精度時首先通過對比驗證樣點的實際土壤類型與推理土壤圖的土壤類型獲得單次推理制圖精度,再求取500次推理制圖精度的平均值獲得平均推理制圖精度;第二個是更新傳統(tǒng)土壤圖的比例,即在500次重復實驗中,更新后的土壤圖精度高于原始傳統(tǒng)土壤圖精度的次數(shù)與總實驗次數(shù)的比值。本文利用這兩個驗證指標評價三種訓練樣點選擇方法的優(yōu)劣及對研究區(qū)的適用性。
2.1 研究區(qū)概況與傳統(tǒng)土壤圖
研究區(qū)位于美國威斯康星州La Crosse縣的Raffelson流域,面積約4 km2。該區(qū)位于威斯康星州無冰漬作用的邊緣地區(qū),未直接受到更新世大陸冰川的影響,該流域是明顯的山脊-溝谷地形,即具有相對平緩的、狹窄的山脊與相對寬平的溝谷。研究區(qū)的高程由254m變化至416m(圖1),坡度由0°變化至60°。土地利用類型主要是耕地和林地,其中還有少部分林地被改造為牧場。耕地作物主要為玉米、小粒谷類作物和紫花苜蓿等;林地作物主要為南方落葉林、橡樹、山胡桃樹、楓樹和椴木等。
圖1 Raffelson流域數(shù)字高程模型(DEM)Fig. 1 DEM of the Raffelson watershed
研究區(qū)的傳統(tǒng)土壤圖(圖2)是由美國農(nóng)業(yè)部制作[3 1-3 2],包含1 2種土壤類型(土系),其中Valton(1)與Lamoile(3)分布在坡頂;Dorerton-Elbaville(501)分布在坡肩;Churchtown(7)、Greenridge(21)與Gaphill-Rockbluff(502)主要分布在背坡;Norden (20)、Council(23)與Council-Elevasil-Norden (503)主要分布在坡腳;Kickapoo(30)、Orion (31)與Hixton(41)主要分布在溝谷。土壤類型501號、502號和503號為土壤復區(qū),復區(qū)的存在是由于其內(nèi)部兩種或多種土壤類型的環(huán)境特征相似,且制圖過程中土壤制圖者無法在立體鏡下較好地將其區(qū)分開所造成的。研究區(qū)土系的名稱多以當?shù)乜h/鄉(xiāng)名為依據(jù)命名,將其進行中文譯名意義不大,因而將土系的上一等級—亞類列出,其中,1號屬殘存濕淋溶土;3號、7號、20號、21號、23號、41號、501號、502號與503號屬薄層干淋溶土;30號與31號屬濕潤沖積新成土。
2.2 環(huán)境因子數(shù)據(jù)
利用八個環(huán)境因子(表1)來刻畫研究區(qū)的地理環(huán)境[5,32-33],其分辨率均為10m。本文對美國地質(zhì)調(diào)查局(USGS)提供的分辨率為10 m的地形圖數(shù)字化,生成10 m分辨率的數(shù)字高程模型(Digital elevation model,DEM),在SimDTA[34]中基于DEM派生出坡向、坡度、平面曲率、剖面曲率和地形濕度指數(shù);通過數(shù)字化當?shù)氐牡刭|(zhì)圖獲得母質(zhì)信息,在ArcInfo中基于母質(zhì)信息派生出沖積物成分百分比,以描述地形地貌條件。
圖2 Raffelson流域傳統(tǒng)土壤圖Fig. 2 Conventional soil map of the Raffelson watershed
表1 影響Raffelson流域成土過程的環(huán)境因子Table 1 Environmental factors affectingsoil development in the Raffelson watershed
2.3 各土壤類型的典型點集
獲取研究區(qū)傳統(tǒng)土壤圖中12種土壤類型的典型點集,以土壤類型Valton為例,它的高程環(huán)境因子直方圖如圖3所示,該土壤類型的像元數(shù)目為202個,根據(jù)式(1),本文設(shè)定r1=5(即土壤類型Valton的訓練樣點數(shù)目為5個),那么它的土壤—環(huán)境直方圖的區(qū)間數(shù)量為41,可以確定每個土壤—環(huán)境直方圖中峰值區(qū)間內(nèi)所對應的像元,匯總所選的像元即得到土壤類型Valton的典型點集。以此類推,根據(jù)每種土壤類型的訓練樣點數(shù)目分別設(shè)定相應的ri來獲取各自的典型點集,所得各土壤類型的典型點數(shù)目如表2所示。
2.4 訓練樣點的選擇
傳統(tǒng)土壤圖中各土壤類型的像元數(shù)目及土壤面積取對數(shù)的比值數(shù)如表2所示,為滿足最小等級Ⅰ所對應的比值至少為1,R的取值為4。根據(jù)式(2)將12種土壤類型劃分為三個等級Ⅰ、Ⅱ、Ⅲ,其中等級I的比值數(shù)為1,包含2種土壤類型,ID為1號和41號;等級Ⅱ的比值數(shù)為4,包含5種土壤類型,ID分別為3號、21號、30號、31號和502號;等級Ⅲ的比值數(shù)為9,包含5種土壤類型,ID分別為7號、20號、23號、501號和503號。等級Ⅰ、Ⅱ、Ⅲ的訓練樣點數(shù)目的比例關(guān)系為1∶4∶9。本文設(shè)定等級Ⅰ中土壤類型的訓練樣點數(shù)目為5個,依照比例關(guān)系,等級Ⅱ與等級Ⅲ中土壤類型的訓練樣點數(shù)目分別為20個和45個?;诿糠N土壤類型的典型點集選擇訓練樣點,最終在研究區(qū)利用方法A選擇335個訓練樣點。
表2 基于傳統(tǒng)土壤圖所選訓練樣點在每種土壤類型中的分布信息及相關(guān)參數(shù)Table 2 Distribution information and related parameters contained in the training samples selected for each soil type based on conventional soil maps during the process of generating training samples
三種方法(A、B、C)的訓練樣點中各土壤類型的樣點數(shù)目如表3所示,方法C中每種土壤類型的樣點數(shù)目均不相同,而且土壤類型面積相差較大的41號與503號的訓練樣點數(shù)目相差75個;與之相比,方法A與方法B中不同土壤類型的訓練樣點數(shù)目之間的差異不大。
2.5 推理制圖及精度驗證
為更加準確地探究不同訓練樣點的選擇方法對土壤圖更新的影響,三種方法(A、B、C)分別重復采樣500次,即對每種方法利用所選訓練樣點和模型最優(yōu)參數(shù),基于隨機森林模型的推理制圖重復實驗500次。
采用92個野外獨立驗證樣點檢驗傳統(tǒng)土壤圖精度、基于不同訓練樣點選擇方法的推理土壤圖平均制圖精度與更新傳統(tǒng)土壤圖比例。其中,傳統(tǒng)土壤圖的精度為69.6%,三種訓練樣點選擇方法500次重復實驗后的平均制圖精度與更新傳統(tǒng)土壤圖比例如表4和圖4所示,三種方法的平均制圖精度均高于71.5%,更新傳統(tǒng)土壤圖比例均高于63.6%,表明三種方法均基本可以達到更新土壤圖的目的。具體來看,方法C驗證精度的平均值為71.5%,明顯低于其他兩種訓練樣點選擇方法,而且其精度的穩(wěn)定性較差,500次重復實驗中能夠更新傳統(tǒng)土壤圖的比例是最低的,制圖精度多數(shù)集中在箱線圖的中值以下,說明方法C在更新土壤圖中結(jié)果不穩(wěn)定,更新效果較差。與之相比,方法A和方法B的結(jié)果均表明,在土壤圖更新方面,對土壤類型分級按比例選擇訓練樣點的方法較完全依照土壤類型的面積比選擇訓練樣點的方法能夠更加穩(wěn)定地提高傳統(tǒng)土壤圖精度。但是,在對土壤類型分級的前提下,方法A與方法B驗證精度的平均值分別為73.2% 和72.6%,而且應用方法A,79.5%的推理土壤圖可以達到土壤圖更新的效果,與之相比方法B只有71.8%的推理土壤圖可以達到土壤圖更新的效果,此外A的箱線圖中制圖精度大多分布在中值以上,B的箱線圖中制圖精度較多分布在中值以下,這表明基于典型點選擇訓練樣點的方式可以提高訓練樣點的質(zhì)量,從而得到更加穩(wěn)定的土壤圖更新結(jié)果。
表3 三種訓練樣點選擇方法所包含的樣點數(shù)目Table 3 Number of training samples relative to training sample selection method
表4 三種不同訓練樣點選擇方法的驗證精度及更新比例Table 4 The validation precision and updating ratio of three training sample selection methods
圖4 三種不同訓練樣點選擇方法的驗證精度Fig. 4 Validation of precision of the three training sample selection methods
圖5 Raffelson流域分別應用三種訓練樣點選擇方法Fig. 5 Inferential soil maps of the Raffelson watershed based on three training sample selection methods
對比三種訓練樣點選擇方法用于制圖的精度均為81.5%的推理土壤圖,如圖5、圖6和圖7所示,它們與傳統(tǒng)土壤圖相比均表現(xiàn)了更詳細的空間分布,具有更高的精度。但是,應用方法C的推理土壤圖中訓練樣點數(shù)目多的土壤類型503號和20號,它們的面積明顯被夸大,然而在溝谷地帶訓練樣點少的土壤類型41號和30號,它們的面積則被壓縮。此外,對比方法A與方法B所得推理土壤圖發(fā)現(xiàn),方法B的推理土壤圖中存在較多的破碎化斑塊,尤其是在土壤—環(huán)境關(guān)系較復雜的背坡和溝谷地帶,其破碎化現(xiàn)象更加明顯。盡管應用三種訓練樣點選擇方法的制圖精度均相同,但方法A的推理制圖結(jié)果更符合研究區(qū)土壤分布的特征。
本文所提方法的適宜性可能會受到以下5個因素的影響:(1)傳統(tǒng)土壤圖的質(zhì)量。訓練樣點的選擇基礎(chǔ)是傳統(tǒng)土壤圖,因此傳統(tǒng)土壤圖的質(zhì)量會對訓練樣點的質(zhì)量產(chǎn)生很大影響,可嘗試使用不同精度的傳統(tǒng)土壤圖來檢驗該方法的有效性;(2)研究區(qū)環(huán)境因子的完備性。針對不同研究區(qū)特征,選擇完備的環(huán)境因子數(shù)據(jù)是確保所選訓練樣點能夠準確表達該區(qū)土壤—環(huán)境關(guān)系的重要前提,如:針對我國南方平原地區(qū),除應用傳統(tǒng)的環(huán)境因子來刻畫土壤的空間變化之外,還應添加可反映平區(qū)土壤空間分布信息的環(huán)境因子,例如,已有研究表明利用遙感數(shù)據(jù)生成的遙感動態(tài)反饋模式是一種適用于平區(qū)的環(huán)境因子[35];(3)土壤類型圖斑的形狀。本研究更多的關(guān)注土壤類型面積之間的差異對訓練樣點選擇的影響,在選擇訓練樣點時還應考慮土壤類型的圖斑形狀這一因素,特別是針對成土條件復雜的地區(qū),土壤類型圖斑形狀的差異也在一定程度上反映了環(huán)境因子的空間異質(zhì)性,此外,有些特定的土壤類型盡管面積比例較小,但很有特色,針對這些情況,對土壤類型圖斑形狀的考慮顯得更加必要;(4)訓練樣點數(shù)量。樣點數(shù)量同樣會影響本文所提方法的適宜性以及土壤圖的更新效果,本文是限定了一個土壤類型最低等級的訓練樣點數(shù)量,未來可探索不同數(shù)量的訓練樣點對本文方法與更新結(jié)果的影響;(5)數(shù)據(jù)挖掘模型。不同的數(shù)據(jù)挖掘模型對訓練樣點中各土壤類型的分布與數(shù)量均有各自的要求,未來可嘗試使用其他數(shù)據(jù)挖掘模型來檢驗方法的有效性與土壤圖更新的效果。
需要指出的是,本文是在確定歸屬于最小等級的土壤類型需選取的訓練樣點數(shù)(本文中γ1=5)的基礎(chǔ)上所得結(jié)果。針對每種土壤類型選擇不同數(shù)目的訓練樣點,可能會影響土壤圖更新的結(jié)果與精度。對此,將在后續(xù)工作中進一步研究。
本研究提出了一種基于土壤類型面積分級的典型訓練樣點選擇方法,通過與其他兩種訓練樣點選擇方法對比檢驗其有效性。結(jié)果表明:500次重復實驗中,該方法在推理制圖精度和傳統(tǒng)土壤圖被更新的比例方面均明顯優(yōu)于另外兩種選擇方法,同時本文所提方法的推理制圖結(jié)果更符合研究區(qū)土壤分布的特征,此外,應用該方法推理制圖,79.5%的推理土壤圖可以達到土壤圖更新的效果。因此,本研究針對數(shù)量較少的訓練樣點提供了一種有效的樣點選擇方法,可為其他數(shù)據(jù)挖掘模型中訓練樣點的選擇提供參考。
[1]土壤普查辦公室. 中國土壤普查技術(shù). 北京:農(nóng)業(yè)出版社,1992
National Soil survey Office. Soil survey and technology of China(In Chinese).Beijing:Agriculture Press,1992
[2]潘劍君. 土壤調(diào)查與制圖. 第3版. 北京:中國農(nóng)業(yè)出版社,2010
Pan J J. Soil survey and mapping(In Chinese). 3rd ed. Beijing:China Agriculture Press,2010
[3]Qi F. Knowledge discovery from area-class resource maps:Data preprocessing for noise reduction. Transactions in GIS,2004,8(3):297—308
[4]朱阿興,等. 精細數(shù)字土壤普查模型與方法. 北京:科學出版社,2008
Zhu A X,et al. Model and method of detail digital soil survey(In Chinese). Beijing:Science Press,2008
[5]楊琳,F(xiàn)ahmy Sherif,Jiao You,等. 基于土壤—環(huán)境關(guān)系的更新傳統(tǒng)土壤圖研究. 土壤學報,2010,47 (6):1039-1049
Yang L,F(xiàn)ahmy S,Jiao Y,et al.Updating conventional soil maps using knowledge on soil-environment relationships extracted from the maps(In Chinese). Acta Pedologica Sinica,2010,47(6):1039—1049
[6]辛文文,劉建立. 數(shù)字土壤及其應用研究進展. 土壤,2013,45(5):800—808
Xin W W,Liu J L. Advance in digital soil and its application(In Chinese). Soils,2013,45(5):800—808
[7]Hudson B D.The soil survey as paradigm-based science. Soil Science Society of America Journal,1992,56:836—841
[8]Grinand C,Arrouays D,Martin M P,et al. Extrapolating regional soil landscapes from an existing soil map:Sampling intensity,validation procedures,and integration of spatial context. Geoderma,2008,143(1):180—190
[9]Yang L,Jiao Y,F(xiàn)ahmy S,et al. Updating conventionalsoil maps through digital soil mapping. Soil Science Society of America Journal,2011,75(3):1044—1053
[10]Kempen B,Brus D,StoorvogelJ,et al. Efficiency comparison of conventional and digital soil mapping for updating soil maps. Soil Science Society of America Journal,2012,76 (6):2097—2115
[11]Kempen B,Brus D J,Heuvelink G B M. Soil type mapping using the generalised linear geostatistical model:A case study in a Dutch cultivated peatland.Geoderma,2012,189/190(6):540—553
[12]Qi F,Zhu A X. Knowledge discovery from soil maps using inductive learning. International Journal of Geographical Information Science,2003,17(8):771—795
[13]Kempen B,Brus D J,Vries F D. Operationalizing digital soil mapping for nation wide updating of 1∶50,000 soil map of the Netherlands. Geoderma,2015,241/242:313—329
[14]McBratney A B,Mendon?a Santos M L,Minasny B.On digital soil mapping.Geoderma,2003,117:3—52
[15]Heung B,Ho H C,Zhang J,et al. An overview and comparison of machine-learning techniques for classification purposes in digital soil mapping. Geoderma,2016,265:62—77
[16]劉京,朱阿興,張淑杰,等. 基于樣點個體代表性的大尺度土壤屬性制圖方法. 土壤學報,2013,50(1):12—20
Liu J,Zhu A X,Zhang S J,et al. Large-scaled soil attribute mapping method based on individual representativeness of sample sites(In Chinese). Acta Pedologica Sinica,2013,50(1):12—20
[17]Moran C J,Bui E N. Spatial data mining for enhanced soil map modeling. International Journal of Geographical Information Science,2002,16:533—549
[18]Odgers N P,Sun W,McBratney A B,et al. Disaggregating and harmonising soil map units through resampled classification trees. Geoderma,2014,214:91—100
[19]Heung B,Bulmer C E,Schmidt M G. Predictive soil parent material mapping at a regional-scale:A random forest approach. Geoderma,2014,214/215:141—154
[20]Galar M,F(xiàn)ernández A,Barrenechea E,et al. A review on ensembles for the class imbalance problem:Bagging-,boosting-,and hybrid-based approaches. IEEE Transactions on Systems Man& Cybernetics Part C,2011,42:463—484
[21]Van Hulse J,Khoshgoftaar TM,Napolitano A.Experimental perspectives on learning from imbalanced data. Proceedings of the 24th Annual International Conference on Machine Learning(ICML 2007),Corvalis,OR,2007:935—942
[22]Rad M R P,Toomanian N,Khormali F,et al. Updating soil survey maps using random forest and conditioned Latin hypercube sampling in the loess derived soils of Northern Iran. Geoderma,2014,232/234(12):97—106
[23]Stum A K,Boettinger J L,White M A,et al. Random forests applied as a soil spatial predictive model in arid Utah. Gradworks,2010,2:179—190
[24]Barthold F K,Wiesmeier M,Breuer L,et al. Land use and climate control the spatial distribution of soil types in the grasslands of Inner Mongolia. Journal of Arid Environments,2013,88(1):194—205
[25]Breiman L. Randomforests. Machine Learning,2001,45(1):5—32
[26]Gislason P O,Benediktsson J A,Sveinsson J R. Random forests for land cover classification. Pattern Recognition Letters,2006,27(4):294—300
[27]Peters J,Baets B D,Verhoest N E C,et al. Random forests as a tool forecohydrological distribution modelling. Ecological Modelling,2007,207(2/4):304—318
[28]Díaz-Uriarte R,Andrés S A D. Gene selection and classification of microarray data using random forest. BMC Bioinformatics,2006,7(1):1—13
[29]李亭,田原,鄔倫,等. 基于隨機森林方法的滑坡災害危險性區(qū)劃. 地理與地理信息科學,2014,30(6):25—30
Li T,Tian Y,Wu L,et al. Landslide susceptibility mapping using random forest(In Chinese). Geography and Geo-Information Science,2014,30(6):25—30
[30]楊琳,朱阿興,李寶林,等. 應用模糊c-均值聚類獲取土壤制圖所需土壤—環(huán)境關(guān)系知識的方法研究. 土壤學報,2007,44(5):784—791
Yang L,Zhu A X,Li B L,et al. Extraction of knowledge about soil-environment relationship from soil mapping using fuzzy c-means(FCM)clustering(In Chinese). Acta Pedologica Sinica,2007,44(5):784—791
[31]Zhu A X,Hudson B,Burt J,et al. Soil mapping using GIS,expert knowledge,and fuzzy logic. Soil Science Society of America Journal,2001,65(5):1463—1472
[32]Qi F,Zhu A X,Harrower M,et al. Fuzzy soil mapping based on prototype category theory. Geoderma,2006,136(3/4):774—787
[33]Qi F,Zhu A X,Pei T,et al. Knowledge discovery from area-class resource maps:Capturing prototype effects. Cartography & Geographic Information Science,2008,35(4):223—237
[34]秦承志,盧巖君,包黎莉,等. 簡化數(shù)字地形分析軟件(SimDTA)及其應用——以嫩江流域鶴山農(nóng)場區(qū)的坡位模糊分類為例. 地球信息科學,2009,11(6):737—743
Qin C Z,Lu Y J,Bao L L,et al. Simple digital terrain analysis software(SimDTA 1.0)and its application in Fuzzy classsification of slope positions(In Chinese). Journal of Geo-information Science,2009,11(6):737—743
[35]Zhu A X,Liu F,Li B L,et al.Differentiation of soil conditions over flat areas using land surface feedback dynamic patterns extracted from MODIS. Soil Science Society of America Journal,2010,74(3):861—869
Training Sample Selection Method Based on Grading of Soil Types by Area for Updating Conventional Soil Maps
LIU Xueqi1ZHU A-Xing1,2,3,4YANG Lin2?MIAO Yamin1ZENG Canying1
(1 School of Geographical Science,Nanjing Normal University,Nanjing 210023,China)
(2 State Key Laboratory of Environment and Resources Information System,Institute of Geographical Sciences and Resources Research,Chinese Academy of Sciences,Beijing 100101,China)
(3 Key Laboratory of Virtual Geographic Environment(Nanjing Normal University),Ministry of Education;State Key Laboratory Cultivation Base of Geographical Environment Evolution(Jiangsu Province);Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application,Nanjing 210023,China)
(4 Department of Geography,University of Wisconsin-Madison,Madison,WI 53706,USA)
【Objective】Traditional soil surveyshave turned out huge piles of conventional soil maps various in scale and nature. Although these maps are not very high in spatial detail or accuracy,they contain large volumes of valuable expertise concerning soil-environment relationships in relevant regions. Data mining models can be used to extract from these maps information useful to updating of the conventional soil maps. In using data mining models to extract the information of soil spatial distribution,selection of training samples is an essential step. Quality of training samples will affect to a great extent full expression of soil-environmental relationships and accuracy of the updatedsoil maps. The area-weighted proportion method was a common method for selecting of training samples. However,this method usually assigns too much weight to those soil types large in area,so that too many training samples would be selected. Meanwhile,random selection of training samples from polygons of the same soil type may bring in some“noise”samples,occurring on transition areas between soil types,which make the accuracy of the updated soil maps not high.【Method】In this paper,a new method was developed to select training samples from conventional soil maps based on grading of soil types by area. The method consists of the following two steps. The first step is to specify typical(representative)samples of each soil type based on conventional soil map,so as to avoid generation of“noise pixels”due to misplacement in delineating boundaries between soil polygons. It is assumed that most of the boundaries of the soil polygons of a certain soil type are correctly delineated,and then the peak of the histogram of a certain environmental factor enclosed in the polygons of the soil type represents the typical environmental conditionunder which the soil develops or exists. The pixels close to the selected environmental conditions or within the peak zone of the histogram are considered as representative samples. All the representative samples selected through histograms of various environmental conditions of a certain soil type are combined into a typical sample set of the soil type. The second step is to select training samples based on grading of soil type by area,with a view to keep the numbers of samples of each soil type in balance. Soil types in the same grade should have the same number of training samples out of the typical sample set of each of the soil types.The random forest model adopted in this study is to update conventional soil maps based on the selected training samples. To evaluate the above-proposed method,comparison was made between this method and two other training sample selection methods. One is to randomly select training samples from polygons of each soil type and the number of training samples for each soil type depended on proportion of the gradethe soil type is in,while the other is the common area-weighed proportion method,which randomly selects training samples form the soil polygons of a soil type and the number of training samples for each soil type depended on the area-weighted proportion of the soil type. The study area was a small watershed in Raffelson,Wisconsin of USA. The three selection methods were tried repeatedly,each for 500 times,and validate mean precision of the inferential mapping and proportion of the updated conventional soil maps with 92 independent verification samples in the field.【Result】Results show that based on the 500 trails,comparison of this method with the other two reveals that about 79.5%,71.8% and 63.6% of the conventional soil maps could be updated,respectively. Meanwhile,the updated soil maps based on the proposed training sample selection method are more consistent with the actual soil distribution in the Raffelson watershed.【Conclusion】It is concluded that the proposed method is an effective training sample selection method for data mining model to update conventional soil maps.
Training sample;Data mining model;Update conventional soil map;Soil-environmental relationships
P934
A
10.11766/trxb201604210130
(責任編輯:檀滿枝)
* 國家自然科學基金項目(41431177,41471178)、江蘇省高校自然科學研究重大項目(14KJA170001)、江蘇省高校研究生科研創(chuàng)新計劃項目(KYLX15_0715)、國家重點基礎(chǔ)研究發(fā)展計劃973項目(2015CB954102)和千人計劃資助 Supported by the National Natural Science Foundation of China(Nos.41431177 and 41471178),the Natural Science Research Program of Jiangsu(No.14KJA170001),the Graduate Research Innovation Program of Jiangsu(No.KYLX15_0715),the National Basic Research Program of China(No.2015CB954102),and the“One-Thousand Talents”Program of China
? 通訊作者 Corresponding author:楊 琳,女,博士,副研究員,碩士生導師。E-mail:yanglin@ lreis.ac.cn
劉雪琦(1992—),女,內(nèi)蒙古包頭人,碩士研究生,主要從事數(shù)字土壤制圖研究。E-mail:xueqiliu@yeah.net
2016-04-21;
2016-07-13;優(yōu)先數(shù)字出版日期(www.cnki.net):2016-07-28