曹劍俠,溫仲明,2,李銳,2
(1.西北農(nóng)林科技大學(xué)資源環(huán)境學(xué)院,陜西楊凌712100;2.中國科學(xué)院水利部水土保持研究所,陜西楊凌712100)
隨著全球變化對(duì)物種多樣性的影響,準(zhǔn)確預(yù)測(cè)物種的空間分布及其對(duì)氣候變化的響應(yīng),成為近年來生態(tài)學(xué)和生物保護(hù)研究的熱點(diǎn)[1-3],并開展了大量的研究工作,建立了很多新的模型方法,如廣義相加模型(generalized additive model,GAM)[4]、分類回歸樹(classification and regression tree analysis,CTA)[5-6]、神經(jīng)網(wǎng)絡(luò)系統(tǒng)[7]、基于規(guī)則的遺傳算法預(yù)測(cè)(genetic algorithm for rule set prediction,GARP)[8]等,為生物多樣性保護(hù)和生態(tài)恢復(fù)決策及評(píng)估等提供了重要技術(shù)支持。但對(duì)于具體的物種分布預(yù)測(cè),選擇什么樣的模型方法,往往因模型的背景、原理和適用條件等的差異而不同,選擇什么樣的模型方法比較合適對(duì)于應(yīng)用者具有一定的難度[9]。因此,對(duì)目前主要的物種分布模型進(jìn)行比較研究,并對(duì)其預(yù)測(cè)精度進(jìn)行評(píng)估,具有重要的指導(dǎo)意義。
黃土高原地區(qū)丘陵起伏,地形復(fù)雜,物種與環(huán)境關(guān)系復(fù)雜[10]。溫仲明、赫曉慧等[1,11-12]利用廣義相加模型研究了延河流域自然植被分布與環(huán)境的關(guān)系,初步表明,利用非線性建模途徑的預(yù)測(cè)結(jié)果要好于線性模型,但除此之外,是否還有更合適的模型來研究該區(qū)的物種空間分布,目前尚未有深入探討。為此,本文選擇延河流域?yàn)檠芯繀^(qū),針對(duì)黃土高原特殊的自然地理環(huán)境,綜合考慮影響植被分布的主要因素,對(duì)目前物種分布研究中比較常用的9個(gè)模型進(jìn)行比較研究,以確定適宜的物種分布預(yù)測(cè)模型,為該區(qū)域植被恢復(fù)的規(guī)劃、保護(hù)和管理等提供科學(xué)依據(jù),亦希望為我國植被—環(huán)境研究提供借鑒。
延河流域位于 36°23′—37°17′N,108°45′—110°28′E之間,流域全長(zhǎng)286.9 km,總面積7 687 km2,平均坡度為4.3‰ ,河網(wǎng)密度約為4.7 km/km2。本流域?qū)俅箨懶詺夂?年降雨量500 mm左右,年平均氣溫9℃,立地環(huán)境多變,影響物種空間分布的因素眾多,涉及溫度、降雨、蒸發(fā)及地形、土壤等因素。從東南向西北,降雨、溫度具有明顯的梯度變化特征,植被分布也呈現(xiàn)漸次變化,從南向北分為南部遼東櫟(Quercus liaotungensis)、刺槐(Robinia pseudoacacia)、油松(Pinus tabulaeformisCarr)、闊葉—針葉混交林帶,中部延安到安塞之間為檸條(Caragana korshinskiiKom)、白羊草(Bothriochloa ischaemun)等草灌過渡帶,安塞以北為百里香、長(zhǎng)芒草(Stipa bungeana)草原帶,隨環(huán)境梯度的變化明顯。該區(qū)植物資源較豐富,植物物種總數(shù)大體為589種,分屬81科[13]。
根據(jù)目前進(jìn)展,非參數(shù)模型在建立物種分布模型方面較線性模型有較大的優(yōu)勢(shì),本文選擇的9個(gè)模型,除廣義線性模型[14]外(generalized linear model,GLM),也大多為非參數(shù)模型,如廣義相加模型[14]、分類回歸樹分析[15]、人工神經(jīng)網(wǎng)絡(luò)、面域包絡(luò)模型(surface range envelope,SRE)、廣義增強(qiáng)模型(generalized boosting model,GBM)、隨機(jī)樹(breiman and cutler's random forest for classification and regression/Random Forest,RF)、混合判別式分析(mixture discriminant analysis,MDA)、多元自適應(yīng)回歸樣條(multiple adaptive regression splines,MARS)。這9個(gè)模型作為利用點(diǎn)數(shù)據(jù)進(jìn)行空間預(yù)測(cè)的重要方法,可分別在一系列響應(yīng)變量和環(huán)境因子之間建立統(tǒng)計(jì)關(guān)系,對(duì)于預(yù)測(cè)單個(gè)物種對(duì)多個(gè)環(huán)境變量的綜合響應(yīng)非常方便且具有深遠(yuǎn)的意義。
2.2.1 植被數(shù)據(jù)的采集與處理 取得具有代表性的空間樣本數(shù)據(jù),是物種分布模型建立的基礎(chǔ)。本文采用環(huán)境梯度分層采樣技術(shù)進(jìn)行植被樣本數(shù)據(jù)的采集,首先將延河流域劃分為17個(gè)環(huán)境梯度單元;然后在不同的梯度單元內(nèi),根據(jù)每個(gè)梯度單元內(nèi)的柵格數(shù)量,確定相應(yīng)的需采集的樣點(diǎn)數(shù)量進(jìn)行采樣。采樣時(shí)以環(huán)境梯度單元為基礎(chǔ),考慮不同立地條件,對(duì)處于穩(wěn)定狀態(tài)的或頂級(jí)演替階段的自然植物群落進(jìn)行調(diào)查。樣地設(shè)置采用典型取樣法,對(duì)林地樣方一般設(shè)為10 m×10 m,草本樣地為2 m×2 m。每個(gè)喬木群落內(nèi)設(shè)置1個(gè)灌木樣方(5 m×5 m),10個(gè)草本樣方,每個(gè)灌木群落內(nèi)設(shè)置 10個(gè)草本樣方。數(shù)據(jù)采集是逐次進(jìn)行的,時(shí)間為2005年,2006年及2008年。經(jīng)過數(shù)據(jù)質(zhì)量校驗(yàn),剔除部分研究區(qū)的誤差樣本(流域界外或數(shù)據(jù)記錄缺失),最后實(shí)際可用的樣點(diǎn)數(shù)為280個(gè)。物種數(shù)據(jù)(響應(yīng)變量)整理為二元數(shù)據(jù),即物種存在用1表示,不存在用0表示。
2.2.2 環(huán)境因子的選擇與獲取 在對(duì)影響植被分布的主要環(huán)境因子進(jìn)行分析的基礎(chǔ)上,重點(diǎn)考慮了區(qū)域性的環(huán)境預(yù)測(cè)變量數(shù)據(jù),主要包括兩類,分別為氣候因子和地形因子。
氣候數(shù)據(jù)為1980—2000年延河流域及周邊地區(qū)57個(gè)氣象站點(diǎn)的氣象資料,來源于黃土高原各省、縣屬氣象局。根據(jù)現(xiàn)有研究,氣候因子主要指溫度和降雨[16-17]。根據(jù)對(duì)植被生長(zhǎng)發(fā)育的影響,選擇了年均最冷月氣溫、年均最熱月氣溫、年均植被生長(zhǎng)季節(jié)氣溫、年均氣溫、年均雨季降雨量、年均總降雨量、年均蒸發(fā)量、降雨季節(jié)變化和溫度季節(jié)變化9個(gè)指標(biāo)來表征氣候?qū)χ脖环植嫉挠绊憽S捎跉庀笳咎峁┑氖侵鹉曛鹪碌钠骄鶜鉁?、極值溫度與降雨,因此各因子指標(biāo)需要通過運(yùn)算求得,計(jì)算方法參見文獻(xiàn)[11]。
地形主要指地形的起伏變化,是影響局部植被空間分布的重要因素,依據(jù)地形因子的重要性,本研究選擇坡度、坡向、高程與地形部位4個(gè)地形因子參與模型的建立。其中,坡度、坡向可從DEM直接生成,高程從DEM直接讀取。地形部位本文采用高程殘差分析,并結(jié)合坡度,將延河流域的地形部位劃分為7類,即河道與溝間平地、下坡位、中坡、上坡、峁頂、高平地和細(xì)小溝谷。
2.2.3 軟件工具 本研究采用R語言和BIOMOD程序包構(gòu)建模型。R是近年來普及速度非??斓膽?yīng)用軟件系統(tǒng),內(nèi)含許多實(shí)用的函數(shù),資源豐富且可擴(kuò)展性強(qiáng)[18-19]。BIOMOD是基于R語言的一個(gè)程序包,通過對(duì)模型中各個(gè)參數(shù)進(jìn)行多次試驗(yàn)分析,確定模型的所有參數(shù),并且提供了多種方法對(duì)模型進(jìn)行檢驗(yàn)。
2.2.4 模型驗(yàn)證和評(píng)估 在BIOMOD中對(duì)模型的評(píng)價(jià)有兩類:擬合度的評(píng)估和模型的精度評(píng)價(jià)。前者使用與每個(gè)模型相對(duì)應(yīng)的標(biāo)準(zhǔn)方法,如 ANOVA、AIC等;后者可用3種不同的技術(shù)方法(kappa,true skill statistics,Roc曲線)來評(píng)估模型的性能。本研究運(yùn)用數(shù)據(jù)分割技術(shù),將整個(gè)原始數(shù)據(jù)分為2個(gè)子集,通過比較不同比例隨機(jī)分割數(shù)據(jù)的效果,最終取總數(shù)據(jù)集的80%作為訓(xùn)練子集,用來校正模型;余下的20%作為評(píng)估子集,用來驗(yàn)證模型。同時(shí),應(yīng)用Roc,Kappa和TSS3種方法來評(píng)估和比較模型精度。
哪些因素會(huì)影響到物種的空間分布,不同的模型有不同的結(jié)果。BIOMOD能夠計(jì)算提取出各個(gè)變量的相對(duì)重要性值。其值一般在0~1之間,值越高意味著變量越重要,0意味著變量根本不重要,當(dāng)重要值大于1時(shí)表明該變量非常重要。本文僅以長(zhǎng)芒草和虎榛子(Ostryopsis davidiana)為例,具體說明不同模型在分析物種分布影響因素方面的差異(表1)。
表1 各環(huán)境因子的重要值
由表1可知,各環(huán)境因子在不同物種不同模型中的重要性差別很大。如年均溫在預(yù)測(cè)長(zhǎng)芒草分布的MARS模型中非常重要,而在其它模型中則根本不重要;年均最熱月氣溫在預(yù)測(cè)虎榛子的MARS模型中非常重要,而在預(yù)測(cè)其它物種的MARS模型中(其在預(yù)測(cè)百里香、鐵桿蒿、白羊草分布的MARS的重要值均為0)則根本不重要。通過模型比較,可以清楚地看出影響物種分布的主要環(huán)境因素,如長(zhǎng)芒草在延河流域的空間分布主要受年均降雨量的影響,坡度、年均雨季降雨量、年均溫度、年均蒸發(fā)量、高程也會(huì)對(duì)其有所影響,而地形坡位對(duì)其幾乎沒有影響。同時(shí),所選的9個(gè)模型,由于其本身的側(cè)重點(diǎn)不同,故選取的環(huán)境變量也不同并且數(shù)目差異較大,如RF模型選取的環(huán)境變量比較多,而CTA和GLM模型選取的環(huán)境因子都很少。
R—BIOMOD不僅可以分析各模型中影響物種分布的主要環(huán)境因素,并可以繪制模型的預(yù)測(cè)結(jié)果圖(僅以長(zhǎng)芒草為例,如圖1),圖中越接近黑色部分表示物種的出現(xiàn)概率越大。盡管8個(gè)模型的環(huán)境因子、算法、假設(shè)、計(jì)算內(nèi)容和預(yù)測(cè)性能各不相同,但從分布圖上看,就預(yù)測(cè)的總體趨勢(shì)而言,其幾乎在全流域都有分布,且主要分布在延河流域中北部,與溫仲明、郝曉慧[1,12]等人的研究相符。但不同模型的預(yù)測(cè)結(jié)果圖是有所差別的,如在流域南部,8個(gè)模型的預(yù)測(cè)結(jié)果都不相同。這需要進(jìn)一步通過模型精度比較,選擇出最優(yōu)的模型并結(jié)合實(shí)際情況加以判斷。
圖1 長(zhǎng)芒草(Stipabungeana)各個(gè)模型的預(yù)測(cè)結(jié)果
常用的模型評(píng)價(jià)指標(biāo)有總體準(zhǔn)確度(overall accuracy)、靈敏度(sensitivity)、特異度(specificity)、Kappa統(tǒng)計(jì)量[20]、TSS[20](true skill statistic)和AUC[20]。將評(píng)估子集的數(shù)據(jù)代入訓(xùn)練后的模型中,用其所得結(jié)果給出3種方法相應(yīng)的結(jié)果,以此來評(píng)估不同模型對(duì)所選8個(gè)物種分布的模擬精度。
Roc方法是使用ROC曲線來表示模型敏感度與特異性之間的平衡度,ROC曲線是以1-特異度為橫坐標(biāo),以靈敏度為縱坐標(biāo)繪制而成,曲線下面積(AUC)的大小作為模型預(yù)測(cè)準(zhǔn)確度的衡量指標(biāo)。其值一般介于0.5~1之間,值愈大,表明模型愈優(yōu)。由表2可知,用同一模型模擬不同物種的分布,用此方法評(píng)估ANN等8個(gè)模型對(duì)8個(gè)物種預(yù)測(cè)精度的平均值分別從0.7~1不等,表明各個(gè)模型模擬精度有所差別,以RF最優(yōu),GBM和ANN效果良好,而其余4個(gè)模型的模擬效果均不理想。同時(shí),就某個(gè)特定的物種來說,不同模型對(duì)其分布的模擬效果也差別較大,如鐵桿蒿、茭蒿和白羊草,只有RF和GBM 模型模擬成功,其它6個(gè)模型均模擬失敗;而所有的模型對(duì)百里香和大針茅的模擬效果都比較好。
Kappa統(tǒng)計(jì)量綜合考慮了物種分布率、靈敏度、特異度,其值介于0~1之間,值愈大,表明模型愈優(yōu)。由表3可知,用此方法評(píng)估ANN等9個(gè)模型的平均值從0.282到0.991,模擬精度差別很大。除SRE模型精度不合格外,其它8個(gè)模型的模擬精度都可以。模型的模擬效果從優(yōu)到劣依次為:RF>GBM>ANN>MARS>GAM >CTA >MDA>GLM >SRE。
表2 用Roc方法評(píng)估9個(gè)模型對(duì)8個(gè)物種分布模擬的值
表3 用Kappa方法評(píng)估9個(gè)模型對(duì)8個(gè)物種分布模擬的值
TSS方法考慮了冗余和替代性誤差,其值介于0~1之間,值愈大,表明模型愈優(yōu)。由此方法評(píng)估ANN等9個(gè)模型的模擬精度,其結(jié)果也有所差別,其中除RF模擬精度非常好和SRE模擬精度非常差之外,其它7個(gè)模型的模擬精度都一般。
所選的9個(gè)模型對(duì)長(zhǎng)芒草等8個(gè)物種分布的模擬精度3種方法有所差異:Roc方法均達(dá)到很好的模擬效果;TSS和Kappa值亦取得不錯(cuò)的效果。其中,9個(gè)模型對(duì)百里香和虎棒子的模擬效果最為突出,3種方法評(píng)估值都較高,均達(dá)到非常好的模擬效果。對(duì)長(zhǎng)芒草、大針茅分布預(yù)測(cè)的SRE模型模擬失敗,Kappa值分別為0.241,0.310,其它模型的模擬效果則較好。對(duì)鐵桿蒿分布預(yù)測(cè)的9個(gè)模型評(píng)估的3種方法評(píng)估值均最低,以Kappa值為例,對(duì)鐵桿蒿分布的SRE模型、MARS模型、MDA模型模擬的 Kappa值分別為0.043,0.184,0.202,模擬效果失敗,而其他的模型除RF和GBM外,模擬效果全部失敗。但是無論從3種方法的Kappa值、TSS值還是Roc方法的AUC值來看模型的模擬效果,RF模型、GBM模型和ANN模型都優(yōu)于其他模型,SRE模型模擬精度最差。
由于不同模型關(guān)于物種分布和環(huán)境關(guān)系的假設(shè)和運(yùn)算法則各不相同,故很難對(duì)不同模型的預(yù)測(cè)進(jìn)行比較。但BIOMOD則可以在過程中對(duì)模型進(jìn)行直接比較,其專門的函數(shù)將迭代在模型的每一次運(yùn)算中,根據(jù)所選的模型評(píng)價(jià)方法確定哪個(gè)模型具有最高的預(yù)測(cè)精度(表4)。由表4可知,不管使用Roc,Kappa或TSS,對(duì)研究區(qū)所選的8個(gè)物種,RF都具有較好的預(yù)測(cè)性。
本文針對(duì)模型眾多且研究者難以選擇的問題,選擇ANN等9個(gè)近年來在物種分布中應(yīng)用的模型,利用BIOMOD模型工具,對(duì)延河流域長(zhǎng)芒草等8種物種的地理分布進(jìn)行比較研究。結(jié)果表明,9個(gè)模型對(duì)不同物種的模擬效果有所差異,對(duì)百里香和虎棒子的模擬效果較好,對(duì)鐵桿蒿和白羊草的預(yù)測(cè)效果較差。用Roc曲線評(píng)價(jià)的9個(gè)模型對(duì)研究區(qū)8種物種的分布預(yù)測(cè),均達(dá)到較高的精度,而另外兩種指標(biāo)評(píng)價(jià)的9個(gè)模型的模擬預(yù)測(cè)效果都在一般??傮w而言,所選的9個(gè)模型對(duì)長(zhǎng)芒草等8種物種的分布預(yù)測(cè)各有千秋,其中以RF模型的模擬效果最優(yōu),模擬精度最高;GBM模型、ANN模型、MARS模型也比較理想;GLM 模型、MDA模型很差。
表4 各個(gè)物種的最優(yōu)模型
當(dāng)然利用BIOMOD構(gòu)建物種分布模型,由于模型函數(shù)是以程序包的形式被用戶調(diào)用,會(huì)在模型的選取、構(gòu)造和運(yùn)算時(shí),存在方法比較單一、參數(shù)形式簡(jiǎn)單化的不足,然而,作為研究物種—環(huán)境關(guān)系的新平臺(tái),R語言和BIOMOD提供了較多的構(gòu)建模型的方法和參數(shù)形式,能夠針對(duì)同一套數(shù)據(jù)構(gòu)建不同的模型關(guān)系,并對(duì)預(yù)測(cè)結(jié)果進(jìn)行優(yōu)劣評(píng)估,對(duì)于模型選擇具有非常重要的意義,也為進(jìn)一步深入研究物種分布模型奠定了基礎(chǔ)。
[1] 溫仲明,焦峰,焦菊英.黃土丘陵區(qū)延河流域潛在植被分布預(yù)測(cè)與制圖[J].應(yīng)用生態(tài)學(xué)報(bào),2008,19(9):1897-1904.
[2] Zaniewski A E,Lehmann A,Overton J M.Predicting species spatial distributions using presence-only data:a case study of native New Zealand ferns[J].Ecological Modelling,2002,32(4):261-280.
[3] Remm Kalle.Case-based predictions for species and habitat mapping[J].Ecological Modelling,2004,177(3/4):259.
[4] Guisan A,Edwards J T C,Hastie T.Generalized linear and generalized additive models in studies of species distributions:Setting the scene[J].Ecoogical Mcoloical,2002,157:89-100.
[5] 溫小霓,蔡汝駿.分類與回歸樹及其應(yīng)用研究[J].統(tǒng)計(jì)與決策,2007(23):14-16.
[6] Moisen G G,Freeman E A,Blackard J A.Predicting tree species presence and basal areain Utah:A comparison of stochastic gradient boosting,generalized additive models,and tree-based methods[J].Ecological Modelling,2006,199:176-187.
[7] Manel S,Dias J M,Ormerod S J.Comparing discriminant analysis,neural networks and logistic regression for predicting species distributions:A case study with a Himalayan river bird[J].Ecological Modelling,1999,120:337-347.
[8] Anderson R P,Lew D,Peterson A T.Evaluating predictive models of species distributions:Criteria for selecting optimal models[J].Ecological Molelling,2003,162:211-232.
[9] Leathwicka J R,Elithb J,Hastiec T.Comparative performance of generalized additive models and multivariate adaptive regression splines for statistical modelling of species distributions[J].Ecologica Modelling,2006,199:188-196.
[10] 余衛(wèi)東,閔慶文,李湘閣.黃土高原地區(qū)降水資源特征及其對(duì)植被分布的可能影響[J].資源科學(xué),2002,24(6):55-60.
[11] 溫仲明,赫曉慧,焦峰,等.延河流域本氏針茅(Stipa bungeana)分布預(yù)測(cè):廣義相加模型及其應(yīng)用[J].生態(tài)學(xué)報(bào),2008,28(1):192-201.
[12] 赫曉慧,溫仲明,王金鑫.基于GAM模型的延河流域主要草地物種空間分布及其與環(huán)境的關(guān)系[J].生態(tài)學(xué)雜志,2008,27(10):1718-1724.
[13] 付坤俊.黃土高原植物志:第5卷.[M].北京:科學(xué)文獻(xiàn)出版社,1989:10-200.
[14] Hastie T J,Tibshirani R J.Generalised Additive M odels[M].London:Chapman and Hall,1990:3-10.
[15] Vayssieres M P,Plant R E,Allen-Diaz B H.Classification trees:an alternative non-parametric approach for predicting species distributions[J].Journal of Vegetation Science,2000,11:679-694.
[16] 李斌,張金屯.黃土高原地區(qū)植被與氣候變量的關(guān)系分析[J].生態(tài)學(xué)報(bào),2003,23(1):82-89.
[17] Heinrich Walter.Vegetation of the Earth[M].Beijing:Science Press,1984:5-10.
[18] Venables W N,Smith D M.The R Development Core Team.An Introduction to R[M].2009:34-98.
[19] Emmanuel Paradis.R for Beginners[M].2005:37-71.
[20] Wilfried Thuiller,Bruno Lafourcade,Miguel Araujo.ModOperating Manual for BIOMOD[M].2009:10-90.