許仲林,彭煥華, 彭守璋
1 新疆大學(xué)資源與環(huán)境科學(xué)學(xué)院,烏魯木齊 830046 2 新疆大學(xué)智慧城市與環(huán)境建模重點(diǎn)實(shí)驗(yàn)室, 烏魯木齊 830046 3 中國科學(xué)院武漢植物園,武漢 430074 4 草地農(nóng)業(yè)生態(tài)系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,蘭州大學(xué)生命科學(xué)學(xué)院,蘭州 730000
物種分布模型的發(fā)展及評價(jià)方法
許仲林1, 2,*,彭煥華3, 彭守璋4
1 新疆大學(xué)資源與環(huán)境科學(xué)學(xué)院,烏魯木齊 830046 2 新疆大學(xué)智慧城市與環(huán)境建模重點(diǎn)實(shí)驗(yàn)室, 烏魯木齊 830046 3 中國科學(xué)院武漢植物園,武漢 430074 4 草地農(nóng)業(yè)生態(tài)系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,蘭州大學(xué)生命科學(xué)學(xué)院,蘭州 730000
物種分布模型已被廣泛地應(yīng)用于以保護(hù)區(qū)規(guī)劃、氣候變化對物種分布的影響等為目的的研究?;仡櫫艘呀?jīng)得到廣泛應(yīng)用的多種物種分布模型,總結(jié)了評價(jià)模型性能的方法?;谖锓N分布模型的發(fā)展和應(yīng)用以及性能評價(jià)中尚存在的問題,本文認(rèn)為:在物種分布模型中集成樣本選擇模塊能夠避免模型預(yù)測過程中的過度擬合及欠擬合,增加變量選擇模塊可評估和降低變量之間自相關(guān)性的影響,增加生物因子以及將物種對環(huán)境的適應(yīng)性機(jī)制(及擴(kuò)散行為特征)和潛在分布模型進(jìn)行結(jié)合,是提高模型預(yù)測性能的可行方案;在模型性能的評價(jià)方面,采用赤池信息量可對模型的預(yù)測性能進(jìn)行客觀評價(jià)。相關(guān)建議可為物種分布建模提供參考。
物種分布模型;性能評價(jià);閾值相關(guān);閾值無關(guān)
物種分布模型(Species Distribution Models, SDMs),是將物種的分布樣本信息和對應(yīng)的環(huán)境變量信息進(jìn)行關(guān)聯(lián)得出物種的分布與環(huán)境變量之間的關(guān)系,并將這種關(guān)系應(yīng)用于所研究的區(qū)域,對目標(biāo)物種的分布進(jìn)行估計(jì)的模型。物種分布模型的理論基礎(chǔ),是生態(tài)位的概念,生態(tài)位被定義為生態(tài)系統(tǒng)中的種群在時(shí)間和空間上所占據(jù)的位置及其與其他種群之間的關(guān)系與作用[1]。Hutchinson以數(shù)學(xué)方式描述了生態(tài)位的概念: 在由多個(gè)環(huán)境變量定義的多維空間內(nèi),能夠維持穩(wěn)定種群的“超體積(Hyper-volume)”[1]。圍繞如何界定“超體積”,生態(tài)學(xué)家進(jìn)行了各種嘗試并依據(jù)不同的界定方法,發(fā)展了不同的物種分布模型。目前,物種分布模型已經(jīng)成為基礎(chǔ)生態(tài)學(xué)和生物地理學(xué)研究的重要工具,被廣泛用于研究全球變化背景下物種的分布和氣候之間的關(guān)系[2- 5]、區(qū)域氣候變化對植物群落和功能的影響[6- 7]、生態(tài)系統(tǒng)功能群和關(guān)鍵種的監(jiān)測和預(yù)測[8]、生態(tài)系統(tǒng)不同尺度多樣性的管理和保護(hù)[9]、外來物種入侵區(qū)域的預(yù)測[10]、面向生態(tài)系統(tǒng)恢復(fù)的關(guān)鍵物種的潛在分布預(yù)測和保護(hù)區(qū)規(guī)劃[11]等。物種分布模型的廣泛應(yīng)用,應(yīng)考慮模型的性能評價(jià)。因此,對模型的性能進(jìn)行評價(jià)的方法,也是模型的應(yīng)用過程中值得重點(diǎn)關(guān)注的問題。本文首先對物種分布模型的發(fā)展過程和評價(jià)方法進(jìn)行了回顧,其次總結(jié)了物種分布模型的發(fā)展和性能評價(jià)方面目前存在的問題并提出了可能的解決方案。
1.1 物種分布模型簡介
物種分布模型的發(fā)展,始于BIOCLIM模型[12]的開發(fā)和應(yīng)用,隨后的20多年內(nèi),涌現(xiàn)了HABITAT、DOMAIN、生態(tài)位因子分析模型(Ecological Niche Factor Analysis, ENFA)、馬氏距離(Mahalanobis Distance, MD)、邊界函數(shù)方法(Border Function, BF)、最大熵模(Maximum Entropy, Maxent)、廣義線性模型(Generalized Linear Model, GLM)、廣義加法模型(Generalized Additive Model, GAM)、分類與回歸樹模型(Classification and Regression Tree, CART)、推動(dòng)回歸樹模型(Boosted Regression Tree, BRT)、多元適應(yīng)性回歸樣條(Multivariate Adaptive Regression Splines, MARS)等基于統(tǒng)計(jì)的和基于規(guī)則集的遺傳算法(Genetic Algorithm for Rule-set Prediction, GARP)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)等基于人工智能的模型。
BIOCLIM模型將生態(tài)位定義為在環(huán)境變量空間中包含所有研究物種樣本的超體積[12]。按照此定義,該超體積是一個(gè)以各環(huán)境變量的極值(極大值和極小值)界定的超矩形,超矩形所界定的變量范圍都被認(rèn)為是適合于物種分布的。這種定義的缺陷在于,極限環(huán)境條件也被認(rèn)為能夠維持種群的穩(wěn)定,這是不合理的,因?yàn)樵跇O限環(huán)境條件下,物種雖然能夠存活,但是不能維持種群的延續(xù)。因此,為減少極值對模型性能的影響,提高模型的預(yù)測能力,通常在界定多維超矩形的邊界之前,對所有樣本上的各變量值進(jìn)行排序,在其中選擇一定數(shù)量的極值樣本(例如最高的5%)并對這些環(huán)境變量的極值進(jìn)行平均處理以得到超矩形的邊界,由此估計(jì)物種的潛在分布區(qū)。
HABITAT模型將生態(tài)位定義為物種在環(huán)境變量空間上的凸殼[13],與BIOCLIM模型不同,在環(huán)境變量空間中HABITAT模型不再將環(huán)境變量的極值作為生態(tài)位的邊界,即邊界不再是剛性的,而以樣本本身所對應(yīng)環(huán)境變量的一個(gè)鄰域作為適宜物種分布的環(huán)境條件,這樣就排除了某些極限環(huán)境條件。遺憾的是,HABITAT模型對邊界的刻畫仍然依賴于外圍樣本。
基于Gower距離算法的DOMAIN模型利用點(diǎn)-點(diǎn)的相似矩陣計(jì)算目標(biāo)點(diǎn)上環(huán)境變量的適宜性,該適宜性表示了在環(huán)境變量空間中(而非現(xiàn)實(shí)分布空間中),目標(biāo)點(diǎn)與離它最近的分布樣本點(diǎn)之間的相似程度[14]。在確定物種的生境或者分布范圍時(shí),首先需要確定一個(gè)閾值以排除非適宜分布區(qū)。與之前BIOCLIM方法相比,DOMAIN模型在環(huán)境變量空間中確定的環(huán)境超矩形并不一定是連續(xù)的。
生態(tài)位因子分析模型(ENFA)通過計(jì)算邊際性和環(huán)境偏差來度量目標(biāo)點(diǎn)的適宜性[15]。在一維情況下,邊際性表現(xiàn)為該環(huán)境變量的值域上,分布樣本點(diǎn)所對應(yīng)的環(huán)境變量的均值(樣本均值)與研究區(qū)所有點(diǎn)對應(yīng)的環(huán)境變量的均值(全局均值)之間的差;環(huán)境偏差其實(shí)就是該環(huán)境變量的樣本方差與全局方差之間的差別。在多維情況下,邊際性和環(huán)境偏差以多維向量的形式表示。在確定了邊際性和環(huán)境偏差之后,應(yīng)用閾值對環(huán)境條件進(jìn)行篩選,可得到物種在環(huán)境變量空間中的適宜范圍, 將其映射到實(shí)際研究區(qū),便可得到物種的分布區(qū)域[15]。
MD方法首先計(jì)算樣本上各環(huán)境變量的平均值,并統(tǒng)計(jì)研究區(qū)各點(diǎn)上的環(huán)境變量到該平均值的Mahalanobis距離,依據(jù)一定的方法確定一個(gè)閾值用以確定生境空間的邊界。Mahalanobis距離算法計(jì)算得出的橢圓形超體積能夠有效的表達(dá)環(huán)境變量之間的關(guān)系[16]。
BF模型以邊界函數(shù)界定物種在環(huán)境變量空間上的邊界。以二維環(huán)境變量(V1和V2)空間為例,邊界函數(shù)的確定方法分為以下步驟: 首先,收集物種分布樣本及與之相關(guān)的環(huán)境變量V1和V2,并作散點(diǎn)圖;其次,對其中的一個(gè)變量(例如V1)進(jìn)行分段并取各段的中值(或均值),對各段V1值相對應(yīng)的V2進(jìn)行排序,選擇一定比例(如5%)的極值并統(tǒng)計(jì)極值的平均;再次,在對每一段進(jìn)行相應(yīng)分析之后,可得一系列環(huán)境變量對偶值,對這些值進(jìn)行擬合,便可得環(huán)境變量的邊界函數(shù)[17- 18],對影響研究物種分布的各環(huán)境變量都進(jìn)行相應(yīng)的分析,則可得出物種在整個(gè)環(huán)境變量空間上的邊界;最后,將所得邊界映射至研究區(qū)的環(huán)境變量,便可估計(jì)物種的潛在分布區(qū)。該方法更加準(zhǔn)確的刻畫了環(huán)境變量空間上的生態(tài)位,其缺憾在于相關(guān)計(jì)算和處理較為繁瑣。
Maxent模型基于熱力學(xué)第二定理。按照該定律,一個(gè)非均衡的生命系統(tǒng)通過與環(huán)境的物質(zhì)和能量交換以保持其存在,也就是說,一個(gè)實(shí)測存在的系統(tǒng)具有“耗散”的特征,耗散使系統(tǒng)的熵不斷增加,直至該生命系統(tǒng)與環(huán)境的熵最大,而使熵達(dá)到最大的狀態(tài),也是系統(tǒng)與環(huán)境之間的關(guān)系達(dá)到平衡的狀態(tài)。在物種潛在分布的相關(guān)研究中,可將物種與其生長環(huán)境視為一個(gè)系統(tǒng),通過計(jì)算系統(tǒng)具有最大熵時(shí)的狀態(tài)參數(shù)確定物種和環(huán)境之間的穩(wěn)定關(guān)系,并以此估計(jì)物種的分布[19]?;谠撛瓌t,最大熵模型在已知樣本點(diǎn)和對應(yīng)環(huán)境變量的基礎(chǔ)上,通過擬合具有熵值最大的概率分布對物種的潛在分布作出估計(jì)。最大熵模型自2006年被開發(fā)以來,得到了非常廣泛的應(yīng)用,現(xiàn)已被眾多相關(guān)研究所采用[20- 24]。
GLM模型被廣泛的應(yīng)用于物種的潛在分布建模。由于觀測樣本為布爾值(1為存在分布,0為不存在),而不是連續(xù)變量,因此無法構(gòu)建線性回歸模型,于是轉(zhuǎn)而預(yù)測物種出現(xiàn)(1)或不出現(xiàn)(0)的概率μ。此概率μ取值0—1,為連續(xù)變量。然而,若以環(huán)境變量為預(yù)測變量、μ為應(yīng)變量,仍無法建立合理的線性回歸模型,這是因?yàn)槲锓N分布概率與環(huán)境變量之間的關(guān)系往往不是線性相關(guān)的。因此,將問題轉(zhuǎn)為求概率μ的轉(zhuǎn)化形式log(μ/(1-μ))與環(huán)境變量的線性函數(shù),在確定了此函數(shù)的參數(shù)后,再推求μ,便可得各環(huán)境條件下物種分布的概率[25]。
GLM模型是多元線性回歸模型的推廣,事實(shí)上,廣義線性模型所得物種分布的概率是多維環(huán)境變量空間中的一個(gè)響應(yīng)曲面,但該曲面對真實(shí)概率的擬合程度受樣本數(shù)量的影響較大,即樣本量越大,擬合程度越好,對潛在分布的估計(jì)越合理;反之,若樣本量較少,則由廣義線性模型估算的潛在分布概率不太可靠。另外,廣義線性模型的響應(yīng)變量需要服從高斯分布或者其他對稱分布,但物種的響應(yīng)曲面很可能不是對稱的,因此即便增加擬合參數(shù)(如增加二次項(xiàng)),也不能很好的逼近真實(shí)響應(yīng)曲面[26]。在這種情況下, GAM模型由于能夠逼近更豐富的響應(yīng)曲面而得到了廣泛的應(yīng)用[27]。此外,廣義相加模型受數(shù)據(jù)而不是模型驅(qū)動(dòng),即它能夠按照數(shù)據(jù)的結(jié)構(gòu)而不是預(yù)先設(shè)定的模型(例如高斯分布)對數(shù)據(jù)進(jìn)行擬合,因此較廣義線性模型更適用[28]。
CART模型通過二值遞歸分割產(chǎn)生二叉樹,在每一個(gè)可能的節(jié)點(diǎn)根據(jù)變量的值進(jìn)行判斷并將變量的所有值分割為兩個(gè)子類。每一次分割都只基于單個(gè)變量值,在此過程中,有些變量值可能會被采用多次,而另外一些變量值則可能不會被采用。在每一次分割之后,能夠保證包含在兩子類中的變量值是“有區(qū)別的最大化”。兩個(gè)子類的變量值根據(jù)一定的準(zhǔn)則被繼續(xù)分割,直至達(dá)到分類的目的。在物種潛在分布模擬中,通常以物種分布樣本上各變量的極值作為節(jié)點(diǎn)進(jìn)行分割。
GARP模型利用物種的分布數(shù)據(jù)和環(huán)境數(shù)據(jù)運(yùn)行產(chǎn)生不同規(guī)則的集合,判斷物種的生態(tài)需求,然后預(yù)測物種的潛在分布區(qū)。GARP模型是一個(gè)反復(fù)迭代,尋找最優(yōu)種類分布規(guī)則的過程[29],在模型中,遺傳算法本身并不能刻畫生物分布與環(huán)境因子的關(guān)系,被用來刻畫這種關(guān)系的是“規(guī)則(Rule)”,如Range規(guī)則,Atomic規(guī)則,Logit規(guī)則等等,遺傳算法的作用是為這些規(guī)則尋找最大的參數(shù)。GARP模型具有以下優(yōu)點(diǎn): 首先,它能快速有效的搜索多變量空間;其次,遺傳算法是一種非參數(shù)方法,它對變量所屬總體的統(tǒng)計(jì)分布形式?jīng)]有嚴(yán)格要求;第三,GARP模型中集成了多類規(guī)則,各類規(guī)則之間的互補(bǔ)提高了GARP的模擬能力。
1.2 各物種分布模型的性能表現(xiàn)
應(yīng)用本文提及的物種分布模型,Elith等對分布于全球6個(gè)不同地區(qū)的226種物種(澳大利亞濕潤赤道地區(qū)的鳥類和植物種、加拿大安大略省的鳥類、澳大利亞新南威爾士州的植物種、哺乳動(dòng)物和爬行動(dòng)物種、新西蘭的植物種、南美5個(gè)國家的植物種以及瑞士的植物種)的空間分布進(jìn)行了模擬研究,并根據(jù)實(shí)測樣本數(shù)據(jù)對結(jié)果進(jìn)行了評價(jià),相關(guān)結(jié)論認(rèn)為,Maxent模型具有較好的性能表現(xiàn)[4]。自2006年被開發(fā)以來,應(yīng)用該模型進(jìn)行物種保護(hù)區(qū)規(guī)劃、入侵物種的潛在分布預(yù)測以及物種的空間分布對氣候變化的響應(yīng)等研究的報(bào)道已超過2000次,這也從另一個(gè)側(cè)面說明了相關(guān)研究領(lǐng)域?qū)υ撃P偷恼J(rèn)可程度。GLM模型、GAM模型和GARP模型的性能位于Maxent模型之后,但優(yōu)于DOMAIN模型和BIOCLIM模型[4]。Tsor等選擇分布于以色列的42種蛇類、鳥類和蝙蝠物種進(jìn)行了空間分布的研究和相關(guān)模型的性能評價(jià),結(jié)論也同樣認(rèn)為,BIOCLIM模型的性能較差[30]。對其他模型性能的評價(jià)結(jié)果,卻與Elith等的結(jié)果有所區(qū)別:GARP模型和MD模型的性能優(yōu)異,HABITAT模型、DOMAIN模型和ENFA模型的性能次之。關(guān)于物種分布模型性能評價(jià)的最新結(jié)果顯示:選用不同的性能評價(jià)手段對模型的性能進(jìn)行評價(jià),會導(dǎo)致得出不同的結(jié)果;另外,若對適宜分布區(qū)范圍較小的物種進(jìn)行空間分布的模擬,則模型之間的差異較大,相反,若研究物種的分布較為廣泛,則各模型的性能表現(xiàn)出較高的一致性[31]。
物種分布模型對潛在分布的預(yù)測,一般以布爾值(1表示潛在分布,0表示潛在不分布)或連續(xù)值(概率大小表示物種分布的可能性)給出模擬結(jié)果。對應(yīng)的物種分布模型評價(jià)方法,也分為兩類: 閾值相關(guān)方法(Threshold-dependent)和閾值無關(guān)方法(Threshold-independent)。兩類方法都需要首先定義誤差矩陣(表1),若令樣本總數(shù)為n,則誤差矩陣的基本元素分別為實(shí)測分布、預(yù)測也分布的元素a,實(shí)測未分布、預(yù)測也為未分布的元素d,實(shí)測未分布、預(yù)測分布的元素b(Commission error)和實(shí)測分布、預(yù)測未分布的元素c(Omission error)。
表1 誤差矩陣Table 1 Confusion matrix
2.1 閾值相關(guān)法
閾值相關(guān)法指可被直接用以評價(jià)輸出結(jié)果為布爾值(1表示潛在分布,0表示潛在不分布)的模型的評價(jià)方法。如表2所示,閾值相關(guān)的評價(jià)方法包括總體精度、敏感性、特異性、預(yù)測分布準(zhǔn)確率、預(yù)測未分布準(zhǔn)確率、預(yù)測分布似然比、預(yù)測未分布似然比、真實(shí)技巧統(tǒng)計(jì)值、分布-未分布比值比、尤拉Y系數(shù)(Yule′s Y)、尤拉Q系數(shù)(Yule′s Q)、φ系數(shù)(Phi coefficient)、卡帕系數(shù)(Kappa)、歸一化互信息量和極端相關(guān)值.
表2 物種分布模型的閾值相關(guān)評價(jià)方法[32]Table 2 Threshold-dependent accuracy measures of species distribution models[32]
在這些指數(shù)中,總體精度粗略的反應(yīng)了模型預(yù)測結(jié)果與觀測樣本相吻合的程度。敏感性和特異性是條件概率,前者指模型預(yù)測分布的樣本個(gè)數(shù)占實(shí)測分布樣本總數(shù)的比例,后者指預(yù)測未分布樣本個(gè)數(shù)占實(shí)測未分布樣本總數(shù)的比例。可以看到,敏感性和特異性是基于實(shí)測觀測樣本的準(zhǔn)確性評價(jià)指數(shù),對應(yīng)的,可以構(gòu)建基于預(yù)測結(jié)果的準(zhǔn)確性評價(jià)指數(shù)——預(yù)測分布準(zhǔn)確率(與敏感性相對應(yīng),建議稱為預(yù)測敏感性)和預(yù)測未分布準(zhǔn)確率(與特異性相對應(yīng),建議稱為預(yù)測特異性),前者指實(shí)測分布的樣本個(gè)數(shù)占預(yù)測分布總數(shù)的比例,后者指實(shí)測未分布的樣本個(gè)數(shù)占預(yù)測未分布樣本總數(shù)的比例。由這些指數(shù)的定義可知,它們的值域?yàn)閇0,1],且值越高表明模型的性能越好。
預(yù)測分布似然比和預(yù)測未分布似然比最早被用以進(jìn)行醫(yī)學(xué)診斷,由定義(表2)可知,預(yù)測分布似然比指實(shí)測分布樣本中被準(zhǔn)確預(yù)測為分布的樣本與實(shí)測未分布樣本中被錯(cuò)誤預(yù)測為分布樣本的比例,對應(yīng)的,預(yù)測未分布似然比指實(shí)測分布中被錯(cuò)誤預(yù)測為未分布的樣本與實(shí)測未分布樣本中被準(zhǔn)確預(yù)測為未分布樣本之間的比例,在計(jì)算過程中,如果b為零,則預(yù)測分布似然比無意義,若d為零,則預(yù)測未分布似然比無意義。由于同時(shí)考慮了敏感性和特異性,因此相對于單獨(dú)采用敏感性和特異性,采用預(yù)測分布似然比和預(yù)測未分布似然比對模型性能進(jìn)行評價(jià)給出的結(jié)果更有效[33]。由定義可知,預(yù)測分布似然比和預(yù)測未分布似然比取非負(fù)值,值域取決于樣本個(gè)數(shù),前者的值越大說明模型的預(yù)測性能越好,后者則相反,即值越小,模型的性能越好。
Kappa系數(shù)在很多研究中得到了非常廣泛的應(yīng)用,該系數(shù)刻畫了模擬值和觀測值之間的接近程度是否大于隨機(jī)分配的值。Kappa系數(shù)的值域?yàn)閇0,1]且該值越高表明模型的性能越好。由分布-未分布比值比的定義可以看出,該指數(shù)表示預(yù)測正確的樣本個(gè)數(shù)與預(yù)測錯(cuò)誤的樣本個(gè)數(shù)之間的比值,F(xiàn)ielding和Bell首次將其引入到物種分布建模中進(jìn)行模型性能的評價(jià)[33],分布-未分布比值比在b=0(模型預(yù)測未分布而實(shí)測記錄到分布的樣本個(gè)數(shù)為零)或c=0(模型預(yù)測分布而實(shí)測未分布的樣本個(gè)數(shù)為零)的情況下是無意義的,但是在模型表現(xiàn)出色的情況下,有可能出現(xiàn)b=0或c=0,因此,在這種情況下,一般為誤差矩陣(表1)中的各元素增加一個(gè)微量(如0.1)來計(jì)算分布-未分布比值比。分布-未分布比值比為非負(fù)值,值域取決于樣本個(gè)數(shù),分布-未分布比值比越大,模型性能越優(yōu)。尤拉Y系數(shù)和Q系數(shù)相對于分布-未分布比值比更具優(yōu)勢,因?yàn)檫@兩個(gè)指數(shù)可被認(rèn)為是在[-1, 1]上的相關(guān)系數(shù),另外,由計(jì)算公式可以看出,它們不存在無定義的情況且尤拉Y系數(shù)和Q系數(shù)越大,模型的預(yù)測性能越佳。
極端相關(guān)值利用誤差矩陣中的a和c元素對模型的性能進(jìn)行評價(jià),其值域?yàn)閇-1, 1],-1表示預(yù)測性能極差,1表示極優(yōu),0為模型預(yù)測性能與隨機(jī)分配相當(dāng)。然而,極端相關(guān)值未考慮元素b(實(shí)測未分布但預(yù)測分布的樣本個(gè)數(shù))和d(實(shí)測未分布、預(yù)測也未分布的樣本個(gè)數(shù)),因此利用極端相關(guān)值進(jìn)行模型性能評價(jià)是不全面的。
2.2 閾值無關(guān)法
閾值無關(guān)法是與閾值相關(guān)法相對應(yīng)的模型性能評價(jià)方法,閾值無關(guān)法被定義為能夠評價(jià)輸出結(jié)果為連續(xù)值(而非布爾值)的模型的評價(jià)方法,這類方法包括最大總體精度、最大卡帕系數(shù)(Maximum kappa)、最大真實(shí)技巧統(tǒng)計(jì)值、受試者操作特征曲線下面積(AUC)、基尼系數(shù)(Gini index)、點(diǎn)二列相關(guān)系數(shù)、均方差、均方根誤差、決定系數(shù)和平均絕對預(yù)測誤差??傮w精度、Kappa系數(shù)和真實(shí)技巧統(tǒng)計(jì)值已在閾值相關(guān)的評價(jià)方法中有所介紹,閾值無關(guān)法中與它們相關(guān)的評價(jià)方法是它們各自的極值。均方差、均方根誤差、決定系數(shù)和平均絕對預(yù)測誤差是常見的誤差統(tǒng)計(jì)值,但在物種分布模型的性能評價(jià)中,應(yīng)用還較少,由于其定義簡單易于理解,因此也不做具體的分析,以下主要分析受試者操作特征曲線下面積AUC(按定義,基尼系數(shù)為2AUC- 1,因此也略過對基尼系數(shù)的具體分析)、點(diǎn)二列相關(guān)系數(shù)和平均交叉熵。
表3 物種分布模型的閾值無關(guān)評價(jià)方法[32]Table 3 Threshold-independent accuracy measures of species distribution models[32]
2.3 適用于不同模型的性能評價(jià)手段
按照模型輸出結(jié)果的數(shù)據(jù)類型,可將前述的多種模型分為兩類:布爾型結(jié)果模型和概率型結(jié)果模型。布爾型結(jié)果模型包括BIOCLIM、HABITAT、DOMAIN、ENFA、MD、BF、CART、以及GARP等模型,因此閾值無關(guān)法所包含的多種評價(jià)方法可被用于評價(jià)這些模型的預(yù)測性能。概率型結(jié)果模型包括Maxent、GLM、GAM、MARS以及ANN等,因該類模型的輸出結(jié)果為概率值,因此選擇不同的概率值作為閾值,將對模型的預(yù)測結(jié)果產(chǎn)生影響。因此,應(yīng)用閾值相關(guān)法包含的多種評價(jià)方法對該類模型的性能進(jìn)行評價(jià)是合適的。
盡管物種分布模型得到了廣泛的應(yīng)用,但也存在值得深入研究的問題:
首先,分布樣本的選取可能造成預(yù)測結(jié)果的偏差。由于在樣本采集過程中存在諸如道路便利性、物種的空間分布受到自然或人為因素的干擾等問題,造成收集的樣本集是“有偏的”——即樣本集所代表的生態(tài)位只是實(shí)際生態(tài)位的一部分。因此,若不對樣本集進(jìn)行以無偏化為目的的選擇和處理,則將造成模擬過程中模型算法過度利用部分區(qū)域的樣本擬合物種和環(huán)境變量之間的關(guān)系,從而產(chǎn)生過度擬合問題。而與此同時(shí),由于另外一些區(qū)域的樣本數(shù)較少,造成欠擬合。與分布樣點(diǎn)有關(guān)的另一個(gè)影響因素是:在建模過程中是否考慮不分布樣點(diǎn)的信息。若對物種分布模型按其所需的樣點(diǎn)類型進(jìn)行分類,可將各種分布模型分為只依賴分布樣點(diǎn)的(Presence-only)和共同依賴分布-不分布樣點(diǎn)的(Presence-absence)模型。Presence-only型模型只依據(jù)分布樣點(diǎn)和環(huán)境變量之間的關(guān)系構(gòu)建物種與環(huán)境條件之間的關(guān)系,而Presence-absence型模型除此之外,還考慮不利于物種分布的環(huán)境條件的影響。有研究認(rèn)為,在具備可信的不分布樣點(diǎn)(Absence)情況下,可以考慮采用Presence-absence型模型對物種的潛在分布進(jìn)行預(yù)測[38]。因此,在物種分布模型中集成樣本選擇模塊,以避免模型預(yù)測過程中的過度擬合及欠擬合,或允許用戶能夠選擇基于Presence-only或Presence-absence數(shù)據(jù)對物種的分布進(jìn)行預(yù)測,是值得關(guān)注的問題。
其次,環(huán)境變量的選擇也將影響模型的預(yù)測結(jié)果。目前的很多研究,都采用Bioclim數(shù)據(jù)集合(該集合內(nèi)的19個(gè)生物氣候變量包括溫度、降水量的極值以及變率等)以及坡向、坡度、海拔、歸一化植被指數(shù)(NDVI)、植被覆蓋度、土地利用等作為環(huán)境變量對陸地生態(tài)系統(tǒng)的物種做出潛在分布的估計(jì)[39]。然而,這些變量之間存在的自相關(guān)在模型預(yù)測過程中引入了冗余信息,因此,在進(jìn)行物種潛在分布建模時(shí),應(yīng)先考慮對環(huán)境變量進(jìn)行選擇。在諸多模型中,Maxent模型以貢獻(xiàn)率評價(jià)各環(huán)境變量對物種潛在分布的影響程度,但這種方法也存在一定的局限性[19]。因此,在后續(xù)的模型開發(fā)過程中,增加變量選擇模塊(如計(jì)算方差膨脹因子),以排除冗余信息的影響,是物種分布模型發(fā)展中的關(guān)鍵問題。
再次,生物因子(如物種間的相互作用)的空間信息難以表達(dá)。除以上提及的諸多非生物因子外,生物因子對目標(biāo)物種的潛在分布也會產(chǎn)生重要的影響。盡管有研究涉及采用生物因子(如收集的競爭物種的空間分布)對目標(biāo)物種的潛在分布進(jìn)行預(yù)測[39],然而,目前開展的大部分研究都較少引入生物因子進(jìn)行目標(biāo)物種空間分布的預(yù)測。因而,對生物因子的可信表達(dá)和物種間相互作用的考量,也是物種空間分布模型的發(fā)展和應(yīng)用中的前沿問題。需要注意的是,對不同生境類型的物種,需采用不同的方法描述生物因子。例如,影響植物種空間分布的生物因子,可從垂直方向(放牧水平、踩踏程度、植食動(dòng)物的施肥功能等)和水平方向(以優(yōu)勢種蓋度所表達(dá)的競爭、適應(yīng)性等)進(jìn)行描述。而影響動(dòng)物種潛在分布的生物因子,則宜從其所處食物鏈中的級別進(jìn)行考慮,例如上級捕食者、同級競爭者和下級捕食對象的空間分布和密度等。
最后,空間外推和時(shí)間外推和合理性問題。對物種歷史時(shí)期的分布、入侵物種在入侵地的分布以及氣候變化背景下物種分布的估計(jì),是物種分布模型的重要應(yīng)用方面。然而,相關(guān)估計(jì)的假設(shè)前提,是物種與環(huán)境條件之間的關(guān)系是均衡的,即物種在新的環(huán)境條件下,仍保持與原環(huán)境條件之間的關(guān)系。這是值得商榷的,因?yàn)槲锓N具有對新的環(huán)境條件的適應(yīng)性以及物種本身的空間擴(kuò)散行為。因此,將物種對環(huán)境的適應(yīng)性機(jī)制(及擴(kuò)散行為特征)和潛在分布模型進(jìn)行結(jié)合,是提高模型預(yù)測性能的可行方案。值得考慮的是:物種的適應(yīng)性和擴(kuò)散行為,需要根據(jù)目標(biāo)物種的不同而區(qū)別對待,較合理的方案,是對適應(yīng)性和擴(kuò)散行為進(jìn)行分級,例如,可將擴(kuò)散行為分為時(shí)間和空間上的充分?jǐn)U散、部分?jǐn)U散以及無擴(kuò)散[40]。
模型性能的評價(jià)方面,也存在值得關(guān)注的問題:
本文回顧了應(yīng)用較為廣泛的物種分布模型、其性能表現(xiàn)以及現(xiàn)階段對這些模型的指數(shù)評價(jià)方法。從文獻(xiàn)回顧可知,Maxent、GLM、GAM、GARP以及MD模型的性能相對優(yōu)異,而HABITAT、DOMAIN和ENFA模型的性能相對較差。物種分布模型的進(jìn)一步發(fā)展,應(yīng)考慮增加避免過度擬合及欠擬合的模塊,變量選擇模塊、生物變量的空間表達(dá)模塊以及物種對新環(huán)境變量的適應(yīng)性機(jī)制模塊,以實(shí)現(xiàn)對物種空間分布的可信估計(jì)。關(guān)于對物種性能的評價(jià),現(xiàn)階段被廣泛應(yīng)用的AUC方法存在缺陷,相關(guān)研究中可考慮用PAUC作為替代方案,也可采用AIC指數(shù)進(jìn)行評價(jià)。另外,在對各種評價(jià)指數(shù)的計(jì)算中,缺乏對它們的標(biāo)準(zhǔn)差以及置信區(qū)間的估計(jì),在進(jìn)一步的研究中,可通過Z-檢驗(yàn)(或Monte-Carlo檢驗(yàn))的辦法獲得各指數(shù)的顯著性檢驗(yàn)。然而,由于Z-檢驗(yàn)(或Monte-Carlo檢驗(yàn))的實(shí)行要求數(shù)據(jù)符合漸進(jìn)分布,這就意味著在野外工作中要獲取大量的調(diào)查數(shù)據(jù)。因此,能夠依據(jù)有限的樣本對模型的性能進(jìn)行評價(jià)的指數(shù)和方法是有價(jià)值的。此外,本文列舉的各種參數(shù)之間也存在相關(guān)性,因此,對它們之間變化關(guān)系的研究,也是值得考慮的問題。
[1] Hutchinson G E. The Niche: an Abstractly Inhabited Hyper volume. The Ecological Theatre and the Evolutionary Play. New Haven: Yale University Press, 1995.
[2] 蔣霞, 倪健. 西北干旱區(qū)10種荒漠植物地理分布與大氣候的關(guān)系及其可能潛在分布區(qū)的估測. 植物生態(tài)學(xué)報(bào), 2005, 29(1): 98- 107.
[3] Anderson R P, Raza A. The effect of the extent of the study region on GIS models of species geographic distributions and estimates of niche evolution: preliminary tests with montane rodents (genus Nephelomys) in Venezuela. Journal of Biogeography, 2010, 37(7): 1378- 1393.
[4] Elith J, Graham C H, Anderson R P, Dudík M, Ferrier S, Guisan A, Hijmans R J, Huettmann F, Leathwick J R, Lehmann A, Li J, Lohmann L G, Loiselle B A, Manion G, Moritz C, Nakamura M, Nakazawa Y, Overton J M, Peterson A T, Phillips S J, Richardson K S, Scachetti-Pereira R, Schapire R E, Soberón J, Williams S, Wisz M S, Zimmermann NE. Novel methods improve prediction of species′ distributions from occurrence data. Ecography, 2006, 29(2): 129- 151.
[5] 翟天慶, 李欣海. 用組合模型綜合比較的方法分析氣候變化對朱鹮潛在生境的影響. 生態(tài)學(xué)報(bào), 2012, 32(8): 2361- 2370.
[6] 冷文芳, 賀紅士, 布仁倉, 胡遠(yuǎn)滿. 中國東北落葉松屬3種植物潛在分布對氣候變化的敏感性分析. 植物生態(tài)學(xué)報(bào), 2007, 31(5): 825- 833.
[7] 張雷, 劉世榮, 孫鵬森, 王同立. 氣候變化對馬尾松潛在分布影響預(yù)估的多模型比較. 植物生態(tài)學(xué)報(bào), 2011, 35(11): 1091- 1105.
[8] 張志東, 臧潤國. 海南島霸王嶺熱帶天然林景觀中主要木本植物關(guān)鍵種的潛在分布. 植物生態(tài)學(xué)報(bào), 2007, 31(6): 1079- 1091.
[9] Svenning J C, Skov F. The relative roles of environment and history as controls of tree species composition and richness in Europe. Journal of Biogeography, 2005, 32(6): 1019- 1033.
[10] Larson E R, Olden J D. Using avatar species to model the potential distribution of emerging invaders. Global Ecology and Biogeography, 2012, 21(11): 1114- 1125.
[11] Xu Z L, Zhao C Y, Feng Z D. Species distribution models to estimate the deforested area of Picea crassifolia in arid region recently protected: Qilian Mts. national nature reserve (China). Polish Journal of Ecology, 2012, 60(3): 515- 524.
[12] Busby J R. BIOCLIM —A Bioclimate Analysis and Prediction System. Nature Conservation: Cost effective biological surveys and data analysis. Melbourne: CSIRO, 1991: 64- 68.
[13] Walker PA, Cocks KD. HABITAT: a procedure for modeling a disjoint environmental envelop for a plant or animal species. Global Ecology and Biogeography Letters, 1991, 1(4): 108- 118.
[14] Carpenter G, Gillison A N, Winter J. DOMAIN: a flexible modelling procedure for mapping potential distributions of plants and animals. Biodiversity and Conservation, 1993, 2(6): 667- 680.
[15] Hirzel A H, Hausser J, Chessel D, Perrin N. Ecological niche factor analysis: How to compute habitat-suitability maps without absence data? Ecology, 2002, 83(7): 2027- 2036.
[16] Farber O, Kadmon R. Assessment of alternative approaches for bioclimatic modeling with special emphasis on the Mahalanobis distance. Ecological Modelling, 2003, 160(1/2): 115- 130.
[17] 許仲林, 趙傳燕, 馮兆東. 祁連山青海云杉林物種分布模型與變量相異指數(shù). 蘭州大學(xué)學(xué)報(bào): 自然科學(xué)版, 2011, 47(4): 55- 63.
[18] Zhao C Y, Nan Z R, Cheng G D, Zhang J H, Feng Z D. GIS-assisted modelling of the spatial distribution of Qinghai spruce (Piceacrassifolia) in the Qilian Mountains, northwestern China based on biophysical parameters. Ecological Modelling, 2006, 191(3/4): 487- 500.
[19] Phillips S J, Anderson R P, Schapire R E. Maximum entropy modeling of species geographic distribution. Ecological Modelling, 2006, 190(3): 231- 259.
[20] 馬松梅, 張明理, 張宏祥, 孟宏虎, 陳曦. 利用最大熵模型和規(guī)則集遺傳算法模型預(yù)測孑遺植物裸果木的潛在地理分布及格局. 植物生態(tài)學(xué)報(bào), 2010, 34(11): 1327- 1335.
[21] 張穎, 李君, 林蔚, 強(qiáng)勝. 基于最大熵生態(tài)位元模型的入侵雜草春飛蓬在中國潛在分布區(qū)的預(yù)測. 應(yīng)用生態(tài)學(xué)報(bào), 2012, 22(11): 2970- 2976.
[22] 段居琦, 周廣勝. 我國單季稻種植區(qū)的氣候適宜性. 應(yīng)用生態(tài)學(xué)報(bào), 2012, 23(2): 426- 432.
[23] Xu Z L, Zhao C Y, Feng Z D, Peng H H, Wang C. The impact of climate change on potential distribution of species in semi-arid region: a case study of Qinghai spruce (Piceacrassifolia) in Qilian Mountain, Gansu province, China // Proceeding of the 2009 IEEE International Geoscience and Remote Sensing Symposium. Cape Town: IEEE, 3: III412-III415.
[24] Xu Z L, Zhao C Y, Feng Z D, Zhang F, Sher H, Wang C, Peng H H, Wang Y, Zhao Y, Wang Y, Peng S Z, Zheng X L. Estimating realized and potential carbon storage benefits from reforestation and afforestation under climate change: a case study of the Qinghai spruce forests in the Qilian Mountains, northwestern China. Mitigation and Adaptation Strategies for Global Change, 2013, 18(8): 1257- 1268.
[25] 戚鵬程. 基于GIS的隴西黃土高原落葉闊葉林潛在分布及潛在凈初級生產(chǎn)力的模擬研究 [D]. 蘭州: 蘭州大學(xué), 2009.
[26] 朱源, 康慕誼. 排序和廣義線性模型與廣義可加模型在植物種與環(huán)境關(guān)系研究中的應(yīng)用. 生態(tài)學(xué)雜志, 2005, 24(7): 807- 811.
[27] 溫仲明, 赫曉慧, 焦峰, 焦菊英. 延河流域本氏針茅(Stipabungeana)分布預(yù)測——廣義相加模型及其應(yīng)用. 生態(tài)學(xué)報(bào), 2008, 28(1): 192- 201.
[28] Yee T W, Mitchell N D. Generalized additive models in plant ecology. Journal of Vegetation Science, 1991, 2(5): 587- 602.
[29] Li S C, Gao J B. Prediction of spatial distribution of Eupatorium adenophorum sprengel based on GARP model: A case study in longitudinal range-gorge region of Yunnan Province. Chinese Journal of Ecology, 2008, 27(9): 1531- 1536.
[30] Tsoar A, Allouche O, Steinitz O, Rotem D, Kadmon R. A comparative evaluation of presence-only methods for modelling species distribution. Diversity and Distributions, 2007, 13(4): 397- 405.
[31] Aguirre-Gutiérrez J, Carvalheiro L G, Polce C, van Loon E E, Raes N, Reemer M, Biesmeijer J C. Fit-for-Purpose: Species Distribution Model Performance Depends on Evaluation Criteria - Dutch Hoverflies as a Case Study. PLoS One, 2013, 8(5): e63708.
[32] Liu C, White M, Newell G. Measuring and comparing the accuracy of species distribution models with presence-absence data. Ecography, 2011, 34(2): 232- 243.
[33] Riddle D L, Stratford P W. Interpreting validity indexes for diagnostic tests: an illustration using the Berg balance test. Physical Therapy, 1999, 79(10): 939- 948.
[34] Fielding A H, Bell J F. A review of methods for the assessment of prediction errors in conservation presence/absence models. Environmental Conservation, 1997, 24(1): 38- 49.
[35] Manel S, Williams H C, Ormerod S J. Evaluating presence-absence models in ecology: the need to account for prevalence. Journal of Applied Ecology, 2001, 38(5): 921- 931.
[36] Raes N, ter Steege H. A null-model for significance testing of presence-only species distribution models. Ecography, 2007, 30(5): 727- 736.
[37] Tate R F. Correlation between a discrete and a continuous variable: point-biserial correlation. The Annals of Mathematical Statistics, 1954, 25(3): 603- 607.
[38] Li W K, Guo Q H. How to assess the prediction accuracy of species presence-absence models without absence data? Ecography, 2013, 36(7): 788- 799.
[39] Slater H, Michael E, Baylis M. Predicting the Current and Future Potential Distributions of Lymphatic Filariasis in Africa Using Maximum Entropy Ecological Niche Modelling. PloS ONE, 2012, 7(2), e32202.
[40] Godsoe W, Harmon L J. How do species interactions affect species distribution models? Ecography, 2012, 35(9): 8111- 820.
[41] Lobo J M, Jiménez-Valverde A, Real R. AUC: a misleading measure of the performance of predictive distribution models. Global Ecology and Biogeography, 2008, 17(2): 145- 151.
[42] Akaike H. A new look at the statistical model identification. IEEE Transactions on Automatic Control, 1974, 19(6): 716- 723.
[43] Warren D L, Seifert S N. Ecological niche modeling in Maxent: the importance of model complexity and the performance of model selection criteria. Ecological Application, 2011, 21(2): 335- 342.
The development and evaluation of species distribution models
XU Zhonglin1, 2,*, PENG Huanhua3, PENG Shouzhang4
1CollegeofResourcesandEnvironmentScience,XinjiangUniversity,Urumqi830046,China2KeyLaboratoryofCityIntellectualizingandEnvironmentModelling,XinjiangUniversity,Urumqi830046,China3WuhanBotannicalGarden,ChineseAcademyofSciences,Wuhan430074,China4StateKeyLaboratoryofGrasslandAgro-ecosystems,SchoolofLifeScience,LanzhouUniversity,Lanzhou730000,China
Species distribution models (SDMs) have been used in various applications, such as conservation planning, determining the impact of climate change on species distribution, and others. SDMs allow construction of the correlation relationship between occurrence of a target species and environmental conditions (including bioclimatic and anthropogenic conditions). The correlation relationship can then be applied to the entire environmental space to predict the potential distribution of a target species. In the present study, we first review widely-used SDMs and summarize their evaluation approaches. Generally, SDMs can be classified into two categories according to the data required for construction of the correlation relationship, i.e., SDMs that predict the potential distribution of species based on presence-only records (PO models), and SDMs that use presence-absence records (PA models). If reliable absence records are available, PA models are suggested. Additional classification of SDMs is based on output format, namely, SDMs that give prediction results in the format of continuous probabilities (the higher the probability, the more suitable for distribution), and those with results in the format of binary values (1 for suitable and 0 for unsuitable). According to the various SDM output formats, SDM performance can be evaluated by threshold-independent (for models with continuous probabilities) and threshold-dependent (for models with binary prediction) strategies. Threshold-independent strategies can be realized by calculating values of maximum overall accuracy, maximum kappa, maximum vertical distance, area under the receiver operating characteristic (ROC) Curve (AUC), Gini index, point biserial correlation coefficient, mean square error, root mean square error, coefficient of determination, mean absolute prediction error, and others. Threshold-dependent strategies can be realized by calculating values of sensitivity, specificity, positive predictive value, negative predictive value, positive likelihood ratio, negative likelihood ratio, true skill statistic, odds ratio, Yule′s Y, Yule′s Q, Phi coefficient, Kappa, normalized mutual information, extreme dependency score, and others. Based on existing problems related to the development, application and evaluation of SDMs, the present study suggests the following. (1) Because biased presence samples can influence the result of prediction, integrating a sample selection module in the SDM could improve the reliability of model prediction. (2) Bioclimatic variables (such as WorldClim) that are calculated from a Digital Elevation Model (DEM) may co-linearly correlate with each other, and such collinearity may result in overfitting when modeling the potential distribution of a species. As a result, selecting variables based on calculation of the Variance Inflation Factor (VIF) is a suitable means to avoid overfitting. (3) In addition to abiotic factors, biotic factors are also important determinants for species distribution. Thus, the use of biotic variables could improve the model results, although biotic factors are not easy to delineate within a geographic space. (4) The spatial and temporal extrapolation of SDMs, which deal with problems of species potential distribution at different geographic ranges and time points (past and/or future), respectively, are actually based on the assumption of an equilibrium relationship between the target species and environmental conditions. However, this assumption is challenged, because species have the abilities of adaption and dispersal. (5) The Partial AUC (PAUC) is suitable for evaluation of single model performance, and the Akaike Information Criterion (AIC) could provide an objective evaluation of the performance of several SDMs.
species distribution models; performance evaluation; threshold-dependent; threshold-independent
國家自然科學(xué)基金資助(41361098)
2013- 04- 03;
日期:2014- 03- 25
10.5846/stxb201304030600
*通訊作者Corresponding author.E-mail: galinwa@gmail.com
許仲林,彭煥華, 彭守璋.物種分布模型的發(fā)展及評價(jià)方法.生態(tài)學(xué)報(bào),2015,35(2):557- 567.
Xu Z L, Peng H H, Peng S Z.The development and evaluation of species distribution models.Acta Ecologica Sinica,2015,35(2):557- 567.