呂旭紅,羅 澤
1(中國科學(xué)院大學(xué),北京 100049)2(中國科學(xué)院 計算機網(wǎng)絡(luò)信息中心,北京 100190)
基于互信息的生態(tài)位因子分析方法①
呂旭紅1,2,羅 澤2
1(中國科學(xué)院大學(xué),北京 100049)2(中國科學(xué)院 計算機網(wǎng)絡(luò)信息中心,北京 100190)
生態(tài)位因子分析方法是一種基于生態(tài)位概念的多變量分析方法,然而該方法在計算相關(guān)性時所使用的協(xié)方差只考慮了變量間的線性關(guān)系,而大部分變量間的關(guān)系是非線性相關(guān)的.互信息可用于衡量兩個變量間相互依賴的強弱程度,且不局限于線性相關(guān).本文提出基于互信息的生態(tài)位因子分析方法,采用互信息計算變量間的相關(guān)性,分析斑頭雁在青海湖地區(qū)的棲息地選擇情況以及棲息地適宜性,與傳統(tǒng)生態(tài)位因子分析方法相比,所提出的方法改變了特化向量,提高了棲息地適宜性預(yù)測的準(zhǔn)確率.
互信息;生態(tài)位因子分析方法;棲息地選擇;棲息地適宜性
棲息地指的是能夠為物種生存或繁殖使用的所有環(huán)境因素總和.棲息地的好壞能影響到物種分布、種群密度、繁殖成功率及存活率,因此,動物對其棲息地具有一定的選擇性.棲息地選擇指物種對不同棲息地產(chǎn)生不同反應(yīng)的過程,導(dǎo)致不成比例地使用棲息地,從而影響物種或個體的生存和適合度[1].棲息地選擇研究一直以來是動物生態(tài)學(xué)的研究熱點,與種群生態(tài)學(xué)、群落生態(tài)學(xué)等生態(tài)學(xué)分支有著密切的關(guān)系,同時它也是開展珍稀瀕危動物研究及生態(tài)多樣性保護的基礎(chǔ),并為動物保護措施的制定提供了重要的直接依據(jù)[2-4].
按照計算所需物種活動痕跡的不同,可將棲息地選擇模型分為三種:presence-absence模型、enhanced presence-only 模型以及 simple presence-only 模型.其中,simple presence-only模型通過分析已知的物種出現(xiàn)地點的生態(tài)環(huán)境特點,總結(jié)出統(tǒng)計規(guī)律,主要包括BIOCLIM、DOMAIN等.該模型計算過程簡單且易于理解,但預(yù)測準(zhǔn)確度不高,且只支持連續(xù)性數(shù)據(jù)輸入;enhanced presence-only模型只需要物種“出現(xiàn)”點的數(shù)據(jù),考慮環(huán)境變量及其相關(guān)性,主要是基于生態(tài)位思想研究物種棲息地選擇.主要包括ENFA、MADIFA、FANTER等.該模型支持連續(xù)和離散型數(shù)據(jù),能更好的描述物種分布,但依賴于“出現(xiàn)”數(shù)據(jù)的可靠性;presence-absence模型需要物種“出現(xiàn)”點和“非出現(xiàn)”點數(shù)據(jù),將問題轉(zhuǎn)換為預(yù)測是否會出現(xiàn),主要包括Logistic回歸、神經(jīng)網(wǎng)絡(luò)等.該模型具有較高魯棒性,但依賴于“非出現(xiàn)”數(shù)據(jù)的可靠性[5,6].
Presence-absence模型主要使用機器學(xué)習(xí)相關(guān)的算法,具有較高魯棒性,但是缺乏“非出現(xiàn)”數(shù)據(jù)是生態(tài)學(xué)研究的主要問題,“非出現(xiàn)”數(shù)據(jù)通常難以精確獲得.誤判的“非出現(xiàn)”數(shù)據(jù)的存在一定程度上會給分析帶來偏差,故通常考慮presence-only方法,而生態(tài)位因子分析方法是比較常用[7].然而該方法在計算相關(guān)性時所使用的協(xié)方差只考慮了變量間的線性關(guān)系,而大部分變量間的關(guān)系是非線性相關(guān)的.
針對該問題,考慮采用互信息計算變量間的相關(guān)性,提出基于互信息的生態(tài)位因子分析方法.互信息在衡量變量間的相關(guān)性時不局限于線性相關(guān).通過分析斑頭雁在青海湖地區(qū)的棲息地選擇情況以及棲息地適宜性,對所提出的方法和傳統(tǒng)生態(tài)位因子分析方法進行比較.
生態(tài)位(Eclogical Niche)的思想提供了一個只依賴“出現(xiàn)”數(shù)據(jù)的棲息地選擇方法.生態(tài)位指的是由n個環(huán)境變量構(gòu)成的n維生態(tài)空間下的超體積,在超體積中的點所構(gòu)成的生態(tài)環(huán)境表示能夠使物種無限生存的環(huán)境[7,8].如圖1(a)所示,研究區(qū)域?qū)?yīng)于圖中的可利用空間(Available Space),生物出現(xiàn)的區(qū)域?qū)?yīng)于圖中的利用空間(Used Space),即生態(tài)位.
圖1 可視化顯示生態(tài)位、邊緣向量以及特化向量
生態(tài)位因子分析(Ecological Niche Factor Analysis,ENFA)方法是建立在Hutchinson生態(tài)位基礎(chǔ)上的一種用于研究物種地理分布的多變量分析方法,它假設(shè)物種在多種環(huán)境條件下不是隨機分布的.在多維空間下比較物種利用分布與可利用分布的差異性,利用主成分分析方法提取出一套新的因子,這些因子具有兩層生態(tài)學(xué)含義,一個是邊緣性(Marginality),指物種利用空間均值和可利用空間均值的差異,值為正,則說明該物種在該環(huán)境變量上偏好于該生態(tài)因子平均水平以上的環(huán)境;為負(fù)則偏好于該生態(tài)位因子平均水平以下的環(huán)境,絕對值越大,偏好程度越高;另一個是特化性(Specialization),指在整個研究區(qū)域背景下,物種生態(tài)位特化的程度,值越大說明物種的生態(tài)位寬度越小,越無法忍受該環(huán)境變量的變化[4,7-9].
互信息衡量兩個變量間相互依賴的程度,表示兩個變量間共同擁有信息的含量[8].給定兩個隨機變量X和Y,若它們各自的邊緣概率分布和聯(lián)合概率分布分別為 p(x),p(y)和 p(x,y),則它們之間的互信息 I(X;Y)定義為:
當(dāng)變量X和Y完全無關(guān)或相互獨立時,互信息最小,結(jié)果為 0.
這意味著兩個變量之間不存在重疊的信息;反之,兩者的相互依賴程度越高,互信息的值越大,所包含的相同信息也越多[10].
設(shè)Z為N*V的矩陣,表示V個環(huán)境變量在N個柵格單元上的值,定義了V維生態(tài)空間上的點集(可利用空間).S為NS*V的矩陣,表示生物在NS個柵格單元上出現(xiàn)所對應(yīng)的V個環(huán)境變量的值,定義了V維生態(tài)空間上的點集(利用空間).為了消除變量之間由于量綱不同造成的差異,Z和S已進行數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理.
在ENFA方法中,尋找一個單位向量μ,使得可利用棲息分布投影到該向量后的方差與利用棲息分布投影后的方差比值最大,同時該向量與邊緣化向量 q 正交,如圖 1(b),μ即特化向量.將問題公式化為:
可以看出在計算可利用棲息地與利用棲息地方差時使用協(xié)方差反映變量間的相關(guān)性,但它只能反映變量間的線性關(guān)系,無法衡量變量間的非線性關(guān)系,而互信息從信息論的角度出發(fā),評估變量間共有信息量,不局限于線性關(guān)系,與協(xié)方差相比有很大優(yōu)勢.從公式(2-4)可以看出,求解特化向量的過程相當(dāng)于求解帶約束的主成分分析的過程,文獻[10]中已給出了在主成分分析中將互信息替代協(xié)方差的可行性解釋,且基于互信息的主成分分析方法能夠提高分類精度,因此,考慮在生態(tài)位因子分析中用互信息替代協(xié)方差,提出一種基于互信息的生態(tài)位因子分析(ENFA based on mutual information,MIENFA)方法.將式(5)、(6)分別改寫為:
其中,兩個矩陣的對角線元素為變量的自信息,非對角線元素為兩個變量之間的互信息.無論互信息或自信息均為實數(shù),當(dāng)兩個變量之間不相關(guān)時,互信息為0,否則為正數(shù),因此矩陣為非負(fù)實數(shù)陣.同時,互信息滿足I(X,Y)=I(Y,X),可得矩陣為非負(fù)實數(shù)對稱陣.令:
矩陣RG和RS為非負(fù)實數(shù)對稱陣,則式(9)有解且與矩陣H的特征向量νi相關(guān).MIENFA算法偽代碼如表1所示.
使用2007-2008年斑頭雁的軌跡數(shù)據(jù),原始數(shù)據(jù)471774 條,共 29 只斑頭雁.如表 2 所示,數(shù)據(jù)記錄主要包括以下幾個字段.字段animal表示被跟蹤鳥類的唯一編號;record_id 表示數(shù)據(jù)獲取的類型,LATEST ARGOS LOCS 表示使用 Argos系統(tǒng)進行定位,LATEST GPS LOCS 表示使用 GPS 進行定位;latitude和longitude分別表示經(jīng)度和緯度;lc94用來標(biāo)記數(shù)據(jù)的衛(wèi)星等級,使用GPS進行定位的數(shù)據(jù)的級別為LG,使用Argos系統(tǒng)進行定位的數(shù)據(jù)等級分為7個,按照準(zhǔn)確度增大的順序分別為LZ、LB、LA、L0、L1、L2和L3;datetime表示獲取到數(shù)據(jù)的時間[11].
表1 MIENFA 算法偽代碼
根據(jù)文獻[11],一般使用LG,L1-L3這四種精度的數(shù)據(jù)進行分析,過濾后數(shù)據(jù)量為103486條.青海湖附近區(qū)域地理類型豐富,且斑頭雁的記錄數(shù)據(jù)較多,故實驗選取青海湖區(qū)域(96°E,101°E,34°N,38°N)作為研究區(qū)域,該區(qū)域內(nèi)的數(shù)據(jù)量為61799條.
表2 斑頭雁軌跡數(shù)據(jù)格式
使用中國地區(qū)土地覆蓋綜合數(shù)據(jù)集,網(wǎng)格數(shù)后為4857×4045,分辨率為 1 km,不同環(huán)境變量對應(yīng)不同的值,值域為 1 到 22 的整數(shù)值,如圖 2 所示[12].表 3 為研究區(qū)域內(nèi)的環(huán)境變量以及比重(Xi表示變量在土地覆蓋中的值為 i).其中,X1、X2、X10、X11、X14、X15、X17、X18、X21 所占的比重較小(<=5%),考慮使用研究區(qū)域內(nèi)各個像素與這些環(huán)境變量的最近距離替換,以豐富這些變量的變化.研究區(qū)域內(nèi)環(huán)境變量的分布情況如圖3所示.
圖2 研究區(qū)域內(nèi)土地覆蓋數(shù)據(jù)
首先,進行棲息地選擇,得到邊緣因子與特化因子,從而定性分析出影響棲息地選擇的主要環(huán)境變量.為了定量比較兩個算法的性能,利用邊緣因子和特化因子,計算棲息地適宜性.故主要進行兩個實驗,首先,分別使用ENFA和MIENFA分析斑頭雁棲息地選擇情況,然后,使用交叉檢驗方法分析和比較ENFA、MIENFA 兩種方法在棲息地適宜性的預(yù)測結(jié)果,最后給出斑頭雁棲息地適宜圖.
表3 研究區(qū)域內(nèi)的環(huán)境變量及比重
圖3 研究區(qū)域內(nèi)環(huán)境變量的分布圖
利用R中adehabitatHS包[13]的enfa方法以及自己編寫的mienfa方法分析研究區(qū)域內(nèi)斑頭雁軌跡數(shù)據(jù)與環(huán)境變量的關(guān)系,得到邊緣向量和特化向量,如表4所示,兩個方法的邊緣向量相同,特化向量不同.
表4 ENFA和MIENFA的邊緣因子、第一個特化因子
根據(jù)邊緣向量對比斑頭雁對不同環(huán)境變量的偏好,可得出,在研究區(qū)域內(nèi),斑頭雁主要選擇在靠近湖、冰川以及牧場較多的地區(qū)棲息.
比較特化向量,ENFA認(rèn)為斑頭雁無法忍受沙漠、與湖距離、與針葉闊葉林距離的變化,而MIENFA認(rèn)為斑頭雁無法忍受沙漠、沙礫、牧場的變化.
利用adehabitatHS包[11]提供的predict方法計算得到棲息地適宜圖(Habitat Suitability Mapping),該方法先將多維空間中的點映射到邊緣-特化低維空間上,再計算每個點到中心的曼哈頓距離作為該點的棲息地適宜值,距離越小,則越適宜棲息.ENFA 和 MIENFA 得到的數(shù)據(jù)是連續(xù)的,且范圍不同.為了方便比較,進行數(shù)據(jù)標(biāo)簽化.參照 FAO(Food and Agriculture Organization of United Nations)的土地適宜性分級標(biāo)準(zhǔn),采用 K-means 的離散化方法將棲息地適宜性分為3個等級:適宜棲息、次適宜棲息和不適宜棲息[14,15].
采用交叉檢驗方法,對兩個模型進行檢驗:先將斑頭雁活動軌跡點均分成10份,選擇其中9份作為訓(xùn)練集用于生成棲息地適宜圖,剩下1份作為測試集用于計算模型精確度.將“適宜棲息”作為正確分類點,設(shè)為1,其他設(shè)為0.重復(fù)上述檢驗過程10次以保證每份活動軌跡點都參與模型精度計算.采用分類混淆矩陣計算平均準(zhǔn)確率(AVGAccuracy).
生態(tài)位因子分析方法最終生成一個邊緣向量和多個特化向量,特化向量的貢獻率呈遞減.分別選擇累積貢獻率在70-80%、80-90%、90%以上的特化向量(表 5),計算棲息地適宜值.由圖 4 可知,在訓(xùn)練集上,累積貢獻率相近時,MIENFA的準(zhǔn)確率更高,且隨著累積貢獻率的增加,準(zhǔn)確率增大.相比于ENFA,MIENFA的準(zhǔn)確率平均提高了26.07%.在測試集上,兩個方法的表現(xiàn)都沒有訓(xùn)練集好,但MIENFA還是優(yōu)于ENFA.
表5 MIENFA 和 ENFA 方法累積貢獻率
圖4 MIENFA和 ENFA方法在90%訓(xùn)練集、10%測試集上的平均準(zhǔn)確率
將數(shù)據(jù)劃分為50%訓(xùn)練集和50%測試集,分別使用MIENFA和ENFA進行棲息地適宜性分析,如圖5,可以看出訓(xùn)練集的準(zhǔn)確度接近于測試集.根據(jù)準(zhǔn)確度計算公式以及實驗可知,圖4中測試集準(zhǔn)確率低于訓(xùn)練集可能是由于訓(xùn)練集的樣本量太少導(dǎo)致的.
選擇累積貢獻率達85.81%的特化向量,利用MIENFA對斑頭雁數(shù)據(jù)進行分析,K-means對棲息地適宜性進行分級,得到不同等級的簇中心、適宜度范圍以及所占比重,表6即為分級評價標(biāo)準(zhǔn).圖5為最終的棲息地適宜圖.
將土地覆蓋圖與棲息地適宜圖疊加,得出適宜棲息地區(qū)主要是草地,牧場,高山和亞高山草甸地區(qū);次適宜棲息地區(qū)主要是高山和亞高山草甸、高寒山草原;不適宜棲息地區(qū)主要是沙礫、沙漠.
圖5 MIENFA和ENFA 方法在50% 訓(xùn)練集、50%測試集上的平均準(zhǔn)確率
表6 分級評價標(biāo)準(zhǔn)
圖6 斑頭雁棲息地適宜圖
針對傳統(tǒng)生態(tài)位因子分析方法(ENFA)在求解過程中沒有考慮環(huán)境變量間的非線性相關(guān)的問題,本文在原有的ENFA方法基礎(chǔ)上,使用互信息來計算變量間的相關(guān)性,提出基于互信息的生態(tài)位因子分析方法(MIENFA).新的方法不再局限于描述環(huán)境變量間的線性相關(guān),能為數(shù)據(jù)建立更確切的描述模型.
在分析棲息地選擇時,MIENFA方法主要改變特化向量,即生態(tài)位的寬度.在計算棲息地適宜性時,MIENFA在準(zhǔn)確率上略高于ENFA,在一定程度上證明了該方法能更加確切的描述環(huán)境變量間的關(guān)系.
由于所選擇的研究區(qū)域較大,在計算每個柵格點的最近環(huán)境變量時所需時間較長,后續(xù)可考慮并行處理.
1 蔣愛伍,周放,覃玥,等.中國大陸鳥類棲息地選擇研究十年.生態(tài)學(xué)報,2012,32(18):5918–5923.
2 孔維堯,鄭振河,吳景才,等.莫莫格自然保護區(qū)白鶴秋季遷徙停歇期覓食生境選擇.動物學(xué)研究,2013,34(3):166–173.
3 戴強,顧海軍,王躍招.棲息地選擇的理論與模型.動物學(xué)研究,2007,28(6):681–688.
4 趙青山,樓瑛強,孫悅?cè)A.動物棲息地選擇評估的常用統(tǒng)計方法.動物學(xué)雜志,2013,48(5):732–741.
5 Senay SD,Worner SP,Ikeda T.Novel three-step pseudoabsence selection technique for improved species distribution modelling.PLoS One,2013,8(8):e71218.[doi:10.1371/journal.pone.0071218]
6 陳輝榮.基于多變量特征分析的棲息地選擇分析算法研究及應(yīng)用[碩士學(xué)位論文].北京:中國科學(xué)院大學(xué),2014.
7 Hirzel AH,Hausser J,Chessel D,et al.Ecological-niche factor analysis:How to compute habitat-suitability maps without absence data? Ecology,2002,83(7):2027–2036.[doi:10.1890/0012-9658(2002)083[2027:ENFAHT]2.0.CO;2]
8 Basille M,Calenge C,Marboutin é,et al.Assessing habitat selection using multivariate statistics:Some refinements of the ecological-niche factor analysis.Ecological Modelling,2008,211(1-2):233–240.[doi:10.1016/j.ecolmodel.2007.09.006]
9 王學(xué)志,徐衛(wèi)華,歐陽志云,等.生態(tài)位因子分析在大熊貓(Ailuropoda melanoleuca)生境評價中的應(yīng)用.生態(tài)學(xué)報,2008,28(2):821–828.
10 范雪莉,馮海泓,原猛.基于互信息的主成分分析特征選擇算法.控制與決策,2013,28(6):915–919.
11 中國科學(xué)院計算機網(wǎng)絡(luò)信息中心.青海湖鳥類GPS跟蹤數(shù)據(jù)庫的詳細(xì)信息.http://rsr.csdb.cn/rss01001Action.do?fromAction=rsl01005Action.do&sheetId1694&templatN ameEn=DbMetadata09&owerSererName=%E9%9D%92%E 6%B5%B7%E6%B9%96%E6%B5%81%E5%9F%9F%E5%9F%BA%E7%A1%80%E7%A7%91%E5%AD%A6%E6%9 5%B0%E6%8D%AE%E5%BA%93&conditin.inputTextVal ue=&conditin.selectStautsValue=2&conditin.selectTypeValu e=&conditin.selectOwerValue=&conditin.orderbyItem=2&c onditin.orderbyItemType=2&conditin.page=1&conditin.total Count=2966.[2007-10-11].
13 Calenge C.Exploratory analysis of the habitat selection by the wildlife in R:The adehabitaths package.2011.http://www2.uaem.mx/r-mirror/web/packages/adehabitatHS/vignettes/adehabitatHS.pdf.
14 FAO.Food and agriculture organization of the United Nations.Rome:FAO,1997.
15 孔博,張樹清,張柏,等.遙感和 GIS 技術(shù)的水禽棲息地適宜性評價中的應(yīng)用.遙感學(xué)報,2008,12(6):1001–1009.
Ecological Niche Factor Analysis Based on Mutual Information
LV Xu-Hong1,2,LUO Ze21(University of Cinese Academy of Sciences,Beijing 100049,China)2(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China)
Ecological-Niche Factor Analysis (ENFA)is a multivariable approach based on the concept of the ecological niche.But when computing the relevance between variables by covariance,it only handles linear dependencies,while most is nonlinear interaction.Mutual information measures the interdependence between variables and it’s not limited to linear relations.ENFA based on mutual information (MIENFA)is presented which uses mutual information as the relevance.Through studies of Bar-headed Goose in Qinghai Lake,compared with the traditional ENFA,the proposed approach changes the specialization vector and improves the accurate rate of habitat suitability prediction.
mutual information;Ecological-Niche Factor Analysis (ENFA);habitat selection;habitat suitability
呂旭紅,羅澤.基于互信息的生態(tài)位因子分析方法.計算機系統(tǒng)應(yīng)用,2017,26(9):10–15.http://www.c-s-a.org.cn/1003-3254/5961.html
10.3972/westdc.007.2013.db]
①基金項后:中美軟件合作研究項后(61361126011)
2016-12-28;采用時間:2017-01-20