劉新濤,劉曉光,申 琪,張書杰,楊黨偉,任應(yīng)黨,*
(1.河南省農(nóng)業(yè)科學院植物保護研究所,河南省農(nóng)作物病蟲害防治重點實驗室,農(nóng)業(yè)部華北南部作物有害生物綜合治理重點實驗室,鄭州 450002;2.河南中醫(yī)學院,鄭州 450008;3鄭州大學生物工程系,鄭州 450001)
1901年Jaccard提出的用于生物區(qū)系比較的相似性系數(shù)計算公式[1],由于簡明、準確,迅速得到人們普遍認可,在生物學等自然科學以及社會科學的眾多領(lǐng)域被廣泛應(yīng)用[2],以相似性作為尺度的聚類分析技術(shù)(SCA)也日漸普及。由于Jaccard的公式只能計算2個地區(qū)間的相似性系數(shù),于是“合并降階”便成為相似性聚類分析方法中的核心技術(shù)環(huán)節(jié),并被奉為經(jīng)典。人們在大中型相似性聚類分析的運算中得不到既符合統(tǒng)計學邏輯,又具有地理學、生物學意義的結(jié)果時,往往只懷疑自己的基礎(chǔ)數(shù)據(jù)欠缺,而不去質(zhì)疑“合并”的合理性,只能將研究和數(shù)據(jù)束之高閣。申效誠等從創(chuàng)立多元相似性系數(shù)計算公式入手[3-4],徹底擯棄層層合并的環(huán)節(jié),創(chuàng)建了新的多元相似性聚類分析方法(MSCA)[5-6],經(jīng)過多類群、多地理區(qū)域的運算實驗[7-11],不僅簡便省時,而且聚類能力強大合理。
為了更直接鮮明地對比SCA和MSCA由于合并與不合并所產(chǎn)生的差異,選用小、中、大型3組數(shù)據(jù),分別用兩種方法運算,比較聚類結(jié)果。以便為MSCA的廣泛應(yīng)用、為生物地理學的發(fā)展提供科學依據(jù)。
所用材料均來自我們建造的中國昆蟲分布數(shù)據(jù)庫:山西省4638種昆蟲在7個小區(qū)的分布;內(nèi)蒙古自治區(qū)7766種昆蟲在14個小區(qū)的分布;中國16804屬昆蟲在67個生態(tài)區(qū)域的分布。
用Jaccard的二元相似性系數(shù)計算公式將上述材料分別制出7×7、14×14、67×67的相似性系數(shù)三角矩陣備用。
1.2.1 傳統(tǒng)的聚類分析法(SCA)
選擇相似性系數(shù)最大的兩個小區(qū)首先聚類,將這兩個小區(qū)的分布資料合并為一個新的小區(qū),使參與聚類的小區(qū)降為n-1個,再用Jaccard的公式計算n-1個小區(qū)的兩兩相似性系數(shù),排成n-1×n-1矩陣,重新選擇相似性系數(shù)最大的兩個小區(qū)予以合并,使參與聚類的小區(qū)數(shù)降為n-2個。如此反復(fù),直至全部小區(qū)聚類完成。最后,根據(jù)聚類與合并的順序作出支序圖。
式中,SI是兩個小區(qū)間的相似性系數(shù),A、B分別是兩個小區(qū)的種類數(shù),C是兩個小區(qū)的共有種類數(shù)。
1.2.2 多元相似性聚類分析法(MSCA)
選擇相似性系數(shù)最大的兩個小區(qū)首先聚類,但不將這兩個小區(qū)的分布資料合并,而是將其視為一個“單元群”,與其它沒有聚類的n-2個小區(qū)一同進入下一輪聚類分析。每輪均挑選相似性系數(shù)最大者聚類,擴大原單元群或形成新的單元群,如此反復(fù),直到聚類完成。相似性系數(shù)采用申效誠等創(chuàng)立的多元相似性系數(shù)公式計算。最后作出支序圖。
式中,SIn是要比較的n個小區(qū)間的相似性系數(shù);Si、Hi、Ti分別是i小區(qū)的種類數(shù)、共有種類數(shù)、獨有種類數(shù),且滿足Si-Ti=Hi;S為n個小區(qū)的總種類數(shù)。這些數(shù)據(jù)都可以從數(shù)據(jù)庫的查詢表上直接獲得。
兩個公式原理完全相同,前者是后者在n為2時的一個特例。后者是前者在n大于2時的通式。也即本文要比較的兩個方法的區(qū)別在于合并與不合并所引起的差異。
例如表1的山西省7個小區(qū)中,5、6小區(qū)的相似性系數(shù)最大(0.412),合并法是將其合并成一個有1413種(974+1021-582)昆蟲的新小區(qū),然后全省降為6個小區(qū),再重新尋找相似性最大的兩個小區(qū)予以合并,直到最后。
不合并法是不將5、6小區(qū)合并,而是將其視為新的聚類單元進入下一輪比較,當計算新聚類單元(包含5、6小區(qū))與其它任一小區(qū)(1、2、3、4、7小區(qū))間的相似性系數(shù)時,參與計算的是3個小區(qū)即n=3,在這一輪中,(5、6)和3小區(qū)間的相似性系數(shù)最大,因此,((5、6)、3)聚在一起形成了新的聚類單元;在下一輪比較時,將計算((5、6)、3)分別與1、2、4、7 小區(qū)之間的相似性系數(shù)(共4 個),以及(1 和2)、(1 和4)、(1 和7)、(2 和4)、(2和7)、(4和7)小區(qū)間的相似性系數(shù)(共6個),挑選其中相似性系數(shù)最大者(1和4小區(qū))聚成一類;再下一輪比較,需要比較的聚類單元有:2小區(qū)、(1、4小區(qū))、((5、6)、3小區(qū))和7小區(qū),計算相似性系數(shù)時,n值是實際參與的小區(qū)數(shù),如計算(1、4小區(qū))與((5、6)、3小區(qū))之間的相似性系數(shù)時,實際參與的小區(qū)數(shù)是5個小區(qū)即n=5。依次類推,直至全部小區(qū)聚類完成。
山西省共記錄4638種昆蟲,其中有省下分布記錄的有2619種,分布在7個小區(qū)內(nèi)的種類數(shù)、共有種類數(shù)及其相似性系數(shù)如表1。
表1 山西省各地理小區(qū)的昆蟲種類(對角線)、共有種類數(shù)(上三角)和相似性系數(shù)(下三角)Table 1 The insect species number(on diagonal line),shared species number(above diagonal)and similarity coefficient(below diagonal)in every regions in Shanxi Province
使用合并法和不合并法分別得到兩個聚類圖(圖1,圖2)。
比較圖1和圖2,圖2中7個小區(qū)在相似性系數(shù)為0.30時聚為兩群。1、4、7小區(qū)聚為一群,以中低山地為主,居該省北、西方;其余4小區(qū)為一群,以平原、丘陵、低山為主,居該省中、東、南部,7個小區(qū)的總相似性系數(shù)為0.248。圖1 中7 個小區(qū)起初并為3 個新小區(qū),(1、4、7),(2、3),(5、6)各為一新小區(qū)。2、3 為低山,5、6則為平原丘陵,生態(tài)學意義更為突出,但它們難以以更低的相似性系數(shù)合并在一起,其生態(tài)學意義在高一級的聚類中喪失。7個小區(qū)最后的相似性系數(shù)為0.308,最多可在0.32處區(qū)分成兩個新小區(qū),同樣找不到辨別3個新小區(qū)的相似性水平。兩種聚類方法的結(jié)果在地理學、生物學上不存在差異,聚類結(jié)構(gòu)基本沒有變化。在統(tǒng)計上的差異:第一,相似性系數(shù)的含義不同,合并法最后的相似性系數(shù)0.308是最終合并成的山地區(qū)與平原區(qū)之間的相似性系數(shù),必須層層合并到最后才能完成,完成時,7個小區(qū)已不復(fù)存在,支序圖只是合并過程圖;不合并法的相似性系數(shù)0.248確實是7個小區(qū)的總相似性系數(shù),它不受聚類過程的影響,也不因聚類結(jié)構(gòu)變動而變化,甚至可以最先計算出來;第二,合并法在2、3合并區(qū)和5、6合并區(qū)之間的相似性系數(shù)0.382比2、3合并時的系數(shù)0.328還高,這種“倒掛”現(xiàn)象是由合并引起的后果,致使支序圖出現(xiàn)“凹陷”,不再是典型的梯形結(jié)構(gòu)。
圖1 山西省昆蟲分布合并法聚類圖Fig.1 The clustering graph of insect fauna of Shanxi Province by merge method
圖2 山西省昆蟲分布不合并法聚類支序圖Fig.2 The clustering graph of insect fauna of Shanxi Province by non-merged method
內(nèi)蒙古自治區(qū)有昆蟲7766種,有區(qū)下分布記錄的共5543種。分布在14個小區(qū)的種類數(shù)、共有種類數(shù)和相似性系數(shù)如表2,兩種聚類法得到兩個支序圖(圖3,圖4)。
表2 內(nèi)蒙古各地理小區(qū)的昆蟲種類(對角線)、共有種類數(shù)(上三角)和相似性系數(shù)(下三角)Table 2 The insect species number(on diagonal line),shared species number(above diagonal)and similarity coefficient(below diagonal)in every regions in Inner Mongolia
圖4中,在相似性系數(shù)0.20的水平上,14個小區(qū)聚為兩類,一類內(nèi)蒙古的東北部,以大興安嶺等山地為主要地理特征,另一類在內(nèi)蒙古西南部,以高原沙漠為主要地理特征,14個小區(qū)的總相似性系數(shù)為0.159。圖3中,起初12個小區(qū)分別合并為6個新小區(qū),在以后的7次系數(shù)計算中,有3次出現(xiàn)了“倒掛”,而且由于合并,第9小區(qū)賀蘭山和第10小區(qū)大興安嶺北段山前平原面積最小、昆蟲種類最少,被排斥在外,直到最后是賀蘭山和全內(nèi)蒙古的比較,相似性系數(shù)為0.086,聚類結(jié)構(gòu)產(chǎn)生較大變化,找不到一個合適的相似性水平把14個小區(qū)劃分成幾個有統(tǒng)計學和生態(tài)學意義的“類”來?!安⒍活悺?,常常是合并法的最終結(jié)果。
圖3 內(nèi)蒙古昆蟲分布合并法聚類圖Fig.3 The clustering graph of insect fauna of Inner Mongolia by merge method
圖4 內(nèi)蒙古昆蟲分布不合并法聚類支序圖Fig.4 The clustering graph of insect fauna of Inner Mongolia by non-merged method
圖4中,也出現(xiàn)一次“倒掛”,2、8小區(qū)之間相似性系數(shù)為0.315,3、13小區(qū)之間為0.316,但2、8、3三者的相似性系數(shù)為0.317,3小區(qū)只能放棄13小區(qū),和2、8小區(qū)聚在一起,由于2、8沒有合并,可以將3個小區(qū)并列。
數(shù)據(jù)庫記錄到的中國昆蟲共91179種,隸屬于16804屬,按生態(tài)條件將全國分成67個基礎(chǔ)地理單元,對于16904屬在67個單元中的分布,用兩個聚類方法得到兩個支序圖(圖5,圖6)。
圖6中,67個基礎(chǔ)地理單元在相似性系數(shù)為0.25時,聚合為9群,每群所轄單元在地理上都相鄰相連,在昆蟲區(qū)系性質(zhì)上都具有相同或相似的成分構(gòu)成,可以不加任何修飾地作為我國昆蟲的9個分布區(qū)。圖5中,67個單元最后合并成兩區(qū),一個是由5個單元合并,包括東北的小興安嶺、三江平原,西北的阿爾泰山,和新疆南部的帕米爾高原、昆侖山,違背地理學邏輯;另一個由其余62個單元合并而成,沒有生態(tài)學和生物地理學價值。66個相似性系數(shù)中,除去23個有意義的最低層次系數(shù)外,其余43個中有21個系數(shù)是倒掛的。整個過程,除是一場數(shù)字游戲外,沒有出現(xiàn)任何有積極意義的結(jié)果。
圖5 中國昆蟲屬級分布合并法支序圖Fig.5 The clustering graph of generic fauna from China by merge method
圖6 中國昆蟲屬級分布不合并法支序圖Fig.6 The clustering graph of generic fauna from China by nonmerged method
使用同一組數(shù)據(jù),兩種聚類分析方法得到不同的結(jié)果,而且隨著參與比較的地理單元的增多,差異愈加劇烈,從相似性系數(shù)大小,到聚類結(jié)構(gòu)變化,再到聚類功能喪失與否。這不是使用計算公式的錯誤,而是由于合并改變了原參與小區(qū)資料的性質(zhì)所引發(fā)的變化。在參與比較的地理單元較少時(例如7個以下),聚類結(jié)構(gòu)還不至于發(fā)生不合理變動,聚類結(jié)果還有一些應(yīng)用價值。參與小區(qū)達到10個以上,聚類結(jié)果則難堪相信。所以目前聚類分析的報道多是較少地理單元的應(yīng)用,多地理區(qū)域、多單元參與的報告寥若晨星。這也是人們已經(jīng)看到合并法的應(yīng)用局限性的結(jié)果。
兩種方法的計算,簡便程度也差別頗大。以手工計算為例,從制成二元相似性系數(shù)表開始,到繪出支序圖為止,合并法和不合并法的3個對比分別為130min和50min,4.5h和1.8h,7d和2d。合并法所浪費的時間主要在合并數(shù)據(jù)的環(huán)節(jié)。
無論兩種方法的結(jié)果差異大小,即使完全相同的情況下,其性質(zhì)也決然不同。不合并法的每一個相似性系數(shù)都是所轄小區(qū)的共同的相似性關(guān)系,不受所轄小區(qū)之間的聚類順序變動的影響;每一個系數(shù)都是獨立的,它的產(chǎn)生沒有順序,既可從下到上,也可從上到下,又可從中間任何層次算起;所有系數(shù)都是同時存在的。所以,不合并法的支序圖是一個“狀態(tài)”,一個所參與地理單元在共同存在的情況下表明彼此關(guān)系親疏、距離大小的狀態(tài)。
合并法的每一個相似性系數(shù)都是有關(guān)小區(qū)經(jīng)過多次合并而成的兩個新小區(qū)的相似性關(guān)系,受有關(guān)小區(qū)之間的合并順序變動的影響;每一個系數(shù)都不是獨立的,它的產(chǎn)生遵循從下到上的順序,前一個系數(shù)是后一個系數(shù)產(chǎn)生的條件,后一個系數(shù)是前一個系數(shù)消亡的結(jié)果;所有系數(shù)都不可能同時存在。所以,合并法的支序圖是一個“過程”,一個所參與地理單元不斷消亡新單元不斷產(chǎn)生的過程,一個不斷肯定又不斷否定的過程。
相似性系數(shù)越聚越高的“倒掛”是兩個方法都遇到的現(xiàn)象,但其性質(zhì)也不相同。不合并法的倒掛是由于涉及到的3個或4個小區(qū)互相都有較高的相似性,聚類后的共同相似性系數(shù)更高的罕見現(xiàn)象,只出現(xiàn)在聚類過程中的初級層次,極少出現(xiàn)在較高層次,出現(xiàn)頻次不高,出現(xiàn)時可以用并列法表示;合并法中的倒掛是由于合并后的兩個新小區(qū)之間的較高的相似性,它主要出現(xiàn)在合并過程的較高層次,而且頻次很高,幾占較高層次的1/2。由于涉及到的小區(qū)已經(jīng)合并,沒有辦法再把已經(jīng)合并消失掉的它們并列,只能使支序圖出現(xiàn)凹陷,失去正常的梯形結(jié)構(gòu)。
1848年,植物學領(lǐng)域首先提出相似性的概念,1901年,Jaccard提出了計算兩個地區(qū)間生物區(qū)系的相似性系數(shù)公式,由于其簡便性、科學性,迅速得到科學界認可。此后,人們又相繼提出40余個相似性公式,但都未動搖Jaccard公式的經(jīng)典地位,成為多學科、多領(lǐng)域中相似性計算的最基礎(chǔ)、最常用、最直觀方法。由于Jaccard公式不能計算多地區(qū)的相似性系數(shù),在相似性聚類分析中采用“合并降階”的辦法,能夠在較少小區(qū)比較時得到相對滿意的結(jié)果,實現(xiàn)了人們多區(qū)比較的愿望,使生物地理由定性研究向定量研究發(fā)展邁出了第一步,其歷史性價值不容低估。隨著其局限性的逐漸顯現(xiàn),人們曾試圖對合并后的二元系數(shù)進行修飾改良[12],但由于未脫離合并的窠臼,也難以達到預(yù)期的效果。因此在經(jīng)歷了短期的熱情之后,眾多領(lǐng)域的中大型聚類需求得不到滿足,其積極作用便逐漸消失,以致成為制約生物地理發(fā)展的瓶頸。申效誠等人創(chuàng)建的多元相似性系數(shù)公式及MSCA法,徹底擯棄合并降階這一產(chǎn)生偏差和錯誤的根源,能夠得出相對客觀的聚類結(jié)果,是生物地理學研究領(lǐng)域有效的聚類分析工具,必將使生物地理學的定量研究邁入一個新階段。
[1] Jaccard P.Distribution de la flore alpine dans le Bassin des Dranses et dams quelque region vasines.Bulletin de la Societe vaudoise des Sciences naturelles.Lausanne.1901,37:241-272.
[2] Zhan Y L.Coeeficient of Similarity——An Important Parameter in Floristic Geography,Geographical Research,1998,17(4):429-434
[3] Shen X C,Sun H,Zhao H D.A discussion about the method for multivariate similarity analysis of fauna.Acta Ecologica Sinica,2008,28(2):849-854.
[4] Shen X C,Wang A P.A Simple Formula for Multivariate Similarity Coefficient and Its Contribution Rate in Analysis of Insect Fauna.Journal of Henan Agricultural Sciences,2008,(7):67-69.
[5] Shen X C,Wang A P.Zhang S J.Studies on the Fauna of Noctuidae Ⅱ.Distribution and Similarity of Noctuidae in China.Acta Agriculturae Boreali-Sinica,2008,23(5):151-156.
[6] Shen X C,Zhang S J,Ren Y D.The elements of insect fauna in China and distribution characteristics.Journal of Life Science,2009,3(7):19-25.
[7] Zhao H D,Shen X C.A study on the Biogeography of Family Arctiidat in China//Shen X C,Zhang R Z,Ren Y D.Classification and Distribution of Insects in China,Beijing:China Agricultural Science and Technology Press,2008,381-388.
[8] Sheng M L,Shen X C.Distribution and Multivariate Similarity Clastering Analysis of Ichneumonidae in Every Provinces,China//Shen X C,Zhang R Z,Ren Y D.Classification and Distribution of Insects in China,Beijing:China Agricultural Science and Technology Press,2008,389-393.
[9] Shen X C,Ren Y D,Wang A P.Zhang S J.A multivariate similarity clustering analysis for geographical distribution of insects,spiders and mites in Henan Province.Acta Ecologica Sinica,2010,30(16):4416-4426.
[10] Shen X C,Sun H,Ma X J.The multivariate similarity clustering analysis for 40,000 species of insect and spider fauna in China.Journal of Life Science,2010,4(2):35-40.
[11] Ren Y D,Shen X C,Sun H,Ma X J.The Fauna Element and Geographical Distribution of Insect,Spider and Mite in Henan,China.Acta Agriculturae Boreali-Sinica,2011,26(1):204-209
[12] Ward J H.Heirarchical grouping to optimize an objective function.Journal of the American Statistical Association.1963,58:236-244.
參考文獻:
[2] 張鐿鋰.植物區(qū)系地理研究中的重要參數(shù)——相似性系數(shù).地理研究,1998,17(4):429-434.
[3] 申效誠,孫浩,趙華東.昆蟲區(qū)系多元相似性分析方法.生態(tài)學報,2008,28(2):849-854.
[4] 申效誠,王愛萍.昆蟲區(qū)系多元相似性的簡便計算方法及其貢獻率.河南農(nóng)業(yè)科學,2008,(7):67-69.
[5] 申效誠,王愛萍,張書杰.夜蛾科昆蟲區(qū)系研究 Ⅱ.中國各省區(qū)夜蛾的分布及相似性分析.華北農(nóng)學報,2008,23(5):151-156.
[6] 申效誠,張書杰,任應(yīng)黨.中國昆蟲區(qū)系成分構(gòu)成及其分布特點.生命科學,2009,3(7):19-25.
[7] 趙華東,申效誠.中國燈蛾科昆蟲的生物地理學研究//申效誠,張潤志,任應(yīng)黨.昆蟲分布與分類.北京:中國農(nóng)業(yè)科學技術(shù)出版社,2008,381-388.
[8] 盛茂領(lǐng),申效誠.中國各省區(qū)姬蜂科昆蟲的分布及多元相似性聚類分析//申效誠,張潤志,任應(yīng)黨.昆蟲分布與分類.北京:中國農(nóng)業(yè)科學技術(shù)出版社,2008,389-393.
[9] 申效誠,任應(yīng)黨,王愛萍,張書杰.河南昆蟲、蜘蛛、蜱螨地理分布的多元相似性聚類分析.生態(tài)學報,2010,30(16):4416-4426.
[10] 申效誠,孫浩,馬曉靜.中國40000種昆蟲蜘蛛?yún)^(qū)系的多元相似性聚類分析.生命科學,2010,4(2):35-40.
[11] 任應(yīng)黨,申效誠,孫浩,馬曉靜.河南昆蟲、蜘蛛、蜱螨的區(qū)系成分和分布地理研究.華北農(nóng)學報,2011,26(1):204-209.