王曉麗 倪震東 王力華 劉 波
(中國科學院研究生院,北京,100049) (中國科學院沈陽應用生態(tài)研究所) (中國科學院東北地區(qū)植物與農(nóng)業(yè)生態(tài)研究所濕地環(huán)境與生態(tài)研究重點實驗室)
分類學研究的信息量是無限的,如果分類學工作者大量的時間和精力都花在繁瑣的信息收集、整理、檢索等手工操作中,將阻礙整個分類學科的發(fā)展。所以,急需一種工具讓分類學家從傳統(tǒng)的手工操作中解放出來[1]。近年來,計算機在植物分類與鑒定上的應用已取得了長足的發(fā)展[2]。
DELTA作為植物數(shù)據(jù)交換標準系統(tǒng)和交互式專家輔助鑒定系統(tǒng)在國際上享有盛譽,它可以規(guī)范分類學描述,對研究中所有常用性狀進行識別和處理,對研究對象進行詳盡的相似性和差異性比較[3],但其研究對象局限于某一科或?qū)?,且其復雜高深的檢索項也幾乎涵蓋了植物各方面的信息,使其只適用于植物分類學家。在國內(nèi),中國數(shù)字標本(http://www.cvh.org.cn)由文香英翻譯的電子檢索表是一套綜合的交互式檢索系統(tǒng),但其只能檢索到某個科。另外,石紅[4]對新疆的高等植物,王樹森[5]等對內(nèi)蒙古大青山地區(qū)植物,王彥勛[6]等對河北地區(qū)植物,馬紅梅[7]對山東省植物,馬承慧[8]對哈爾濱主要木本植物和主要綠化栽培植物,都利用了計算機和數(shù)據(jù)庫技術(shù)實現(xiàn)了植物電子檢索,但他們的檢索項大多是植物或其科屬名稱,很少或僅涉及幾個簡單的性狀檢索。由此可見,目前的研究多集中在電子檢索表的編制方面,對于檢索項的選取和檢索策略的優(yōu)化研究的較少。胡楊[9]根據(jù)每個植物特征出現(xiàn)的頻率,并結(jié)合野外觀測的特點,選取了若干關(guān)鍵詞作為檢索項來實現(xiàn)內(nèi)蒙古自治區(qū)境內(nèi)46種唇形科植物的檢索,但是他的檢索范圍較窄,其檢索項也包含“莖毛”等較難分辨的特征。
本研究以東北的木本植物為例,探討了傳統(tǒng)植物分類書籍在描寫所有植物時普遍共同使用了植物哪些方面的特征,用這些特征是否可以完成對東北常見木本植物的檢索,檢索策略如何優(yōu)化等問題,進而找到一種東北常見木本植物簡單、快速、實用且有效的信息檢索方法。
選取4本最新版的東北常用植物分類學著作《中國植物志》、《東北植物檢索表》、《遼寧植物志》和《黑龍江植物志》。將以上文本格式的植物描述內(nèi)容掃描并識別后變成計算機可以處理的字符格式(共100多萬字)。
各本著作對植物的描述涉及植物的各個方面,這些方面不僅涉及植物的器官或組成器官的形態(tài)特征(如“花顏色”、“子房附屬物”等),也包含了植物的習性、生境、分布等方面的信息。從計算機信息檢索的角度,這些方面都可以作為“檢索項”來檢索植物,對于任一“檢索項”,任一著作中任一物種對其的一個描述稱為一個“檢索值”,如“灌木”是《中國植物志》中Exochorda racemosa(白鵑梅)“習性”這一檢索項的檢索值(表1),將物種的檢索項和檢索值分別提取出來組成一張二維矩陣表,每一植物的描述都來源于4本不同的著作,若檢索值相同則重復計入,若無描述則檢索值為0。
1.2.1 物種和檢索項選取原則
主要研究東北地區(qū)野生木本植物,對于在分類上有細小形態(tài)差異的變種和變型,如果不是分布較廣或有經(jīng)濟價值就不納入;另外,對于引進種和栽培種,分布比較廣的納入,如果其分布只局限在很小的地區(qū)就不納入。
表1 植物信息表
統(tǒng)計4本著作中所選取植物每一個檢索項包含檢索值的個數(shù),將檢索項按包含檢索值個數(shù)的多少降序排列,并根據(jù)檢索值的多少分成若干個區(qū)間,統(tǒng)計各區(qū)間內(nèi)包含檢索項的個數(shù),計算各區(qū)間內(nèi)檢索項數(shù)占檢索項總數(shù)的比例,觀察各區(qū)間內(nèi)檢索項的特點,并據(jù)此按以下原則選則檢索項:
第一,檢索項應該容易觀察和鑒別;第二,植物的生境、分布等檢索項唯一性和排他性較差,只作為參考;第三,選取的檢索項之間應無相互性,并保證每一種植物至少有一本著作對其有描述;第四,各著作都有描述的某些科屬或某些類群所共同具有的特征也須考慮;第五,某一種或某幾種植物很特殊的特征,用“特殊特征”統(tǒng)一概括;第六,葉形有一定的變化幅度,可用“葉長寬比”的變化區(qū)間輔助檢索。
1.2.2 檢索值歸納整理
以《中國高等植物圖鑒》[10]和《東北木本植物圖譜檢索表》[11]為依據(jù)對檢索值歸納整理,并將植物不同著作的4個檢索值合并為一個,整理過程中還須遵循以下方法和原則:第一,植物性狀未達到穩(wěn)定狀態(tài)的特征暫不考慮;第二,某些變異性較大的檢索項,各本著作對其描述有差異,從檢索的角度對其檢索值進行簡化。如葉形多是多個基本形狀的組合,組合后的形狀可達上百種,對于某一種植物,對其形狀的記載也可達幾種,表1中 Exochorda racemosa的葉形“長圓狀倒卵形”,將其分解為“倒卵形、長圓形”,在檢索時用“倒卵形”或“長圓形”都可以檢索到 Exochorda racemosa,保證了查全率[12],同時簡化的檢索值方便了使用者選擇和判斷;第三,植物的一些很細微的特征,用肉眼很難看出其具體形態(tài),為了降低鑒定的難度,將予以歸納合并,如植物的葉或枝上的硬毛、柔毛、伏毛等附屬物都歸結(jié)為“有毛”。
因子分析是最常用的數(shù)據(jù)簡化方法,用于考察多個變量間的內(nèi)在關(guān)系,提取數(shù)據(jù)的主要信息,對選取的檢索項做因子分析,研究各檢索項之間相關(guān)性是否顯著。用選取的檢索項對所有植物種進行兩兩對比分析,查找相同項,若無相同項,則證明選取的檢索項可以完成對植物的檢索。檢索項單獨檢索時,檢索出的物種數(shù)等于檢索項中不重復檢索值的個數(shù);檢索項組合檢索時,檢索出的物種數(shù)為物種與選取的檢索項矩陣中不重復檢索值的行數(shù)。
(1)多樣性指數(shù)(D):多樣性指數(shù)是反映物種豐富度和均勻度的綜合指標。選用辛普森多樣性指數(shù)(Simpson’s diversity index)[14]。
式中:Pi為檢索項中不重復唯一檢索值的個數(shù)與此檢索項單獨檢索出的物種數(shù)的比值;S為檢索項的個數(shù)。
(2)重要性指數(shù)(E):一般意義上,植物花和果的穩(wěn)定性是鑒定植物的主要依據(jù),其值賦予1,如“花序類型”“果實類型”等,其他的植物穩(wěn)定性狀(如“特殊特征”“習性”)賦予0.5,變異性較大的和數(shù)值型的檢索項(如“葉形”“葉長度”),其值有一定的變化區(qū)間,賦予0。
(3)權(quán)重值(W):權(quán)重值W=(D+E)/2,式中:D為多樣性指數(shù);E為重要性指數(shù)。
東北地區(qū)有記載的木本植物有812種,選取399種作為研究對象,其中362個為野生種,這些植物種共涉及48個科、130個屬,基本涵蓋了東北地區(qū)木本植物所有的科屬。植物種選取后物種信息表是一個1596行、507列的二維矩陣,共有505個檢索項和43 911個檢索值。
檢索項包含檢索值個數(shù)在1 000~1 300之間的僅有4個,87%的檢索項包含的檢索值個數(shù)都低于100(表2)。各著作中植物描述多集中在“國內(nèi)分布”“生境”“葉形”“葉邊緣”“花序類型”等植物所共有的檢索項上,“小苞片質(zhì)地”、“花蕾附屬物”等檢索項則只是在某些種的描述中有涉及。結(jié)合檢索項的選取原則共選取出了29個檢索項,將其分為4組:第一組為一般特征組:習性、常綠性、高度、枝附屬物;第二組為葉特征組:葉類型、葉排列、葉先端、葉基、葉邊緣、葉形、葉表面附屬物、葉背面附屬物、葉長度、葉寬度、葉長寬比;第三組為花特征組:花序類型、花形狀、花顏色、花瓣數(shù)目、花直徑;第四組為果特征組:果實類型、果實形狀、果實成熟后顏色、果實長度;第五組為特殊類群組:葉裂片數(shù)、復葉小葉數(shù)、復葉長度、雙翅果夾角、特殊特征。
表2 檢索項在檢索值區(qū)間內(nèi)的個數(shù)統(tǒng)計
數(shù)據(jù)處理后物種信息表縮小為400行、30列,且數(shù)據(jù)格式規(guī)范,數(shù)據(jù)規(guī)整,可以用于計算機處理、計算并檢驗。
2.3.1 因子分析
KMO統(tǒng)計量用于比較各變量間的簡單相關(guān)和偏相關(guān)的大小,取值范圍在0~1之間,如果各變量間存在內(nèi)在聯(lián)系,則KMO值接近1,做因子分析的效果好。一般認為當KMO大于0.9時效果最佳,0.7 以上時效果尚可,0.6 時效果很差,0.5以下時不適宜做因子分析[13]。
對399個植物種的29個檢索項做因子分析,KMO統(tǒng)計量是0.638,說明各檢索項之間的相關(guān)性不顯著,可以單獨作為獨立的檢索項。
2.3.2 唯一性檢驗
用計算機對399個物種的29個檢索項的檢索值兩兩對比,沒有發(fā)現(xiàn)重復項,由此可知,此29個檢索項可以完成所有植物種的檢索。檢索項各組的指數(shù)和權(quán)重均值見表3。
表3 檢索項各組的指數(shù)和權(quán)重均值
任一檢索項單獨檢索平均每個僅能檢索出34個植物種,僅占總植物種數(shù)的9%,檢索效率很低,其中“葉形”能檢索出151個植物種,而“雙翅果夾角”僅能檢索出2個植物種,檢索結(jié)果的變異系數(shù)很大[15],達到94%。
選取7種檢索項組合模式,分別計算特征項組合內(nèi)檢索項個數(shù),檢索項組合檢索出的物種數(shù),乘以權(quán)重均值得到實際的檢索效果(表4)。
表4 檢索項組合及其檢索結(jié)果
隨機選取5種植物,計算本系統(tǒng)檢索和《東北植物檢索表》傳統(tǒng)二歧式檢索使用的步驟數(shù)(表5)。
表5 檢索實例
本系統(tǒng)通過C#開發(fā)的winForm程序?qū)崿F(xiàn),數(shù)據(jù)庫選用Access數(shù)據(jù)庫。軟件的主界面如圖1。界面的左上角是檢索項的選擇框,系統(tǒng)支持用植物的基本性狀檢索,如“習性”、“常綠性”、“葉形”、“葉先端”等,同時還支持用“科拉丁名”、“科中文名”、“屬拉丁名”、“屬中文名”、“種拉丁名”、“種中文名”等植物基本信息檢索,本系統(tǒng)共有35個檢索項。
圖1 系統(tǒng)主界面
界面的左下角是檢索用過的檢索項和檢索值,右擊可以刪除檢索值,以撤銷某次操作;界面的右半部分是檢索結(jié)果,顯示“符合條件的物種中文名和拉丁名”,并統(tǒng)計符合統(tǒng)計的物種個數(shù),點擊物種名稱可以打開物種的圖片和文本描述信息界面。對于數(shù)據(jù)庫中不存在的物種是檢索不到的,檢索結(jié)果一欄為空。
本研究選取的399種木本植物涉及東北地區(qū)木本植物所有的科屬,是一個綜合的檢索系統(tǒng),這明顯不同于DELTA系統(tǒng)的科或?qū)俚燃壍臋z索,但是本文僅選取了東北地區(qū)較為常見的木本植物,可以滿足一般的檢索需求,對于稀有種和分布區(qū)很小的植物種,本系統(tǒng)沒有涉及,這將在以后的研究中進一步討論。
本文的檢索系統(tǒng)和傳統(tǒng)植物分類的書籍和工具是不同的。傳統(tǒng)植物分類為了增加分類的客觀性,會選擇植物相對穩(wěn)定的性狀作為分類的依據(jù),這些性狀大多和植物的生殖器官有關(guān),且可觀察時間短,基于這些性狀編寫的檢索表在使用時有時間上的限制。DELTA系統(tǒng)和目前數(shù)量分類學[16]的研究也多選取這樣的性狀。本文的檢索項與DELTA系統(tǒng)和現(xiàn)有的檢索表的檢索項有明顯的不同,本文的檢索項沒有與植物生殖器官有關(guān)的復雜微小和難鑒別的特征,都是植物簡單的基本信息,容易理解和把握,尤其適用于植物分類的初學者。另外,本系統(tǒng)較多地使用了植物葉的特征,由于其穩(wěn)定性較差,所以檢索結(jié)果會受到影響。因此,本系統(tǒng)可以作為檢索工具廣泛使用,但還不能完全替代傳統(tǒng)植物分類書籍。
本文從檢索的角度對檢索值進行了歸納整理,將復雜的檢索值給予簡化,這在DELTA等國內(nèi)外的軟件中是沒有的,整理后的檢索值數(shù)據(jù)格式統(tǒng)一、規(guī)整,為交互式電子檢索軟件的編寫提供了很好的數(shù)據(jù)基礎(chǔ)。使用者可以根據(jù)植物的生長期和自身喜好隨機組合檢索項來檢索植物,但是從檢索的準確性和速率來說,選用權(quán)重值高的檢索項可以更快地得到更準確的檢索結(jié)果。雖然使用植物葉檢索項可以達到99%的檢索率,但由于其穩(wěn)定性較差,檢索結(jié)果會受到影響。在檢索時推薦用花和葉的檢索項組合或果和葉的檢索項組合來檢索植物,此種組合的檢索率接近90%,雖然其結(jié)果會受到葉檢索項的影響,但總體的檢索效果還不錯。由此可見,植物無論是在營養(yǎng)期、花期還是果期,適當?shù)臋z索項組合都可以達到很好的檢索效果。
經(jīng)與傳統(tǒng)的二歧式檢索表比較,發(fā)現(xiàn)本系統(tǒng)僅用4~5個檢索項就可以檢索到目標種,有的植物種僅需輸入一個檢索項,這大大簡化了檢索的步驟;另外,本系統(tǒng)檢索項的輸入順序是隨意的,大大方便了使用者。由此可見,本系統(tǒng)研究的東北木本植物檢索方法是一種簡單、快捷、實用和有效的并行檢索方法,它尤其適用于植物分類的初學者,同時也為植物分類學家檢索植物提供了一種簡單、快捷且有效的檢索方法和工具。
[1]宋延齡,楊親二,黃永青.植物種多樣性研究與保護[M].杭州:浙江科學技術(shù)出版社,1998:151-158.
[2]鐘揚.電子計算機在植物學中的應用[J].武漢植物學研究,1986,4(3):311-320.
[3]陳翔,陳訓.新版DELTA系統(tǒng)在植物分類學中的應用:以羊茅屬研究為例[J].廣西植物,2008,28(6):759-763.
[4]石紅.新疆高等植物檢索和資源查詢系統(tǒng)的研建[D].烏魯木齊:新疆大學,2006.
[5]王樹森,張學軍,羅于洋.植物檢索與查詢技術(shù)的建立:以內(nèi)蒙古大青山地區(qū)植物鑒定與檢索系統(tǒng)為例[J].內(nèi)蒙古草業(yè),2002,14(4):26-28.
[6]王彥勛,孫宏凱,王利民,等.植物計算機檢索系統(tǒng)的研究與開發(fā)[J].安徽農(nóng)業(yè)科學,2008,30(22):9659-9660.
[7]馬紅梅,馬玉強,楊衛(wèi)軍.UML在植物資源檢索系統(tǒng)中的應用[J].計算機工程與設(shè)計,2009,30(15):3645-3648,3652.
[8]馬承慧,王維芳,劉牧.木本植物分類檢索軟件的研制[J].東北林業(yè)大學學報,2007,35(8):74-77.
[9]胡楊.植物數(shù)字化檢索系統(tǒng)初探:以內(nèi)蒙古地區(qū)唇形科植物為例[D].呼和浩特:內(nèi)蒙古農(nóng)業(yè)大學,2010.
[10]中國科學院植物研究所.中國高等植物圖鑒:第1冊[M].北京:科學出版社,1972:1020-1039.
[11]董世林,白勝文,高恩柱,等.東北木本植物圖譜檢索表[M].哈爾濱:東北林業(yè)大學出版社,1993:4-37.
[12]邰曉英,北研二.信息檢索技術(shù)導論[M].北京:科學出版社,2006:18-19.
[13]張文彤.SPSS11統(tǒng)計分析教程:高級篇[M].北京:北京希望電子出版社,2002:192.
[14]尚玉昌.普通生態(tài)學[M].北京:北京大學出版社,2002:275-277.
[15]楊持.生物統(tǒng)計學[M].呼和浩特:內(nèi)蒙古大學出版社,1996:76.
[16]李曉東,咎艷燕,李建強,等.地黃屬和崖白菜屬的數(shù)量分類[J].植物分類學報,2008,46(5):730-737.