摘 要:野外調(diào)查得到的錐栗屬性特征數(shù)據(jù)具有區(qū)間分布的特征。為了使區(qū)間值算法的理論與研究成果應(yīng)用到具體實踐中,在錐栗數(shù)據(jù)的挖掘和分析中發(fā)現(xiàn)更有價值的知識,更好進行錐栗的分類研究,提出區(qū)間值聚類的數(shù)據(jù)挖掘模型。
關(guān)鍵詞:錐栗;區(qū)間值;聚類;數(shù)據(jù)挖掘
錐栗(Castanea henryi)是我國南方栽培馴化最早、利用最久的經(jīng)濟林樹種之一,屬于殼斗科栗屬,是栗屬三大中國特有種之一。錐栗在栗屬植物的起源和進化研究中占有重要的地位,是世界食用栗屬品種改良的重要基因來源,對世界栗屬植物的資源保護和利用具有重要意義。
在許多實際問題中,由于被聚類的信息估計不精確或測量誤差等原因,常常以區(qū)間數(shù)形式來表示。在傳統(tǒng)解決具有精確數(shù)值信息的最大樹模糊聚類方法的基礎(chǔ)上,針對聚類對象特征指標(biāo)值及指標(biāo)權(quán)重均為區(qū)間數(shù)的多指標(biāo)信息聚類問題,提出一種新的聚類分析方法即區(qū)間值聚類,并且采用區(qū)間值數(shù)據(jù)庫中的信息挖掘。
1 數(shù)據(jù)挖掘概述
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持服務(wù)。數(shù)據(jù)挖掘過程可分為:問題定義、數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及結(jié)果的解釋和評估等階段。由此可見,數(shù)據(jù)挖掘只是數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個步驟,但又是最重要的一步。
1.2 區(qū)間值聚類
聚類分析的基本思想:按照數(shù)據(jù)的相似性和差異性,將數(shù)據(jù)劃分為若干組,同組的數(shù)據(jù)盡量相似,不同組的數(shù)據(jù)盡量相異,這種對數(shù)據(jù)進行自動組織的方法稱為聚類。聚類是一個無監(jiān)督學(xué)習(xí)過程,其類別不是人為指定的,完全由計算機自動進行,不需要人工干預(yù)。
在許多實際問題中,由于被聚類的信息估計不精確或測量誤差等原因,常常以區(qū)間數(shù)形式來表示。本文在傳統(tǒng)解決具有精確數(shù)值信息的最大樹模糊聚類方法的基礎(chǔ)上,針對聚類對象特征指標(biāo)值及指標(biāo)權(quán)重均為區(qū)間數(shù)的多指標(biāo)信息聚類問題,提出一種新的聚類分析方法即區(qū)間值聚類。
1.3 數(shù)據(jù)庫信息挖掘模型
本文研究方法采用區(qū)間值數(shù)據(jù)庫中的信息挖掘,與一般數(shù)據(jù)庫信息挖掘的不同之處在于它引入?yún)^(qū)間值數(shù)據(jù)庫的概念。
定義1(區(qū)間值關(guān)系數(shù)據(jù)庫):設(shè)D1,D2,…,Dn為N個實數(shù)域F(D1),F(xiàn)(D2),…,F(xiàn)(Dn)分別為D1,D2,…,Dn上一些區(qū)間構(gòu)成的集合,把它們作為所要定義的關(guān)系的屬性的值域。做笛卡爾積:F(D1)×F(D2)×…×F(Dn),稱該笛卡爾集的一個子集為一個記錄屬性具有區(qū)間值的關(guān)系,此時的數(shù)據(jù)庫稱為區(qū)間值關(guān)系數(shù)據(jù)庫。一個記錄可以表示為t=(x1,x2,…,xn),這里xi∈F(Di)(i=1,2,,…,n)是Di上的區(qū)間。
定義2(閉區(qū)間距離):設(shè)[a,b],[c,d]是任意兩個閉區(qū)間,兩個閉區(qū)間的距離定義為d([a,b],[c,d])= .
區(qū)間值數(shù)據(jù)庫的挖掘是將F(Di)用“區(qū)間值聚類法”進行聚類,最后對數(shù)據(jù)庫進行整合消去多余的維數(shù)(屬性),轉(zhuǎn)化為普通的數(shù)量型數(shù)據(jù)庫進行挖掘。
其算法如下所示:第一步:將數(shù)據(jù)庫中屬性Di對應(yīng)之值域F(Di)通過泛化抽象轉(zhuǎn)化為可比較類型;第二步:在轉(zhuǎn)換后的數(shù)據(jù)庫中,在任意一個F(Di)中兩兩數(shù)據(jù)之間求其區(qū)間距離,該距離作為其相似程度的度量。并由此產(chǎn)生相似矩陣;第三步:根據(jù)區(qū)間值聚類法對其進行歸類;第四步:判斷是否達到指定閾值,否則重復(fù)第三步;第五步:整合聚類結(jié)果;第六步:挖掘數(shù)量型關(guān)聯(lián)規(guī)則。
2 錐栗數(shù)據(jù)分析及其預(yù)處理
2.1 錐栗數(shù)據(jù)概況
本文所使用的錐栗數(shù)據(jù)源是殼斗科栗屬的一部分,數(shù)據(jù)由錐栗的基本屬性構(gòu)成,反映錐栗的外觀基本特征。錐栗基本屬性有:葉長、葉寬、葉柄長、葉齒數(shù)、葉脈數(shù)、苞刺長、果苞厚、果苞干重、苞果數(shù)、果側(cè)徑、果橫徑、果縱徑、底座橫徑、底座側(cè)徑、花柱長、柱頭分叉、果重、果形系數(shù)、果頂毛比等。這些數(shù)據(jù)大部分是野外調(diào)查獲取,從中選取一些具有代表性屬性做為研究對象。
原始ID數(shù)據(jù)庫的數(shù)據(jù)量大,內(nèi)容豐富,但雜亂冗余的數(shù)據(jù)難以直接應(yīng)用于數(shù)據(jù)挖掘。為了保證數(shù)據(jù)挖掘算法的有效性,提高挖掘效率,從中選擇部分與挖掘任務(wù)相關(guān)的數(shù)據(jù),并對這部分數(shù)據(jù)進行有效的預(yù)處理,使其更適合挖掘算法,從而減少挖掘過程中的障礙,提高挖掘模式的質(zhì)量,縮短挖掘過程需要的時間。
2.2 數(shù)據(jù)預(yù)處理分析
2.2.1 數(shù)據(jù)預(yù)處理技術(shù)
數(shù)據(jù)挖掘的算法對其處理的數(shù)據(jù)集合一般都有一定的要求,而現(xiàn)實世界中的數(shù)據(jù)一般都極易受噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)的侵擾,很少能直接滿足數(shù)據(jù)挖掘算法的要求,因此需要對數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)預(yù)處理技術(shù)可以改進數(shù)據(jù)的質(zhì)量,有助于提高其后挖掘過程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程的重要步驟,往往能占到總工作量的60%左右。
2.2.2 屬性選擇
數(shù)據(jù)挖掘所處理的都是大規(guī)模的數(shù)據(jù),在海量的數(shù)據(jù)上進行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L時間,有時會使得這種分析不現(xiàn)實或不可行。屬性選擇即選擇與挖掘任務(wù)相關(guān)的屬性,減少數(shù)據(jù)量,提高挖掘效率。
葉的特征在分類中具有重要的價值。錐栗的葉較狹長,板栗的葉較寬,因此葉寬或葉形系數(shù)(葉長比葉寬)是重要的分類性狀,葉脈多少曾被早期學(xué)者視為關(guān)鍵特征之一,然而據(jù)標(biāo)本分析,發(fā)現(xiàn)這是易變化的性狀,葉脈數(shù)目常隨葉片增寬而增多。葉質(zhì)在不同品種中也不同,最明顯的是豬嘴榛的葉質(zhì)為草質(zhì),不同于其它品種的薄革質(zhì)。另外,葉柄長、葉齒數(shù)、葉脈數(shù)等也具有一定的分類價值,而每苞堅果數(shù)、果形系數(shù)(堅果縱徑與橫徑之比)在分類上具有更重要的意義。
根據(jù)前面的介紹可以看出,在數(shù)據(jù)庫中,錐栗信息表中的屬性值有些區(qū)分較為明顯,有些相似,我們目標(biāo)是對錐栗進行聚類,因此可以去掉這些不主要的相似屬性。在領(lǐng)域?qū)<业慕ㄗh下,決定從數(shù)據(jù)庫中去掉這些屬性,另外葉長和葉寬、底座橫徑和底座側(cè)徑、葉齒數(shù)和葉脈數(shù)等,因為它們之間大致成一定比例,因此都可以進行合并計算,故可以去除這幾個屬性,可以減少數(shù)據(jù)量。
2.2.3 數(shù)據(jù)清洗
在整理數(shù)據(jù)庫過程中,發(fā)現(xiàn)有些數(shù)據(jù)存在明顯的錯誤,為了進一步減少數(shù)據(jù)量,消除錯誤數(shù)據(jù)的干擾,編寫相應(yīng)算法,對數(shù)據(jù)進行清洗。
剔除錯誤數(shù)據(jù)算法:⑴選定一個品種。⑵選定該品種的一個屬性,查詢出它的所有記錄數(shù),然后把該記錄數(shù)乘以精度(暫時定為千分之五),取大約的整數(shù)n。⑶先按屬性值降序排列,取出最大的n+1個數(shù)。把這n+1個數(shù)中最大的數(shù)除以最小的數(shù),如果所得值>2.1,則該最大數(shù)為錯誤數(shù)據(jù),接著把次大的數(shù)除以最小的數(shù)……直到所得值>2.1。刪除所有被判定為錯誤的數(shù)據(jù)。⑷再按屬性值降序排列,取出最小的n+1個數(shù)。把這n+1個數(shù)中最大的數(shù)除以最小的數(shù),如果所得值>2.1,則該最小數(shù)為錯誤數(shù)據(jù),接著把最大的數(shù)除以次小的數(shù)……直到所得值>2.1。刪除所有被判定為錯誤的數(shù)據(jù)。⑸接著判斷該品種的下一個屬性,轉(zhuǎn)第二步。⑹選定下一個品種,轉(zhuǎn)第一步。
3 親緣關(guān)系探討
3.1 品種的屬性密集區(qū)選取
對于錐栗的每一個屬性,它們之間存在屬性相似,這也就是我們通常所說的品種之間的親緣關(guān)系。運用SQL數(shù)據(jù)庫工具,編寫相關(guān)算法,求得品種的屬性密集區(qū),從中找到錐栗品種之間的親緣關(guān)系。
算法描述如下:⑴在已經(jīng)剔除錯誤數(shù)據(jù)的基礎(chǔ)上,用SQL語句求出所有品種各個屬性的最大值、最小值、平均值。⑵選定一個品種。⑶選定該品種的一個屬性。⑷用SQL語句搜索出該屬性所有介于最大值和平均值之間的記錄數(shù)M。然后計算:N=M*精度(暫時定為80%)。⑸用二分查找法的原理計算:搜索介于上限值High(初值為(最大值-平均值/2)與下限值Low(初值為平均值)之間的記錄數(shù)Q。如果Q
3.2 權(quán)重的選擇
品種的屬性密集區(qū)已經(jīng)計算完畢,現(xiàn)在要考慮的就是各個屬性權(quán)重的選取。一個屬性越能把各個品種區(qū)分開,該屬性的權(quán)重就越大。所以,考慮計算兩兩品種各個屬性之間的重疊區(qū)百分比,如果總值越小,說明該屬性越能區(qū)分各個品種,它所占的權(quán)值越大。
設(shè)計算法描述如下:
3.3 親緣關(guān)系分析結(jié)果
經(jīng)過一系列操作,分析具有代表性的樣本數(shù)據(jù),我們認為苞果數(shù)本身就是區(qū)分不同栗屬品種的一個關(guān)鍵特征。在栗屬分類上,中國板栗和茅栗以每栗苞內(nèi)3個堅果為代表特征分在真栗組,而錐栗每栗苞內(nèi)為1個堅果,分在Hypocastanon組。因此首先可以直接將7號板栗區(qū)分出來,再將所研究的代表性的屬性區(qū)間數(shù)據(jù)值進行分析,以一棵完整的親緣關(guān)系樹來表示出來,非常的直觀,可以一目了然的看出各個品種之間的親緣關(guān)系,如圖表1。
4 結(jié)束語
本文以錐栗信息數(shù)據(jù)庫為應(yīng)用背景,對區(qū)間值聚類算法進行分析,極大地提高聚類分析效率,實現(xiàn)對錐栗信息數(shù)據(jù)庫的聚類分析,得出并分析聚類結(jié)果。研究人員就可以在聚類結(jié)果的基礎(chǔ)上,對不同的錐栗品種實施差別化、科學(xué)化的管理和種植策略,帶來經(jīng)濟效益。
[參考文獻]
[1]雷日平,陳輝,等.錐栗不同品種親緣關(guān)系的系統(tǒng)分析研究.經(jīng)濟林研究,2002,20(2):61~99.
[2]沈永寶,施季森,林同龍,等.RAPD標(biāo)記鑒定錐栗栽培品種.林業(yè)科技開發(fā),2004,18(4):24~25.
[3]郎萍,黃宏文,等.栗屬中國特有種居群的遺傳多樣性及地域差異.植物學(xué)報,1999,41(6):651~657.
[4]尹云飛,鐘智,張師超.一種區(qū)間值聚類的數(shù)據(jù)挖掘模型.計算機與現(xiàn)代化,2004年第10期.
[5]于春海,樊治平.一種基于區(qū)間數(shù)多指標(biāo)信息的聚類方法.東北大學(xué)學(xué)報,2004年第2期.