亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于區(qū)間值聚類的錐栗數(shù)據(jù)挖掘研究與分析

2013-12-31 00:00:00魏琳

無線互聯(lián)科技 2013年12期

摘要：野外調(diào)查得到的錐栗屬性特征數(shù)據(jù)具有區(qū)間分布的特征。為了使區(qū)間值算法的理論與研究成果應(yīng)用到具體實踐中，在錐栗數(shù)據(jù)的挖掘和分析中發(fā)現(xiàn)更有價值的知識，更好進行錐栗的分類研究，提出區(qū)間值聚類的數(shù)據(jù)挖掘模型。

關(guān)鍵詞：錐栗；區(qū)間值；聚類；數(shù)據(jù)挖掘

錐栗（Castanea henryi）是我國南方栽培馴化最早、利用最久的經(jīng)濟林樹種之一，屬于殼斗科栗屬，是栗屬三大中國特有種之一。錐栗在栗屬植物的起源和進化研究中占有重要的地位，是世界食用栗屬品種改良的重要基因來源，對世界栗屬植物的資源保護和利用具有重要意義。

在許多實際問題中，由于被聚類的信息估計不精確或測量誤差等原因，常常以區(qū)間數(shù)形式來表示。在傳統(tǒng)解決具有精確數(shù)值信息的最大樹模糊聚類方法的基礎(chǔ)上，針對聚類對象特征指標(biāo)值及指標(biāo)權(quán)重均為區(qū)間數(shù)的多指標(biāo)信息聚類問題，提出一種新的聚類分析方法即區(qū)間值聚類，并且采用區(qū)間值數(shù)據(jù)庫中的信息挖掘。

1 數(shù)據(jù)挖掘概述

1.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢，提升到從數(shù)據(jù)中挖掘知識，提供決策支持服務(wù)。數(shù)據(jù)挖掘過程可分為：問題定義、數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及結(jié)果的解釋和評估等階段。由此可見，數(shù)據(jù)挖掘只是數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個步驟，但又是最重要的一步。

1.2 區(qū)間值聚類

聚類分析的基本思想：按照數(shù)據(jù)的相似性和差異性，將數(shù)據(jù)劃分為若干組，同組的數(shù)據(jù)盡量相似，不同組的數(shù)據(jù)盡量相異，這種對數(shù)據(jù)進行自動組織的方法稱為聚類。聚類是一個無監(jiān)督學(xué)習(xí)過程，其類別不是人為指定的，完全由計算機自動進行，不需要人工干預(yù)。

在許多實際問題中，由于被聚類的信息估計不精確或測量誤差等原因，常常以區(qū)間數(shù)形式來表示。本文在傳統(tǒng)解決具有精確數(shù)值信息的最大樹模糊聚類方法的基礎(chǔ)上，針對聚類對象特征指標(biāo)值及指標(biāo)權(quán)重均為區(qū)間數(shù)的多指標(biāo)信息聚類問題，提出一種新的聚類分析方法即區(qū)間值聚類。

1.3 數(shù)據(jù)庫信息挖掘模型

本文研究方法采用區(qū)間值數(shù)據(jù)庫中的信息挖掘，與一般數(shù)據(jù)庫信息挖掘的不同之處在于它引入?yún)^(qū)間值數(shù)據(jù)庫的概念。

定義1（區(qū)間值關(guān)系數(shù)據(jù)庫）：設(shè)D1，D2，…，Dn為N個實數(shù)域F（D1），F(xiàn)（D2），…，F(xiàn)（Dn）分別為D1，D2，…，Dn上一些區(qū)間構(gòu)成的集合，把它們作為所要定義的關(guān)系的屬性的值域。做笛卡爾積：F（D1）×F（D2）×…×F（Dn），稱該笛卡爾集的一個子集為一個記錄屬性具有區(qū)間值的關(guān)系，此時的數(shù)據(jù)庫稱為區(qū)間值關(guān)系數(shù)據(jù)庫。一個記錄可以表示為t=（x1，x2，…，xn），這里xi∈F（Di）（i=1，2，，…，n）是Di上的區(qū)間。

定義2（閉區(qū)間距離）：設(shè)[a，b]，[c，d]是任意兩個閉區(qū)間，兩個閉區(qū)間的距離定義為d（[a，b]，[c，d]）= .

區(qū)間值數(shù)據(jù)庫的挖掘是將F（Di）用“區(qū)間值聚類法”進行聚類，最后對數(shù)據(jù)庫進行整合消去多余的維數(shù)（屬性），轉(zhuǎn)化為普通的數(shù)量型數(shù)據(jù)庫進行挖掘。

其算法如下所示：第一步：將數(shù)據(jù)庫中屬性Di對應(yīng)之值域F（Di）通過泛化抽象轉(zhuǎn)化為可比較類型；第二步：在轉(zhuǎn)換后的數(shù)據(jù)庫中，在任意一個F（Di）中兩兩數(shù)據(jù)之間求其區(qū)間距離，該距離作為其相似程度的度量。并由此產(chǎn)生相似矩陣；第三步：根據(jù)區(qū)間值聚類法對其進行歸類；第四步：判斷是否達到指定閾值，否則重復(fù)第三步；第五步：整合聚類結(jié)果；第六步：挖掘數(shù)量型關(guān)聯(lián)規(guī)則。

2 錐栗數(shù)據(jù)分析及其預(yù)處理

2.1 錐栗數(shù)據(jù)概況

本文所使用的錐栗數(shù)據(jù)源是殼斗科栗屬的一部分，數(shù)據(jù)由錐栗的基本屬性構(gòu)成，反映錐栗的外觀基本特征。錐栗基本屬性有：葉長、葉寬、葉柄長、葉齒數(shù)、葉脈數(shù)、苞刺長、果苞厚、果苞干重、苞果數(shù)、果側(cè)徑、果橫徑、果縱徑、底座橫徑、底座側(cè)徑、花柱長、柱頭分叉、果重、果形系數(shù)、果頂毛比等。這些數(shù)據(jù)大部分是野外調(diào)查獲取，從中選取一些具有代表性屬性做為研究對象。

原始ID數(shù)據(jù)庫的數(shù)據(jù)量大，內(nèi)容豐富，但雜亂冗余的數(shù)據(jù)難以直接應(yīng)用于數(shù)據(jù)挖掘。為了保證數(shù)據(jù)挖掘算法的有效性，提高挖掘效率，從中選擇部分與挖掘任務(wù)相關(guān)的數(shù)據(jù)，并對這部分數(shù)據(jù)進行有效的預(yù)處理，使其更適合挖掘算法，從而減少挖掘過程中的障礙，提高挖掘模式的質(zhì)量，縮短挖掘過程需要的時間。

2.2 數(shù)據(jù)預(yù)處理分析

2.2.1 數(shù)據(jù)預(yù)處理技術(shù)

數(shù)據(jù)挖掘的算法對其處理的數(shù)據(jù)集合一般都有一定的要求，而現(xiàn)實世界中的數(shù)據(jù)一般都極易受噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)的侵擾，很少能直接滿足數(shù)據(jù)挖掘算法的要求，因此需要對數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)預(yù)處理技術(shù)可以改進數(shù)據(jù)的質(zhì)量，有助于提高其后挖掘過程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù)，因此數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程的重要步驟，往往能占到總工作量的60%左右。

2.2.2 屬性選擇

數(shù)據(jù)挖掘所處理的都是大規(guī)模的數(shù)據(jù)，在海量的數(shù)據(jù)上進行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L時間，有時會使得這種分析不現(xiàn)實或不可行。屬性選擇即選擇與挖掘任務(wù)相關(guān)的屬性，減少數(shù)據(jù)量，提高挖掘效率。

葉的特征在分類中具有重要的價值。錐栗的葉較狹長，板栗的葉較寬，因此葉寬或葉形系數(shù)（葉長比葉寬）是重要的分類性狀，葉脈多少曾被早期學(xué)者視為關(guān)鍵特征之一，然而據(jù)標(biāo)本分析，發(fā)現(xiàn)這是易變化的性狀，葉脈數(shù)目常隨葉片增寬而增多。葉質(zhì)在不同品種中也不同，最明顯的是豬嘴榛的葉質(zhì)為草質(zhì)，不同于其它品種的薄革質(zhì)。另外，葉柄長、葉齒數(shù)、葉脈數(shù)等也具有一定的分類價值，而每苞堅果數(shù)、果形系數(shù)（堅果縱徑與橫徑之比）在分類上具有更重要的意義。

根據(jù)前面的介紹可以看出，在數(shù)據(jù)庫中，錐栗信息表中的屬性值有些區(qū)分較為明顯，有些相似，我們目標(biāo)是對錐栗進行聚類，因此可以去掉這些不主要的相似屬性。在領(lǐng)域?qū)＜业慕ㄗh下，決定從數(shù)據(jù)庫中去掉這些屬性，另外葉長和葉寬、底座橫徑和底座側(cè)徑、葉齒數(shù)和葉脈數(shù)等，因為它們之間大致成一定比例，因此都可以進行合并計算，故可以去除這幾個屬性，可以減少數(shù)據(jù)量。

2.2.3 數(shù)據(jù)清洗

在整理數(shù)據(jù)庫過程中，發(fā)現(xiàn)有些數(shù)據(jù)存在明顯的錯誤，為了進一步減少數(shù)據(jù)量，消除錯誤數(shù)據(jù)的干擾，編寫相應(yīng)算法，對數(shù)據(jù)進行清洗。

剔除錯誤數(shù)據(jù)算法：⑴選定一個品種。⑵選定該品種的一個屬性，查詢出它的所有記錄數(shù)，然后把該記錄數(shù)乘以精度（暫時定為千分之五），取大約的整數(shù)n。⑶先按屬性值降序排列，取出最大的n+1個數(shù)。把這n+1個數(shù)中最大的數(shù)除以最小的數(shù)，如果所得值>2.1，則該最大數(shù)為錯誤數(shù)據(jù)，接著把次大的數(shù)除以最小的數(shù)……直到所得值>2.1。刪除所有被判定為錯誤的數(shù)據(jù)。⑷再按屬性值降序排列，取出最小的n+1個數(shù)。把這n+1個數(shù)中最大的數(shù)除以最小的數(shù)，如果所得值>2.1，則該最小數(shù)為錯誤數(shù)據(jù)，接著把最大的數(shù)除以次小的數(shù)……直到所得值>2.1。刪除所有被判定為錯誤的數(shù)據(jù)。⑸接著判斷該品種的下一個屬性，轉(zhuǎn)第二步。⑹選定下一個品種，轉(zhuǎn)第一步。

3 親緣關(guān)系探討

3.1 品種的屬性密集區(qū)選取

對于錐栗的每一個屬性，它們之間存在屬性相似，這也就是我們通常所說的品種之間的親緣關(guān)系。運用SQL數(shù)據(jù)庫工具，編寫相關(guān)算法，求得品種的屬性密集區(qū)，從中找到錐栗品種之間的親緣關(guān)系。

算法描述如下：⑴在已經(jīng)剔除錯誤數(shù)據(jù)的基礎(chǔ)上，用SQL語句求出所有品種各個屬性的最大值、最小值、平均值。⑵選定一個品種。⑶選定該品種的一個屬性。⑷用SQL語句搜索出該屬性所有介于最大值和平均值之間的記錄數(shù)M。然后計算：N=M*精度（暫時定為80%）。⑸用二分查找法的原理計算：搜索介于上限值High（初值為（最大值-平均值/2）與下限值Low（初值為平均值）之間的記錄數(shù)Q。如果QN，則High=（High-平均值）/2。⑹如果Q=N或者運算的次數(shù)>15，那么該密集區(qū)的最大值計算完畢即High。⑺用SQL語句搜索出所有介于最小值和平均值之間的記錄數(shù) M。然后計算：N=M*精度（暫時定為80%）。⑻用二分查找法的原理計算：搜索介于上限值High（初值為平均值）與下限值Low（初值為（平均值-最小值/2）/2）之間的記錄數(shù)Q。如果QN，則Low=（平均值-Low）/2。⑼如果Q=N或者運算的次數(shù)>15，那么該密集區(qū)的最小值計算完畢即Low。⑽選擇該品種下一個屬性。⑾選擇下一個品種。

3.2 權(quán)重的選擇

品種的屬性密集區(qū)已經(jīng)計算完畢，現(xiàn)在要考慮的就是各個屬性權(quán)重的選取。一個屬性越能把各個品種區(qū)分開，該屬性的權(quán)重就越大。所以，考慮計算兩兩品種各個屬性之間的重疊區(qū)百分比，如果總值越小，說明該屬性越能區(qū)分各個品種，它所占的權(quán)值越大。

設(shè)計算法描述如下：

3.3 親緣關(guān)系分析結(jié)果

經(jīng)過一系列操作，分析具有代表性的樣本數(shù)據(jù)，我們認為苞果數(shù)本身就是區(qū)分不同栗屬品種的一個關(guān)鍵特征。在栗屬分類上，中國板栗和茅栗以每栗苞內(nèi)3個堅果為代表特征分在真栗組，而錐栗每栗苞內(nèi)為1個堅果，分在Hypocastanon組。因此首先可以直接將7號板栗區(qū)分出來，再將所研究的代表性的屬性區(qū)間數(shù)據(jù)值進行分析，以一棵完整的親緣關(guān)系樹來表示出來，非常的直觀，可以一目了然的看出各個品種之間的親緣關(guān)系，如圖表1。

4 結(jié)束語

本文以錐栗信息數(shù)據(jù)庫為應(yīng)用背景，對區(qū)間值聚類算法進行分析，極大地提高聚類分析效率，實現(xiàn)對錐栗信息數(shù)據(jù)庫的聚類分析，得出并分析聚類結(jié)果。研究人員就可以在聚類結(jié)果的基礎(chǔ)上，對不同的錐栗品種實施差別化、科學(xué)化的管理和種植策略，帶來經(jīng)濟效益。

[參考文獻]

[1]雷日平，陳輝，等.錐栗不同品種親緣關(guān)系的系統(tǒng)分析研究.經(jīng)濟林研究，2002，20（2）：61～99.

[2]沈永寶，施季森，林同龍，等.RAPD標(biāo)記鑒定錐栗栽培品種.林業(yè)科技開發(fā)，2004，18（4）：24～25.

[3]郎萍，黃宏文，等.栗屬中國特有種居群的遺傳多樣性及地域差異.植物學(xué)報，1999，41（6）：651～657.

[4]尹云飛，鐘智，張師超.一種區(qū)間值聚類的數(shù)據(jù)挖掘模型.計算機與現(xiàn)代化，2004年第10期.

[5]于春海，樊治平.一種基于區(qū)間數(shù)多指標(biāo)信息的聚類方法.東北大學(xué)學(xué)報，2004年第2期.

無線互聯(lián)科技2013年12期

無線互聯(lián)科技的其它文章: 翻轉(zhuǎn)課堂模式下《計算機應(yīng)用基礎(chǔ)》教材內(nèi)容的組織設(shè)計; 淺談機械類專業(yè)“校企合作、工學(xué)結(jié)合”人才培養(yǎng)模式; 獨立學(xué)院《線性代數(shù)》教學(xué)中的幾點思考; 教學(xué)改革中的高職院校信息管理教學(xué)模式初探; 殫精竭慮為了“說和寫”; 高頻電子線路教學(xué)中仿真軟件的應(yīng)用研究