亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于區(qū)間值聚類的錐栗數(shù)據(jù)挖掘研究與分析

        2013-12-31 00:00:00魏琳
        無線互聯(lián)科技 2013年12期

        摘 要:野外調(diào)查得到的錐栗屬性特征數(shù)據(jù)具有區(qū)間分布的特征。為了使區(qū)間值算法的理論與研究成果應(yīng)用到具體實踐中,在錐栗數(shù)據(jù)的挖掘和分析中發(fā)現(xiàn)更有價值的知識,更好進行錐栗的分類研究,提出區(qū)間值聚類的數(shù)據(jù)挖掘模型。

        關(guān)鍵詞:錐栗;區(qū)間值;聚類;數(shù)據(jù)挖掘

        錐栗(Castanea henryi)是我國南方栽培馴化最早、利用最久的經(jīng)濟林樹種之一,屬于殼斗科栗屬,是栗屬三大中國特有種之一。錐栗在栗屬植物的起源和進化研究中占有重要的地位,是世界食用栗屬品種改良的重要基因來源,對世界栗屬植物的資源保護和利用具有重要意義。

        在許多實際問題中,由于被聚類的信息估計不精確或測量誤差等原因,常常以區(qū)間數(shù)形式來表示。在傳統(tǒng)解決具有精確數(shù)值信息的最大樹模糊聚類方法的基礎(chǔ)上,針對聚類對象特征指標(biāo)值及指標(biāo)權(quán)重均為區(qū)間數(shù)的多指標(biāo)信息聚類問題,提出一種新的聚類分析方法即區(qū)間值聚類,并且采用區(qū)間值數(shù)據(jù)庫中的信息挖掘。

        1 數(shù)據(jù)挖掘概述

        1.1 數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持服務(wù)。數(shù)據(jù)挖掘過程可分為:問題定義、數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及結(jié)果的解釋和評估等階段。由此可見,數(shù)據(jù)挖掘只是數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個步驟,但又是最重要的一步。

        1.2 區(qū)間值聚類

        聚類分析的基本思想:按照數(shù)據(jù)的相似性和差異性,將數(shù)據(jù)劃分為若干組,同組的數(shù)據(jù)盡量相似,不同組的數(shù)據(jù)盡量相異,這種對數(shù)據(jù)進行自動組織的方法稱為聚類。聚類是一個無監(jiān)督學(xué)習(xí)過程,其類別不是人為指定的,完全由計算機自動進行,不需要人工干預(yù)。

        在許多實際問題中,由于被聚類的信息估計不精確或測量誤差等原因,常常以區(qū)間數(shù)形式來表示。本文在傳統(tǒng)解決具有精確數(shù)值信息的最大樹模糊聚類方法的基礎(chǔ)上,針對聚類對象特征指標(biāo)值及指標(biāo)權(quán)重均為區(qū)間數(shù)的多指標(biāo)信息聚類問題,提出一種新的聚類分析方法即區(qū)間值聚類。

        1.3 數(shù)據(jù)庫信息挖掘模型

        本文研究方法采用區(qū)間值數(shù)據(jù)庫中的信息挖掘,與一般數(shù)據(jù)庫信息挖掘的不同之處在于它引入?yún)^(qū)間值數(shù)據(jù)庫的概念。

        定義1(區(qū)間值關(guān)系數(shù)據(jù)庫):設(shè)D1,D2,…,Dn為N個實數(shù)域F(D1),F(xiàn)(D2),…,F(xiàn)(Dn)分別為D1,D2,…,Dn上一些區(qū)間構(gòu)成的集合,把它們作為所要定義的關(guān)系的屬性的值域。做笛卡爾積:F(D1)×F(D2)×…×F(Dn),稱該笛卡爾集的一個子集為一個記錄屬性具有區(qū)間值的關(guān)系,此時的數(shù)據(jù)庫稱為區(qū)間值關(guān)系數(shù)據(jù)庫。一個記錄可以表示為t=(x1,x2,…,xn),這里xi∈F(Di)(i=1,2,,…,n)是Di上的區(qū)間。

        定義2(閉區(qū)間距離):設(shè)[a,b],[c,d]是任意兩個閉區(qū)間,兩個閉區(qū)間的距離定義為d([a,b],[c,d])= .

        區(qū)間值數(shù)據(jù)庫的挖掘是將F(Di)用“區(qū)間值聚類法”進行聚類,最后對數(shù)據(jù)庫進行整合消去多余的維數(shù)(屬性),轉(zhuǎn)化為普通的數(shù)量型數(shù)據(jù)庫進行挖掘。

        其算法如下所示:第一步:將數(shù)據(jù)庫中屬性Di對應(yīng)之值域F(Di)通過泛化抽象轉(zhuǎn)化為可比較類型;第二步:在轉(zhuǎn)換后的數(shù)據(jù)庫中,在任意一個F(Di)中兩兩數(shù)據(jù)之間求其區(qū)間距離,該距離作為其相似程度的度量。并由此產(chǎn)生相似矩陣;第三步:根據(jù)區(qū)間值聚類法對其進行歸類;第四步:判斷是否達到指定閾值,否則重復(fù)第三步;第五步:整合聚類結(jié)果;第六步:挖掘數(shù)量型關(guān)聯(lián)規(guī)則。

        2 錐栗數(shù)據(jù)分析及其預(yù)處理

        2.1 錐栗數(shù)據(jù)概況

        本文所使用的錐栗數(shù)據(jù)源是殼斗科栗屬的一部分,數(shù)據(jù)由錐栗的基本屬性構(gòu)成,反映錐栗的外觀基本特征。錐栗基本屬性有:葉長、葉寬、葉柄長、葉齒數(shù)、葉脈數(shù)、苞刺長、果苞厚、果苞干重、苞果數(shù)、果側(cè)徑、果橫徑、果縱徑、底座橫徑、底座側(cè)徑、花柱長、柱頭分叉、果重、果形系數(shù)、果頂毛比等。這些數(shù)據(jù)大部分是野外調(diào)查獲取,從中選取一些具有代表性屬性做為研究對象。

        原始ID數(shù)據(jù)庫的數(shù)據(jù)量大,內(nèi)容豐富,但雜亂冗余的數(shù)據(jù)難以直接應(yīng)用于數(shù)據(jù)挖掘。為了保證數(shù)據(jù)挖掘算法的有效性,提高挖掘效率,從中選擇部分與挖掘任務(wù)相關(guān)的數(shù)據(jù),并對這部分數(shù)據(jù)進行有效的預(yù)處理,使其更適合挖掘算法,從而減少挖掘過程中的障礙,提高挖掘模式的質(zhì)量,縮短挖掘過程需要的時間。

        2.2 數(shù)據(jù)預(yù)處理分析

        2.2.1 數(shù)據(jù)預(yù)處理技術(shù)

        數(shù)據(jù)挖掘的算法對其處理的數(shù)據(jù)集合一般都有一定的要求,而現(xiàn)實世界中的數(shù)據(jù)一般都極易受噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)的侵擾,很少能直接滿足數(shù)據(jù)挖掘算法的要求,因此需要對數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)預(yù)處理技術(shù)可以改進數(shù)據(jù)的質(zhì)量,有助于提高其后挖掘過程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程的重要步驟,往往能占到總工作量的60%左右。

        2.2.2 屬性選擇

        數(shù)據(jù)挖掘所處理的都是大規(guī)模的數(shù)據(jù),在海量的數(shù)據(jù)上進行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L時間,有時會使得這種分析不現(xiàn)實或不可行。屬性選擇即選擇與挖掘任務(wù)相關(guān)的屬性,減少數(shù)據(jù)量,提高挖掘效率。

        葉的特征在分類中具有重要的價值。錐栗的葉較狹長,板栗的葉較寬,因此葉寬或葉形系數(shù)(葉長比葉寬)是重要的分類性狀,葉脈多少曾被早期學(xué)者視為關(guān)鍵特征之一,然而據(jù)標(biāo)本分析,發(fā)現(xiàn)這是易變化的性狀,葉脈數(shù)目常隨葉片增寬而增多。葉質(zhì)在不同品種中也不同,最明顯的是豬嘴榛的葉質(zhì)為草質(zhì),不同于其它品種的薄革質(zhì)。另外,葉柄長、葉齒數(shù)、葉脈數(shù)等也具有一定的分類價值,而每苞堅果數(shù)、果形系數(shù)(堅果縱徑與橫徑之比)在分類上具有更重要的意義。

        根據(jù)前面的介紹可以看出,在數(shù)據(jù)庫中,錐栗信息表中的屬性值有些區(qū)分較為明顯,有些相似,我們目標(biāo)是對錐栗進行聚類,因此可以去掉這些不主要的相似屬性。在領(lǐng)域?qū)<业慕ㄗh下,決定從數(shù)據(jù)庫中去掉這些屬性,另外葉長和葉寬、底座橫徑和底座側(cè)徑、葉齒數(shù)和葉脈數(shù)等,因為它們之間大致成一定比例,因此都可以進行合并計算,故可以去除這幾個屬性,可以減少數(shù)據(jù)量。

        2.2.3 數(shù)據(jù)清洗

        在整理數(shù)據(jù)庫過程中,發(fā)現(xiàn)有些數(shù)據(jù)存在明顯的錯誤,為了進一步減少數(shù)據(jù)量,消除錯誤數(shù)據(jù)的干擾,編寫相應(yīng)算法,對數(shù)據(jù)進行清洗。

        剔除錯誤數(shù)據(jù)算法:⑴選定一個品種。⑵選定該品種的一個屬性,查詢出它的所有記錄數(shù),然后把該記錄數(shù)乘以精度(暫時定為千分之五),取大約的整數(shù)n。⑶先按屬性值降序排列,取出最大的n+1個數(shù)。把這n+1個數(shù)中最大的數(shù)除以最小的數(shù),如果所得值>2.1,則該最大數(shù)為錯誤數(shù)據(jù),接著把次大的數(shù)除以最小的數(shù)……直到所得值>2.1。刪除所有被判定為錯誤的數(shù)據(jù)。⑷再按屬性值降序排列,取出最小的n+1個數(shù)。把這n+1個數(shù)中最大的數(shù)除以最小的數(shù),如果所得值>2.1,則該最小數(shù)為錯誤數(shù)據(jù),接著把最大的數(shù)除以次小的數(shù)……直到所得值>2.1。刪除所有被判定為錯誤的數(shù)據(jù)。⑸接著判斷該品種的下一個屬性,轉(zhuǎn)第二步。⑹選定下一個品種,轉(zhuǎn)第一步。

        3 親緣關(guān)系探討

        3.1 品種的屬性密集區(qū)選取

        對于錐栗的每一個屬性,它們之間存在屬性相似,這也就是我們通常所說的品種之間的親緣關(guān)系。運用SQL數(shù)據(jù)庫工具,編寫相關(guān)算法,求得品種的屬性密集區(qū),從中找到錐栗品種之間的親緣關(guān)系。

        算法描述如下:⑴在已經(jīng)剔除錯誤數(shù)據(jù)的基礎(chǔ)上,用SQL語句求出所有品種各個屬性的最大值、最小值、平均值。⑵選定一個品種。⑶選定該品種的一個屬性。⑷用SQL語句搜索出該屬性所有介于最大值和平均值之間的記錄數(shù)M。然后計算:N=M*精度(暫時定為80%)。⑸用二分查找法的原理計算:搜索介于上限值High(初值為(最大值-平均值/2)與下限值Low(初值為平均值)之間的記錄數(shù)Q。如果QN,則High=(High-平均值)/2。⑹如果Q=N或者運算的次數(shù)>15,那么該密集區(qū)的最大值計算完畢即High。⑺用SQL語句搜索出所有介于最小值和平均值之間的記錄數(shù) M。然后計算:N=M*精度(暫時定為80%)。⑻用二分查找法的原理計算:搜索介于上限值High(初值為平均值)與下限值Low(初值為(平均值-最小值/2)/2)之間的記錄數(shù)Q。如果QN,則Low=(平均值-Low)/2。⑼如果Q=N或者運算的次數(shù)>15,那么該密集區(qū)的最小值計算完畢即Low。⑽選擇該品種下一個屬性。⑾選擇下一個品種。

        3.2 權(quán)重的選擇

        品種的屬性密集區(qū)已經(jīng)計算完畢,現(xiàn)在要考慮的就是各個屬性權(quán)重的選取。一個屬性越能把各個品種區(qū)分開,該屬性的權(quán)重就越大。所以,考慮計算兩兩品種各個屬性之間的重疊區(qū)百分比,如果總值越小,說明該屬性越能區(qū)分各個品種,它所占的權(quán)值越大。

        設(shè)計算法描述如下:

        3.3 親緣關(guān)系分析結(jié)果

        經(jīng)過一系列操作,分析具有代表性的樣本數(shù)據(jù),我們認為苞果數(shù)本身就是區(qū)分不同栗屬品種的一個關(guān)鍵特征。在栗屬分類上,中國板栗和茅栗以每栗苞內(nèi)3個堅果為代表特征分在真栗組,而錐栗每栗苞內(nèi)為1個堅果,分在Hypocastanon組。因此首先可以直接將7號板栗區(qū)分出來,再將所研究的代表性的屬性區(qū)間數(shù)據(jù)值進行分析,以一棵完整的親緣關(guān)系樹來表示出來,非常的直觀,可以一目了然的看出各個品種之間的親緣關(guān)系,如圖表1。

        4 結(jié)束語

        本文以錐栗信息數(shù)據(jù)庫為應(yīng)用背景,對區(qū)間值聚類算法進行分析,極大地提高聚類分析效率,實現(xiàn)對錐栗信息數(shù)據(jù)庫的聚類分析,得出并分析聚類結(jié)果。研究人員就可以在聚類結(jié)果的基礎(chǔ)上,對不同的錐栗品種實施差別化、科學(xué)化的管理和種植策略,帶來經(jīng)濟效益。

        [參考文獻]

        [1]雷日平,陳輝,等.錐栗不同品種親緣關(guān)系的系統(tǒng)分析研究.經(jīng)濟林研究,2002,20(2):61~99.

        [2]沈永寶,施季森,林同龍,等.RAPD標(biāo)記鑒定錐栗栽培品種.林業(yè)科技開發(fā),2004,18(4):24~25.

        [3]郎萍,黃宏文,等.栗屬中國特有種居群的遺傳多樣性及地域差異.植物學(xué)報,1999,41(6):651~657.

        [4]尹云飛,鐘智,張師超.一種區(qū)間值聚類的數(shù)據(jù)挖掘模型.計算機與現(xiàn)代化,2004年第10期.

        [5]于春海,樊治平.一種基于區(qū)間數(shù)多指標(biāo)信息的聚類方法.東北大學(xué)學(xué)報,2004年第2期.

        国产自产精品露脸刺激91在线| 日本强伦姧人妻一区二区| 久久婷婷五月国产色综合| 国内a∨免费播放| 白丝美女被狂躁免费视频网站| 亚洲一区二区三区精品久久| 亚洲国产成人av二区| 48沈阳熟女高潮嗷嗷叫| 久久99精品免费一区二区| 人妻熟女妇av北条麻记三级| 97成人精品视频在线| 女女互揉吃奶揉到高潮视频 | 麻豆夫妻在线视频观看| 亚洲伦理第一页中文字幕| 国产精品一区二区久久乐下载| 国产a级午夜毛片| 成人一区二区三区蜜桃| 公厕偷拍一区二区三区四区五区| 久久久久久国产精品免费免费男同| 国产高清无码91| 亚洲一区二区三区美女av| 亚洲一区二区三区中国| 特级做a爰片毛片免费看无码| 日韩国产成人精品视频| 成人性生交大片免费看激情玛丽莎 | 俺也去色官网| 91蜜桃精品一区二区三区毛片| 蜜桃精品人妻一区二区三区| 国产精品9999久久久久| 国内精品一区二区2021在线| 国产av一区二区制服丝袜美腿| 热99re久久精品这里都是精品免费| 人妻影音先锋啪啪av资源 | 7777精品久久久大香线蕉| 中文字幕一区二区人妻痴汉电车| 中文字幕一区久久精品| 色吊丝中文字幕| 久久综合亚洲色社区| 有码视频一区二区三区| 亚洲av无码久久| 99久久久久国产|