亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新的類別型數(shù)據(jù)聚類算法

        2016-12-20 12:31:13賴芨宇陳克明
        統(tǒng)計(jì)與決策 2016年23期
        關(guān)鍵詞:子類清晰度特征向量

        賴芨宇,陳克明

        (1.福建農(nóng)林大學(xué) 交通與土木工程學(xué)院,福州 350002;2.東華大學(xué) 管理學(xué)院,上海 200051)

        一種新的類別型數(shù)據(jù)聚類算法

        賴芨宇1,陳克明2

        (1.福建農(nóng)林大學(xué) 交通與土木工程學(xué)院,福州 350002;2.東華大學(xué) 管理學(xué)院,上海 200051)

        文章基于類別數(shù)據(jù)集合引入質(zhì)量和特征向量的概念;確定了計(jì)算類別型數(shù)據(jù)的相似度;給出聚類結(jié)果清晰度及其變化率的定義;提出一種對質(zhì)量和特征向量有效聚類類別型數(shù)據(jù)的算法。

        類別型數(shù)據(jù);聚類;質(zhì)量;特征向量;清晰度

        0 引言

        數(shù)據(jù)挖掘中聚類算法的應(yīng)用很廣泛。在商務(wù)上,聚類能幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不同的購買模式來刻畫不同的消費(fèi)群體的特征。在生物學(xué)上,聚類能用于幫助推導(dǎo)植物和動物的種類、基因和蛋白質(zhì)的分類,獲得對種群中固定結(jié)構(gòu)的認(rèn)識。聚類在地球觀測數(shù)據(jù)中相似地區(qū)的確定,根據(jù)房屋的類型、價(jià)值和位置對一個(gè)城市中房屋的分類發(fā)揮作用。聚類也能用來對web上的文檔進(jìn)行分類,以發(fā)現(xiàn)有用的信息。聚類分析能作為一種獨(dú)立的工具來獲得數(shù)據(jù)分布的情況,觀察每個(gè)簇的特點(diǎn),并對某些特定的節(jié)點(diǎn)進(jìn)一步分析。此外,聚類還可以作為其他方法的預(yù)處理步驟。聚類的目標(biāo)是使同一類對象的相似度盡可能地??;不同類對象之間的相似度盡可能地大。目前聚類的方法有很多種。與數(shù)值型數(shù)據(jù)相比,類別型數(shù)據(jù)的聚類研究成果相對較少,其有效性也值得進(jìn)一步探討。

        對于類別型數(shù)據(jù),本文提出一種基于質(zhì)量和特征向量的聚類算法。首先,初始集合被劃分為含有相同數(shù)據(jù)對象的初始類,后續(xù)工作基于這些初始類展開。其次,借助于萬有引力定律的理念,將質(zhì)量和特征向量概念引入到這些類中,使用層次聚類算法對其聚類,并采用清晰度概念確定合理聚類個(gè)數(shù),最后實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證算法的有效性。

        1 特征向量和距離

        本文提出質(zhì)量和特征向量概念,進(jìn)一步地定義了類別型數(shù)據(jù)之間距離。

        1.1 特征向量

        假設(shè)D={X1, X2, …, Xn}是含有n個(gè)類別型數(shù)據(jù),帶有p個(gè)屬性(A1,A2,…,Ap)的集合。這里,Ai是第i個(gè)屬性的取值集合{ai1,ai2,…,aiqi},其中,i=1,2,…,p。

        設(shè)該集合沒有任何的先驗(yàn)信息,且各個(gè)屬性的權(quán)重都是一樣的,每個(gè)屬性取值之間是均等的。類別型數(shù)據(jù)的屬性取值表示如下:

        (責(zé)任編輯/易永生)

        進(jìn)一步地,構(gòu)造一個(gè)q維向量,q=q1+q2+…+qp,如下:N=(n11,n12,…,n1q1,n21,n22,…,n2q2,…,np1,np2,…,npqp)這里,nimi是集合D中屬性aimi出現(xiàn)的次數(shù)之和,其中i=1,2,...,p;m=1,2,...,qi。

        分割集合D為M個(gè)初始的非空集合(D1,D2,…,DM),稱為單元。每個(gè)單元含有的元素的取值是相同的,單元Dk含有nk個(gè)元素(k =1,2,…,M ),且n1+n2+…+nM=n。這里單元可以看作集合D的初始聚類結(jié)果,下面的聚類分析就是從這些單元開始的。

        假設(shè)單元 Dk中元素取值為a1k1,a2k2,…,apkp,這里kl∈{1 ,2,...,ql},l=1,2,...,p。這樣可以構(gòu)造對應(yīng)予單元Dk的一個(gè)向量,表示如下:

        1.2 類別型數(shù)據(jù)之間的距離

        利用單元的特征向量和質(zhì)量的定義,以萬有引力法則,定義兩個(gè)單元之間的距離為:

        同樣地,兩個(gè)子類間的距離定義為:

        為了避免“黑洞現(xiàn)象”(如果一個(gè)子類的質(zhì)量與其他子類的質(zhì)量相差較大時(shí),那么在隨后的聚類過程中,質(zhì)量較小的類會被質(zhì)量較大的類一個(gè)一個(gè)地吞噬掉,以上類似于宇宙中的“黑洞現(xiàn)象”),引入?yún)?shù)和到距離公式中。這兩個(gè)參數(shù)主要用來降低質(zhì)量對單元或子類間距離的影響,數(shù)值實(shí)驗(yàn)表明這兩個(gè)參數(shù)的引入是非常有效的。

        2 確定聚類個(gè)數(shù)

        一般地,聚類個(gè)數(shù)越多,類內(nèi)元素越相似,聚類結(jié)果越清楚。因此,本文提出一個(gè)計(jì)算聚類清晰度的算法。清晰度是衡量特定聚類的整體特征的量。如果把原始集合看作一個(gè)聚類結(jié)果,則其清晰度最低;如果把每個(gè)元素看作一個(gè)子類,則清晰度最高。

        定義聚類結(jié)果(C1J,C2J,…,CJJ)(1≤J≤M))的清晰度計(jì)算如下:

        再采用凝聚式的層次聚類算法,聚類個(gè)數(shù)單調(diào)地由M變?yōu)?時(shí),那么聚類結(jié)果的清晰度就單調(diào)地由1變?yōu)?。

        比較Cla(3)和Cla(4):

        圖1 Cla(4)到Cla(3)的清晰度

        聚類清晰度(Cla(J))顯示了當(dāng)數(shù)據(jù)集合被劃分為J個(gè)子類時(shí)聚類結(jié)果的整體特征。隨著聚類個(gè)數(shù)的增加,清晰度也在增加。為了得到合理的子類個(gè)數(shù),可以計(jì)算聚類結(jié)果清晰度的變化率,定義如下:

        數(shù)列Δ2,Δ3,…,ΔM-1出現(xiàn)最小值時(shí),相鄰聚類個(gè)數(shù)的聚類結(jié)果的清晰度變化相對最小。根據(jù)清晰度變化率的定義,如果Δi(2≤i≤M-1)是最小值,那么數(shù)字i就是合理的聚類個(gè)數(shù)。在實(shí)踐中,數(shù)列的第一個(gè)極小值所對應(yīng)的聚類個(gè)數(shù)通常確定為合理聚類個(gè)數(shù)。

        3 實(shí)驗(yàn)

        本文選取三個(gè)數(shù)據(jù)集合進(jìn)行驗(yàn)證。它們分別是投票數(shù)據(jù)集合、乳癌數(shù)據(jù)集合和動物園數(shù)據(jù)集合,均來自于機(jī)器學(xué)習(xí)資料庫。

        3.1 投票數(shù)據(jù)集合

        投票數(shù)據(jù)集合是美國國會的一次投票數(shù)據(jù),包含435個(gè)樣本,每個(gè)樣本有16個(gè)屬性,且每個(gè)屬性取值集合均為{Y,N,U}。投票數(shù)據(jù)集合分為兩組,一組是民主黨議員,另一組是共和黨議員,詳細(xì)內(nèi)容請見http://www.sgi.com/ tech/mlc/db/vote.all。

        根據(jù)特征向量的定義,該集合的單元或子類的特征向量是48(16*3)維的。利用1.2節(jié)對類別型數(shù)據(jù)之間距離定義,本文采用凝聚式層次聚類算法得到一組數(shù)列,如表1所示。

        表1 投票數(shù)列集合的數(shù)列變化率

        由于Δ7是數(shù)列(Δ3,Δ4,…,Δ8)的極小值(實(shí)際上,Δ7也是第一個(gè)局部極小值),那么合理的聚類個(gè)數(shù)定為7。

        當(dāng)聚類個(gè)數(shù)為7時(shí),獲得聚類結(jié)果如表2所示。

        表2 投票數(shù)據(jù)集合的聚類結(jié)果

        表2是投票數(shù)據(jù)集合的聚類結(jié)果。聚類結(jié)果由2個(gè)非常大的子類和5個(gè)很小的子類組成。5個(gè)很小的子類僅包含8個(gè)數(shù)據(jù)元素,它們依次是68,168,253;30;154;257,262; 289。在聚類過程中,本文把435個(gè)數(shù)據(jù)對象按照原始順序標(biāo)記為0~434。也就是說,68號元素也就是原始數(shù)據(jù)集合的第69個(gè)元素。分析表明這8個(gè)元素與其他元素相差很大。也就是說,這8個(gè)元素可以看作該集合的離群點(diǎn)元素。

        在cluster-1中有205個(gè)數(shù)據(jù)元素,其中158個(gè)是共和黨人,47個(gè)是民主黨人。cluster-1的部分元素屬于共和黨人,也就是說,77.1%(158/205)的元素被正確地聚類到共和黨一組中。

        在cluster-2中有222個(gè)數(shù)據(jù)元素,其中215個(gè)是民主黨人,僅有7個(gè)是共和黨人。也就是說,高達(dá)96.8%(215/ 222)的元素被正確地聚類到民主黨一組中。

        3.2 乳癌數(shù)據(jù)集合

        乳癌數(shù)據(jù)集合取自http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/,共包含699個(gè)樣本。樣本數(shù)據(jù)含有9個(gè)屬性,每個(gè)屬性的取值集合均是{1,2,…,10}。每個(gè)樣本要么是屬于良性組,要么是屬于惡性組。另外,由于這699個(gè)元素中有16個(gè)元素含有缺失值,因此本實(shí)驗(yàn)的數(shù)據(jù)對象是不包含缺失值的685個(gè)元素。

        類似地,可以得到該集合不同聚類結(jié)果清晰度變化率的數(shù)列Δ3,Δ4,…,Δ11,見表3所示。

        表3 乳癌數(shù)據(jù)集合聚類結(jié)果

        由于Δ10是數(shù)列(Δ3,Δ4,…,Δ11)的極小值(實(shí)際上,Δ10也是第一個(gè)局部極小值),那么合理的聚類個(gè)數(shù)定為10。當(dāng)聚類個(gè)數(shù)為10時(shí),獲得聚類結(jié)果如表4所示。

        聚類結(jié)果由2個(gè)非常大的子類和8個(gè)很小的子類組成。8個(gè)很小的子類僅包含13個(gè)數(shù)據(jù)元素,它們依次是4,339,491;66,386;96;139;270;287;335,681,610;620。

        表4 聚類個(gè)數(shù)為10的乳癌數(shù)據(jù)集合聚類結(jié)果

        同樣地,以上兩個(gè)較大的子類(cluster-1、cluster-2)對應(yīng)良性組和惡性組,其準(zhǔn)確率各自高達(dá)98.37%和91.25%。

        3.3 動物園數(shù)據(jù)集合

        動物園數(shù)據(jù)集合數(shù)據(jù)來源http://archive.ics.uci.edu/ml/ machine-learning-databases/zoo/,包含101種動物樣本,每個(gè)樣本有18個(gè)屬性,屬性1是動物名字,屬性18是動物的分類編號(1,2,…,7)。屬性14是腿的數(shù)目,取值集合為{0, 2,4,5,6,8},本文也是把它視為類別型屬性。其余屬性是布爾取值集合{0,1}。

        對于該數(shù)據(jù)集合本文獲得如下數(shù)列(Δ3,Δ4,…,Δ9),見表5所示。

        表5 動物園數(shù)據(jù)集合的數(shù)列

        Δ7是上面數(shù)列的極小值,并且是第一個(gè)局部極小值。當(dāng)聚類個(gè)數(shù)為7時(shí),獲得聚類結(jié)果見表6所示。

        表6 聚類個(gè)數(shù)為7動物園數(shù)值集合聚類

        類似于表2和表4,以上的聚類結(jié)果也是不錯(cuò)。例如,cluster-1中的38個(gè)數(shù)據(jù)對象,有37個(gè)屬于class-1,僅有1個(gè)屬于class-3。也就是,聚類結(jié)果的子類cluster-1中絕大部分元素正確地聚類到class-1中。特別地,聚類結(jié)果的子類cluster-3中的20個(gè)元素恰好與class-2完全一致。因此,該集合的聚類正確率也是相當(dāng)高。

        4 結(jié)論

        類別型數(shù)據(jù)的聚類分析是數(shù)據(jù)挖掘中一項(xiàng)有意義的工作?;谫|(zhì)量和特征向量的聚類算法是對類別型數(shù)據(jù)集合聚類分析的一個(gè)新的研究方向。本文通過對3個(gè)類別型數(shù)據(jù)集合進(jìn)行實(shí)驗(yàn),驗(yàn)證本文的算法是有效的。

        含有權(quán)重的特征向量構(gòu)造是下一步的工作,對類別型數(shù)據(jù)間距離公式中參數(shù)修正、結(jié)合實(shí)際問題的合理選擇聚類個(gè)數(shù),以及聚類算法的有效性評價(jià)問題也是值得研究的問題。

        [1]Han J,Kamber M.Data Mining:Concepts and Techniques,(2nd Edi?tion)[J].Elsevier Inc.2006.

        [2]Xu R,Wunsch D I,Survey of Clustering Algorithms[J].IEEE Transac?tions on Neural Networks,2005,16(3).

        [3]Yang M,Chiang Y,Chen C,et al.A Fuzzy K-partitions Model for Cat?egorical Data and Its Comparison to the GoM Model[J].Fuzzy Sets and Systems,2008,(159).

        [4]Kim D,Lee K H,Lee D.Fuzzy Clustering of Categorical Data Using Fuzzy Centroids[J].Pattern Recognition Letters,2004,(25).

        [5]Parmar D,Wu T,Blackhurst J.An Algorithm for Clustering Categori?cal Data Using Rough Set Theory[J].Data&Knowledge Engineering, 2007,(63).

        [6]Chen D,Cui D,Wang C,et al.A Rough Set-based Hierarchical Clus?tering Algorithm for Categorical Data[J].International Journal of Infor?mation Technology,2006,12(3).

        [7]Li T,Ma S,Ogihara M.Entropy-based Criterion in Categorical Clus?tering[M].Canada:Proceedings of the 21stInternational Conference on Machine Learning Banff,2004.

        [8]Boutsinas B,Papastergiou T.On Clustering Tree Structured Data With Categorical Nature[J].Pattern Recognition,2008,(41).

        [9]Ahmad A,Dey L.A Method to Compute Distance Between Two Cate?gorical Values of Same Attribute in Unsupervised Learning for Cate?gorical Data Set[J].Pattern Recognition Letters,2007,(28).

        [10]Le S Q,Ho T B.An Association-based Dissimilarity Measure for Categorical Data[J].Pattern Recognition Letters,2005,(26).

        [11]Pakhira M K,Bandyopadhyay S,Maulik U.Validity Index for Crisp and Fuzzy Clusters[J].Pattern Recognition,2004,(37).

        [12]Chen K,Liu L.“Best K”:Critical Clustering Structures in Categori?cal Datasets[J].Knowledge and Information Systems,2009,(20).

        (責(zé)任編輯/浩 天)

        C931

        A

        1002-6487(2016)23-0069-04

        國家社會科學(xué)基金資助項(xiàng)目(13GBL150);上海市自然科學(xué)基金資助項(xiàng)目(15ZR1401600);福建省軟科學(xué)項(xiàng)目(2014R0055)

        賴芨宇(1962—),男,福建福州人,博士,教授,研究方向:數(shù)據(jù)挖掘、項(xiàng)目管理。

        陳克明(1979—),男,江西新余人,博士研究生,副教授,研究方向:云計(jì)算、知識管理。

        猜你喜歡
        子類清晰度特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        卷入Hohlov算子的某解析雙單葉函數(shù)子類的系數(shù)估計(jì)
        鮮明細(xì)膩,擁有更好的清晰度 Ascendo Immersive Audio CCRM-12 MKII/CCRM-6P/SMS-15
        一類特殊矩陣特征向量的求法
        關(guān)于對稱共軛點(diǎn)的倒星象函數(shù)某些子類的系數(shù)估計(jì)
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        聽音訓(xùn)練對漢語單音節(jié)聽感清晰度的影響
        一種無參考監(jiān)控視頻圖像清晰度評價(jià)方法
        塊H矩陣新的子類
        亚洲伊人成综合网| 国产精品亚洲一区二区三区16| 激情人妻另类人妻伦| 熟女少妇在线视频播放| 日韩在线看片| 一区二区三区精品偷拍av| 亚洲一区二区三区少妇| 成人区人妻精品一区二区不卡网站 | 国内a∨免费播放| 99精品欧美一区二区三区美图| 亚洲国产精品成人一区| 国产精品人成在线观看免费| 欧美人和黑人牲交网站上线| 亚洲av日韩aⅴ无码电影| 国产毛片精品一区二区色| 亚洲深深色噜噜狠狠网站| 欧美国产一区二区三区激情无套| 中文字幕亚洲无线码高清| 日韩国产自拍视频在线观看| 国产aⅴ无码专区亚洲av| 人妻无码久久一区二区三区免费| 久久久久综合一本久道| 五月婷婷开心六月激情| 久久99精品久久水蜜桃| 亚洲中文字幕每日更新| 国产av一区二区三区在线| 在线免费观看一区二区| 99久久人人爽亚洲精品美女 | 日韩精品中文字幕人妻中出| 日韩精品免费一区二区三区观看 | 肉体裸交丰满丰满少妇在线观看| 秀人网嫩模李梓熙大尺度| 国产区女主播一区在线| 在线不卡av片免费观看| 亚洲一区二区自拍偷拍| 亚洲国产国语对白在线观看| 亚洲人成无码区在线观看| 国产成人久久综合热| 麻豆激情视频在线观看| 热99re久久精品这里都是精品免费 | 亚洲av中文无码乱人伦在线r▽|