亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-Means的軟子空間聚類算法研究綜述*

        2016-06-21 09:33:19李俊麗
        艦船電子工程 2016年5期
        關鍵詞:means算法

        李俊麗

        (晉中學院信息技術(shù)與工程學院 晉中 030619)

        ?

        基于K-Means的軟子空間聚類算法研究綜述*

        李俊麗

        (晉中學院信息技術(shù)與工程學院晉中030619)

        摘要隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,聚類分析算法越來越多,由于分析高維數(shù)據(jù)有時會陷入所謂維災難,傳統(tǒng)的聚類算法在聚類高維數(shù)據(jù)時性能會降低很多。針對這種情況,提出了子空間聚類算法,極大地改善了這個問題。K-Means算法是一種應用很廣泛的聚類算法,與子空間聚類算法結(jié)合可以應用于高維數(shù)據(jù)聚類。介紹了三類基于K-Means的軟子空間聚類算法,并對每種算法進行了描述和分析,最后指出了進一步的研究方向。

        關鍵詞K-Means算法; 軟子空間聚類; 高維數(shù)據(jù)聚類

        Class NumberTP301

        1引言

        聚類分析[1~2]將數(shù)據(jù)劃分成有意義或有用的簇,是解決數(shù)據(jù)匯總問題的起點,在廣泛的領域扮演重要角色。這些領域包括心理學和其他社會科學、生物學、統(tǒng)計學、模式識別、信息檢索、機器學習和數(shù)據(jù)挖掘。在過去的幾十年中,將聚類的不同類型區(qū)分為:層次的(嵌套的)與劃分的(非嵌套的),互斥的、重疊的與模糊的,完全的與部分的等。 K-Means算法[3]是一種基于原型的、劃分的聚類技術(shù),由于其算法思想比較簡單,聚類速度較快,且方便處理大量數(shù)據(jù)而得到了廣泛的應用。但是隨著數(shù)據(jù)發(fā)展的維數(shù)越來越高,K-Means聚類算法和其他傳統(tǒng)的算法一樣,在聚類高維數(shù)據(jù)時性能會降低很多。

        在高維數(shù)據(jù)中,簇通常是嵌入在原始數(shù)據(jù)空間的子空間,且不同的簇可以嵌入到不同的子空間中,所以子空間聚類方法在高維數(shù)據(jù)聚類中是必需的。子空間聚類算法是從高維數(shù)據(jù)空間中發(fā)現(xiàn)隱藏在不同低維子空間中的簇類。很多文獻提出了許多子空間聚類算法來處理高維數(shù)據(jù),旨在從子空間而不是整個數(shù)據(jù)空間發(fā)現(xiàn)簇類[4~5]。此類算法能有效減少數(shù)據(jù)冗余和不相關屬性對聚類過程的干擾,從而提高在高維數(shù)據(jù)集上的聚類結(jié)果。將K均值聚類算法與子空間聚類相結(jié)合能夠更好地應用在高維數(shù)據(jù)聚類中,從而克服了傳統(tǒng)聚類技術(shù)的不足之處。

        2K-Means算法與軟子空間聚類

        2.1K-Means算法

        K-Means算法具有很長的歷史,但是仍然是當前研究的重要課題。最早的K-Means算法由MacQueen提出。K-Means算法是一個經(jīng)典的聚類算法,其算法基本思想:首先,從原始目標數(shù)據(jù)集合中,隨機選擇k個數(shù)據(jù)點作為初始的k個簇的中心,其中k是用戶指定的參數(shù),即所期望的簇的個數(shù)。然后,計算其他非中心的數(shù)據(jù)點到k個簇中心的距離,根據(jù)其與中心的距離,選取距離最近的簇類,然后把該數(shù)據(jù)點分配到這個簇中,不斷重復這個過程。最后當所有的點都被劃到一個簇后,重新更新簇中心點,直到簇不發(fā)生變化為止。

        K-Means算法的基本步驟如下:

        輸入:簇的個數(shù)k以及數(shù)據(jù)集合D

        輸出:滿足條件的k個簇

        step1. 從數(shù)據(jù)集D中隨機選擇k個點作為初始簇中心;

        step2. repeat;

        step3. 計算每個點與各個中心點的距離,把對象指派到最近的簇中心,形成K個簇;

        step4. 重新計算每個簇的均值,作為新的簇中心;

        step5. until簇中心不再發(fā)生變化為止。

        K-Means算法需要事先確定k的大小以及初始聚類中心,而且只能發(fā)現(xiàn)超球狀的簇,對初始中心非常敏感。對K-Means算法的改進主要從確定k的大小以及k個初始中心的選擇等方面進行。

        Bradley和Fayyad以某種方式處理了K-Means算法的初始化問題[6],Anderberg[7]、Jain和Dubes[8]的書詳細地介紹了K-Means算法和它的一些變形。

        2.2軟子空間聚類

        軟子空間聚類算法是通過對各個數(shù)據(jù)簇類中的單個特征加權(quán),獲得每個數(shù)據(jù)特征的重要性,從而發(fā)現(xiàn)大權(quán)重的特征所在的子空間[9~11]。相比較于硬子空間聚類算法來說,由于對數(shù)據(jù)的處理有更好的靈活性與適應性,人們對軟子空間聚類算法的關注越來越多。

        為了更好地獲得每個簇類所在的最佳子空間,人們將K-Means聚類算法與軟子空間聚類算法相結(jié)合,采用了經(jīng)典的K-Means型算法的結(jié)構(gòu),并且在其基礎之上增加了一個迭代的步驟來計算加權(quán)公式,從而得出每個簇類及其相關聯(lián)的維度的權(quán)重集合,然后更新權(quán)值向量。

        3基于K-Means的軟子空間聚類算法

        3.1模糊加權(quán)軟子空間聚類算法

        2004年,E.Y. Chan等通過引入模糊權(quán)重指數(shù)和模糊加權(quán)指數(shù),提出了模糊加權(quán)軟子空間聚類算法[12],其目標函數(shù)定義如下:

        JAWA =∑Ci=1∑Nj=1uij∑Dk=1wτikd(xjk,vik)

        (1)

        subject to

        利用Lagrange乘子優(yōu)化方法最小化公式得到算法模糊隸屬度和特征加權(quán)系數(shù)的迭代公式。這是提出的第一個模糊加權(quán)軟子空間聚類算法。根據(jù)公式可以看出,若某個維度的距離為零時,上式就會失去意義。因此,2005年Jing L等給出了FWKM(Feature Weighting K-Means)算法[13],算法中提出了一個估算參數(shù)σ的公式,該算法在以上目標函數(shù)中加了一個取值足夠小的估算參數(shù)σ,通過給維度的距離增加一個大于 0 的參數(shù)σ,避免了當距離為零時,計算中出現(xiàn)的不便。后來, Gan G等又提出了FSC( A fuzzy subspace algorithm for clustering high dimensional data),給出了另一個模糊加權(quán)軟子空間聚類算法[14],該算法發(fā)現(xiàn)在子空間聚類中,每個維度的原始數(shù)據(jù)與每個簇以不同權(quán)重相關聯(lián)。而且密度越高,分配到該維度的權(quán)重越大。也就是說,所有維度的原始數(shù)據(jù)與每個簇相關聯(lián),但他們關聯(lián)的程度不同。此算法增加了設置參數(shù),用來控制在計算距離中的關鍵程度。

        模糊加權(quán)軟子空間聚類算法運用模糊優(yōu)化技術(shù)對目標函數(shù)優(yōu)化,對于不同的數(shù)據(jù)集,根據(jù)需要對模糊指數(shù)的取值進行調(diào)整。因此,相比較于經(jīng)典加權(quán)算法,模糊加權(quán)算法具有很好的適應性。

        3.2熵加權(quán)軟子空間聚類

        熵加權(quán)軟子空間聚類算法是通過將信息熵概念引入到軟子空間聚類算法中,在一定程度上由信息熵控制聚類中的各權(quán)向量[15]。2006年,Carlotta Domeniconi等提出LAC(Locally adaptive metrics for clustering high dimensional data)算法[16],此算法在各個簇中給每個特征分配一個權(quán)值,使用一個迭代算法來最小化其目標函數(shù),通過用一個固定的常量取代最大平均距離證明了算法的收斂性。2007年Jing L等提出EWSC(entropy weighting Subspace Clustering)算法[17],此算法是熵加權(quán)軟子空間聚類算法的典型代表,其目標函數(shù)定義如下:

        JEWSC= ∑Nj=1∑Ci=1umij∑Dk=1wik(xjk-vik)2

        (2)

        subject to

        此算法擴展了K-Means聚類過程,在聚類過程中增加了一個額外的步驟,自動計算每個簇類的所有維度的權(quán)重。在大多數(shù)的軟子空間聚類方法中,只考慮了類內(nèi)信息,很少有算法考慮到軟子空間聚類的類間信息。因此,2010年Deng ZH等提出 ESSC(Enhanced soft subspace clustering)算法[18],與其它軟子空間聚類算法相比,該算法在聚類過程中采用了類內(nèi)和類間兩種信息,對于高維數(shù)據(jù)可以得到更好的聚類結(jié)果。

        現(xiàn)有的子空間聚類算法僅對特征子空間進行聚類,沒有考慮特征組權(quán)重的問題,在聚類高維數(shù)據(jù)時沒有使用特征組的信息,以下介紹特征組加權(quán),在加權(quán)子空間聚類的基礎上,融入更多的特征組信息對改進現(xiàn)有的算法是很有意義的。

        3.3特征組加權(quán)軟子空間聚類

        如果軟子空間聚類在特征子空間上直接進行,特征組差異往往被忽略,而且特征子空間權(quán)重對噪聲和缺失值比較敏感。此外,對于特征較少的特征組,特征較多的特征組將獲得更多的權(quán)重。為了解決這個問題,X.Chen等引入了給特征組分配權(quán)值的概念,進而提出了一種新的子空間聚類算法稱為FGKM算法[19]。此算法將相關特征聚集為特征組,在子空間同時進行特征組和單個特征的聚類,特征組加權(quán)減少了權(quán)重對噪聲和缺失值的敏感性,通過引入特征組加權(quán),能夠消除特征組中的總體差異引起的不平衡現(xiàn)象。

        這種算法中,高維數(shù)據(jù)基于它們的自然特性被分為特征組。算法給出一個新的優(yōu)化模型定義優(yōu)化過程。其目標函數(shù)定義如下:

        JFGKM =∑kl=1{∑ni=1∑Tt=1∑j∈Gtui,lwl,tvl,jd(xi,j,zl,j)

        (3)

        subject to

        該算法通過在子空間中對特征組和單個特征進行加權(quán),自動計算出兩種類型的子空間熵。但是,F(xiàn)GKM算法的缺點是要求在聚類之前就確定特征組信息,而且在聚類過程中要作為輸入給出。在大多數(shù)情況下,我們無法確定一個高維數(shù)據(jù)集特征組的信息。因此,G. Gan等在FGKM算法的基礎上提出了AFGKM軟子空間聚類算法[20],此算法能夠在聚類迭代過程中自動確定特征組信息,通過加入特征組自動選擇功能從而擴展了FGKM算法,AFGKM算法會產(chǎn)生比FGkM算法更準確的聚類結(jié)果。

        4基于K-Means的軟子空間聚類進一步研究方向

        基于K-Means的軟子空間聚類算法的共同特點是:首先定義目標函數(shù),利用一些優(yōu)化方法求出最小化的解;其次,經(jīng)過推導得出權(quán)值向量的迭代計算公式;最后,目標函數(shù)是否有效決定了聚類結(jié)果的好壞?;贙-Means的算法都具有較好的擴展性,在計算高維數(shù)據(jù)時,具有較好的適用性。但是,其也繼承了K-Means 算法的缺點,為了進一步提高算法的穩(wěn)定性,選擇適當?shù)某跏即刂行氖瞧潢P鍵步驟。

        因而進一步的研究工作歸納如下:

        1) 對于高維數(shù)據(jù)而言,目前尚缺乏有效的初始簇中心選擇的方法,選擇初始簇中心的方法不同,聚類結(jié)果反差會很大。

        2) 現(xiàn)有的算法在定義加權(quán)方式時都引入了一些難以確定的參數(shù),需要用戶提供專門的領域知識來設置它們的輸入?yún)?shù),而且不同簇使用了相同的參數(shù),這樣對于不同結(jié)構(gòu)的簇,參數(shù)不能自動調(diào)節(jié),致使算法的適用性降低了很多,算法對于不同聚類問題的泛化能力也降低了很多。

        3) 現(xiàn)有的軟子空間聚類算法大多數(shù)是不完備的,沒有考慮到子空間的優(yōu)化問題,而只是過多關心數(shù)據(jù)集劃分的優(yōu)化問題。

        4) 現(xiàn)有的軟子空間聚類算法都是基于批處理技術(shù)的聚類算法不能很好地應用于高維數(shù)據(jù)流。

        5) 以上提到的算法還存在很多需要改進的地方,如參數(shù)設置的合理性,算法效率的提高等等。

        5結(jié)語

        軟子空間聚類算法受到越來越多的關注,文中首先介紹了傳統(tǒng)的K-Means聚類算法,然后在此基礎上結(jié)合子空間聚類算法給出了幾種基于K-Means的軟子空間聚類算法,通過對每種算法進行了綜述和分析,指出了一些不足之處,最后確定了進一步研究的方向,對以后的子空間聚類的研究有一定指導意義。

        參 考 文 獻

        [1] Jiawei Han, Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2006.

        [2] D.Hand, H.Mannila, P.Smyth.數(shù)據(jù)挖掘原理[M].張銀奎,廖麗,宋俊,等譯.北京:機械工業(yè)出版社,2003.

        [3] J.MacQueen. Some methods for classification and analysis of multivariate observations[C]//Proc. of the 5th Berkeley Symp. On Mathematical Statistics and Classification, pages 345-375.World Scientific, Singapore, January,1996.

        [4] L. Parsons, E. Haque, H. Liu, Subspace clustering for high dimensional data: a review[J]. ACM SIGKDD Explorations Newsletter,2004,6(1):90-105.

        [5] H. Kriegel, P. Kroger, A. Zimek, Clustering high-dimensional data: a survey on subspace clustering, pattern based clustering, and correlation clustering[J]. ACM Transactions on Knowledge Discovery from Data,2009,3(1):1-58.

        [6] P.S.Bradley and U.M.Fayyad. Refining Initial Points for K-Means Clustering[C]//Proc. of the 15th Intl. Conf. on Machine Learning, pages 91-99, Madison, WI, July 1998. Morgan Kaufmann Publishers Inc.

        [7] M. R. Anderberg. Cluster Analysis for Applications[M]. New York: Academic Press, New York,1973.

        [8] A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. Prentice Hall Advanced Reference Series[M]. New York: Prentice Hall,1988.

        [9] C. Bouveyron, S. Girard, C. Schmid, High dimensional data clustering[J]. Computational Statistics & Data Analysis,2007,52(1):502-519.

        [10] C.-Y. Tsai, C.-C. Chiu, Developing a feature weight self-adjustment mechanism for a k-means clustering algorithm[J]. Computational Statistics & Data Analysis,2008,52(10):4658-4672.

        [11] G. Milligan, A validation study of a variable weighting algorithm for cluster analysis[J]. Journal of Classification,1989,6(1):53-71.

        [12] E.Y. Chan, W.K. Ching, M.K. Ng, and J.Z. Huang, An Optimization Algorithm for Clustering Using Weighted Dissimilarity Measures[J], Pattern Recognition,2004,37(5):943-952.

        [13] L. Jing, M.K. Ng, J. Xu, J.Z. Huang, Subspace Clustering of Text Documents with Feature Weighting k-Means Algorithm[C]//Proc. Ninth Pacific-Asia Conf. Knowledge Discovery and Data Mining,2005:802-812.

        [14] G.J. Gan, J.H. Wu, A convergence theorem for the fuzzy subspace clustering (FSC) algorithm[J]. Pattern Recognition,2008,41:1939-1947.

        [15] H. Cheng, K.A. Hua, K. Vu, Constrained locally weighted clustering[C]//Proceedings of the VLDB Endowment, vol. 1, Auckland, New Zealand,2008:90-101.

        [16] C. Domeniconi, D. Gunopulos, S. Ma, B. Yan, M. Al-Razgan, and D. Papadopoulos, Locally Adaptive Metrics for Clustering High Dimensional Data[J]. Data Mining and Knowledge Discovery,2007,14:63-97.

        [17] L.P. Jing, M.K. Ng, Z.X. Huang, An Entropy Weighting k-Means Algorithm for Subspace Clustering of High-Dimensional Sparse Data[J], IEEE Trans. on Knowledge & Data Eng,2007,19(8):1026-1041.

        [18] Z.H. Deng, K.S. Choi, F.L. Chung and S.T. Wang, Enhanced soft subspace clustering integrating within-cluster and between-cluster information[J], Pattern Recognition,2010,43:767-781.

        [19] X. Chen, Y. Ye, X. Xu, J.Z. Huang. A feature group weighting method for subspace clustering of high-dimensional data[J]. Pattern Recognition,2012,45(1):434-446.

        [20] Guojun Gan, Michael Kwok-Po Ng. Subspace clustering with automatic feature grouping[J]. Pattern Recognition,2015,48:3703-3713.

        Summary of Soft Subspace Clustering Algorithm Based on K-Means

        LI Junli

        ( School of Information Technology and Engineering, Jinzhong College, Jinzhong030619)

        AbstractWith the development of data mining, clustering algorithm is becoming more and more. The difficulties associated with analyzing high-dimensional data are sometimes referred to as the curse of dimensionality. So the performance of traditional clustering algorithm in high-dimensional data clustering will reduce a lot. For this situation, subspace clustering algorithm greatly improves the problem . K-Means algorithm is a widely used clustering algorithm. Combined with subspace clustering algorithm it can be applied to high-dimensional data clustering. This paper introduces three kinds of soft subspace clustering algorithm based on K-Means, then each algorithm is summarized and analyzed. Finally it points out the future research direction.

        Key WordsK-Means algorithm, soft subspace clustering, high-dimensional data clustering

        * 收稿日期:2015年11月7日,修回日期:2015年12月23日

        作者簡介:李俊麗,女,講師,碩士,研究方向:數(shù)據(jù)挖掘。

        中圖分類號TP301

        DOI:10.3969/j.issn.1672-9730.2016.05.011

        猜你喜歡
        means算法
        應用K—means聚類算法劃分曲面及實驗驗證
        K—Means算法及其在卷煙零售門店庫存聚類分析中的應用
        SIFT算法在木材紋理分類上的應用
        基于K—Means聚類算法入侵檢測系統(tǒng)研究
        基于聚類算法的DNS攻擊檢測
        計算機時代(2016年7期)2016-07-15 15:53:53
        基于譜聚類的網(wǎng)絡入侵檢測算法研究
        計算機時代(2016年6期)2016-06-17 15:56:18
        基于Weka的Apriori算法在原油產(chǎn)量預測中的應用
        基于HSI顏色空間的小麥粉精度自動識別研究
        基于聚類的Web日志挖掘
        基于百度地圖的改進的K—means算法研究
        軟件(2016年1期)2016-03-08 18:48:49
        久草精品手机视频在线观看| 特级婬片国产高清视频| 性夜影院爽黄a爽在线看香蕉| 尤物yw午夜国产精品视频 | 国产精品久久久精品三级18| 中文字幕av人妻少妇一区二区 | 免费成人在线电影| 国产精品亚洲五月天高清| 亚洲成AV人国产毛片| 亚洲精品一区二区在线免费观看 | 亚洲情a成黄在线观看动漫尤物 | 国产激情自拍在线视频| 东京道一本热中文字幕| 国产精品第一二三区久久蜜芽| 亚洲精品白浆高清久久| 日本a级黄片免费观看| 日日碰狠狠添天天爽五月婷| 无码少妇一级AV便在线观看 | 国产免费午夜a无码v视频| 少妇bbwbbw高潮| av在线天堂国产一区| 99精品久久精品一区二区| 人妻丰满av∨中文久久不卡| 日韩精品极品免费观看| 中文字幕女同系列在线看一 | 亚洲人成77777在线播放网站| 久久亚洲欧洲无码中文| 国产精品丝袜一区二区三区在线| 国产精品自线一区二区三区| 94久久国产乱子伦精品免费| 欧美精品aaa久久久影院| 中文字幕乱码一区在线观看| 亚洲精品成人网站在线播放| 国产一级农村无码| 色婷婷精品国产一区二区三区| 久久无码潮喷a片无码高潮 | 久久中文字幕暴力一区| 国产乱子伦农村xxxx| 亚洲国产麻豆综合一区| 极品少妇一区二区三区四区视频| 国产精品国产三级国产av品爱网 |