亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于優(yōu)化初始聚類中心的Kmeans聚類算法

        2022-02-17 08:34:59郭文娟
        科技風(fēng) 2022年4期
        關(guān)鍵詞:聚類

        摘?要:針對(duì)傳統(tǒng)的Kmeans算法運(yùn)行的結(jié)果依賴于初始的聚類數(shù)目和聚類中心,本文提出了一種基于優(yōu)化初始聚類中心的Kmeans算法。該算法通過量化樣本間距離和聚類的緊密性來確定聚類數(shù)目K值;根據(jù)數(shù)據(jù)集的分布特征來選取相距較遠(yuǎn)的數(shù)據(jù)作為初始聚類中心,避免了傳統(tǒng)Kmeans算法的聚類數(shù)目和聚類中心的隨機(jī)選取。UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫數(shù)據(jù)集的實(shí)驗(yàn)證明,本文所提出的改進(jìn)的聚類算法獲得了良好的聚類效果,同時(shí)獲得較高的聚類準(zhǔn)確率。

        關(guān)鍵詞:聚類;Kmeans聚類;聚類數(shù)目;初始聚類中心

        文獻(xiàn)標(biāo)識(shí)碼:A

        在模式識(shí)別、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域,聚類算法是很有意義的研究?jī)?nèi)容[1]。物以類聚,聚類是將數(shù)據(jù)集中的數(shù)據(jù)對(duì)象按照對(duì)象間的相似性劃分成若干個(gè)類,使同一類的對(duì)象間差別小,而不同類的對(duì)象間差別大[2]。

        Kmeans聚類算法是經(jīng)典且應(yīng)用廣泛的劃分方法之一,具有理論可靠、算法簡(jiǎn)單、收斂速度快、能有效處理大數(shù)據(jù)集等優(yōu)點(diǎn)[3]。但是傳統(tǒng)的Kmeans算法過度依賴于初始條件。初始聚類數(shù)目K值的確定影響了最終的聚類效果和整個(gè)算法的收斂速度。假設(shè)聚類數(shù)目K值已經(jīng)確定,選取不同的初始聚類中心又會(huì)導(dǎo)致不同的聚類結(jié)果,隨機(jī)選取的初始聚類中心點(diǎn)將會(huì)增加最終聚類結(jié)果的隨機(jī)性和不可靠性。由此可見,對(duì)于聚類初始條件優(yōu)化的研究在Kmeans聚類算法改進(jìn)中有著重要的地位。國(guó)內(nèi)外諸多學(xué)者致力于Kmeans算法初始條件的研究,以改善K均值算法的聚類效果[46]。

        本文提出一種基于優(yōu)化初始聚類中心的Kmeans算法,該算法在聚類數(shù)目K值的確定上和初始聚類中心的選取上都做了改進(jìn),避免了傳統(tǒng)Kmeans算法的聚類數(shù)目和聚類中心的隨機(jī)選取。UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫數(shù)據(jù)集的實(shí)驗(yàn)測(cè)試證明,本文所提出的算法具有良好的聚類效果,聚類準(zhǔn)確率高。

        1?Kmeans聚類算法

        傳統(tǒng)的Kmeans聚類算法用聚類誤差平方和作為衡量聚類效果的準(zhǔn)則函數(shù)。傳統(tǒng)Kmeans算法會(huì)隨機(jī)選擇出K個(gè)數(shù)據(jù)作為最初的聚類中心,然后計(jì)算出數(shù)據(jù)集中剩余數(shù)據(jù)和各聚類中心的距離,根據(jù)距離將其余數(shù)據(jù)分配到各類中,重新確定各個(gè)類簇的新中心點(diǎn),再分配數(shù)據(jù)集中樣本到新的聚類中心,再計(jì)算各個(gè)類的新中心點(diǎn),再次分配數(shù)據(jù)集樣本。反復(fù)迭代到準(zhǔn)則函數(shù)收斂為止,也就是聚類中心點(diǎn)不再發(fā)生變化。

        2?基于優(yōu)化初始聚類中心的Kmeans聚類算法

        2.1?聚類數(shù)目K值的確定

        聚類算法是通過量化樣本間距離和聚類的緊密性來評(píng)價(jià)聚類效果的好壞。具體表示為:同一個(gè)類內(nèi)數(shù)據(jù)間的距離越小越好、不同類間的距離越大越好。本文將同一類簇內(nèi)的差異值和不同類簇間的差異值的比值定義為評(píng)價(jià)聚類效果優(yōu)劣的標(biāo)準(zhǔn)。

        將數(shù)據(jù)集所有的類簇內(nèi)距離和定義為Ein,表示每個(gè)類簇中所包含的數(shù)據(jù)樣本到各個(gè)類中心點(diǎn)間的距離之和。類簇內(nèi)距離和Ein的計(jì)算公式表示為:

        其中,n是表示數(shù)據(jù)集中所有的樣本數(shù)量,k表示類的個(gè)數(shù),Ci表示第i個(gè)類簇,x為第i類中的數(shù)據(jù)樣本,Zi表示第i個(gè)類的中心點(diǎn)。類簇內(nèi)距離和Ein值越小,意味著所有類簇中的數(shù)據(jù)樣本越緊湊,聚類的緊密型越好。

        另外,還需要計(jì)算各個(gè)類簇中心點(diǎn)相互間的距離作為類簇間距離,類簇間距離定義為Eout,類簇間距離Eout的計(jì)算公式為:

        其中,k表示類的數(shù)目,即類簇?cái)?shù),Ci表示第i個(gè)類簇的聚類中心點(diǎn),C表示各個(gè)類簇的聚類中心平均值,類簇間距離Eout的值越大,意味著類和類之間的相似度小。

        綜合類簇內(nèi)距離和Ein與類簇間距離Eout兩個(gè)值來評(píng)定聚類效果的優(yōu)劣性,本文將類簇內(nèi)距離和Ein與類簇間距離Eout的比值作為聚類效果的評(píng)價(jià)標(biāo)準(zhǔn),當(dāng)類簇內(nèi)距離和Ein與類簇間距離Eout的比值越小時(shí),表示此時(shí)的聚類效果越好。用EE表示聚類效果優(yōu)劣程度的評(píng)價(jià)標(biāo)準(zhǔn),則EE表示為:

        由上式可以得出,EE值為先逐漸變小然后會(huì)慢慢變大,EE值越小,表示聚類的效果越好,當(dāng)EE達(dá)到局部最小值時(shí),聚類效果最佳,由此可以確定聚類數(shù)目K值。

        2.2?算法描述

        本文通過聚類數(shù)目K值的確定和優(yōu)化初始聚類中心來改進(jìn)傳統(tǒng)Kmeans算法。在確定聚類數(shù)目K值時(shí),隨著EE=Ein/Eout的值不斷變小讓K++,當(dāng)EE值達(dá)到局部最小值時(shí)來確定K值;優(yōu)化初始聚類中心時(shí),根據(jù)數(shù)據(jù)集樣本分布的特點(diǎn),選擇出K個(gè)相距較遠(yuǎn)的數(shù)據(jù)樣本作為初始聚類中心。本文基于優(yōu)化初始聚類中心的Kmeans算法一方面解決了傳統(tǒng)Kmeans算法中聚類數(shù)目K值無法確定的問題,另一方面解決了傳統(tǒng)算法中隨機(jī)選取初始中心點(diǎn)而造成的局部最優(yōu)問題。

        本文基于優(yōu)化初始聚類中心的Kmeans算法具體描述如下:

        (1)初始化:K=1,運(yùn)行傳統(tǒng)的Kmeans算法并計(jì)算此時(shí)的EE值;

        (2)讓K++,再次運(yùn)行傳統(tǒng)的Kmeans算法并記錄EE;

        (3)隨著K的逐漸增大運(yùn)行Kmeans算法,直到EE值出現(xiàn)局部最小值,保留此時(shí)的K值,由此確定聚類數(shù)目K值;

        (4)選擇數(shù)據(jù)集中任意一個(gè)數(shù)據(jù)對(duì)象作為第一個(gè)聚類中心點(diǎn);

        (5)重復(fù)步驟(4),選取出K個(gè)初始的聚類中心點(diǎn);

        (6)計(jì)算數(shù)據(jù)集剩余樣本到離得最近聚類中心的距離,定義該距離為D(X);

        (7)為每個(gè)類重新選擇聚類中心點(diǎn),此時(shí)選取概率與D(X)的大小成正比,即離原聚類中心越近的點(diǎn)越有可能被選取為新的聚類中心點(diǎn);

        (8)重復(fù)步驟(7)直到K個(gè)聚類中心點(diǎn)全部被選出來;

        (9)再運(yùn)行傳統(tǒng)的Kmeans聚類算法。

        3?實(shí)驗(yàn)結(jié)果與分析

        本文實(shí)驗(yàn)環(huán)境為:Intel?CPU,8GB內(nèi)存,500G硬盤,Windows10操作系統(tǒng)和MATLAB應(yīng)用軟件。

        在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫[7]的Iris等6個(gè)聚類算法常用的測(cè)試數(shù)據(jù)集上對(duì)本文基于優(yōu)化初始聚類中心的改進(jìn)Kmeans算法和傳統(tǒng)Kmeans算法進(jìn)行實(shí)驗(yàn)測(cè)試并比較。UCI數(shù)據(jù)集的描述見表1。

        采用聚類誤差平方和、聚類時(shí)間和聚類準(zhǔn)確率、Rand指數(shù)、Jaccard系數(shù)[89],“Adjusted?Rand?index”參數(shù)[10]對(duì)聚類算法的運(yùn)行結(jié)果進(jìn)行比較分析。表2是本文基于優(yōu)化初始聚類中心的Kmeans算法和傳統(tǒng)Kmeans算法的聚類誤差平方和與聚類時(shí)間比較的結(jié)果。圖1~圖4分別是兩種算法的Rand指數(shù)、Jaccard系數(shù)、“Adjusted?Rand?index”參數(shù)和聚類正確率的比較結(jié)果。

        從表2可以看出,在各個(gè)數(shù)據(jù)集上,本文基于優(yōu)化初始聚類中心的Kmeans算法的聚類誤差平方和都小于傳統(tǒng)Kmeans算法,有良好的聚類效果。聚類時(shí)間的比較顯示,本文算法的時(shí)間性能略差于傳統(tǒng)Kmeans算法,分析原因在于本文算法在確定K值和選取聚類中心點(diǎn)時(shí)會(huì)消耗一定的時(shí)間。

        圖4顯示,在所有數(shù)據(jù)集上本文基于優(yōu)化初始聚類中心的Kmeans算法的聚類正確率優(yōu)于傳統(tǒng)Kmeans算法。因此,本文算法獲得良好的聚類效果,獲得較高的聚類準(zhǔn)確率。

        結(jié)語

        本文在分析傳統(tǒng)Kmeans聚類算法不足的基礎(chǔ)上,提出一種基于優(yōu)化初始聚類中心的Kmeans算法。該算法通過量化樣本間距離和聚類的緊密性來確定聚類數(shù)據(jù)K值,利用數(shù)據(jù)集樣本的分布特征選取相距較遠(yuǎn)的初始聚類中心點(diǎn),克服了傳統(tǒng)Kmeans算法對(duì)初始聚類中心敏感、聚類效果不理想的缺陷。在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫數(shù)據(jù)集上的實(shí)驗(yàn)表明:本文基于優(yōu)化初始聚類中心的Kmeans算法有很好的聚類效果,準(zhǔn)確率高,聚類性能優(yōu)于傳統(tǒng)Kmeans算法。

        參考文獻(xiàn):

        [1]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008,19(1):4861.

        [2]Han?J?W,Kamber?M.Data?Mining:Concepts?and?Techniques,2nd?ed.[M].Beijing:Chain?machine?Press,2000:383466.

        [3]謝娟英,郭文娟,謝維信,等.基于樣本空間分布密度的初始聚類中心優(yōu)化K均值算法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(3):888892.

        [4]韓凌波,王強(qiáng),蔣正峰,等.一種改進(jìn)的kmeans初始聚類中心選取算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(17):150152.

        [5]黃敏,何中市,邢欣來,等.一種新的kmeans聚類中心選取算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(35):132134.

        [6]熊忠陽,陳若田,張玉芳.一種有效的Kmeans聚類中心初始化方法[J].計(jì)算機(jī)應(yīng)用研究,2011,28(11):41884190.

        [7]Frank?A,Asuncion?A.UCI?machine?learning?repository[EB/OL].Irvine,CA:University?of?California,School?of?Information?and?Computer?Science,2010.http://archive.ics.uci.edu/ml.

        [8]張惟皎,劉春煌,李芳玉.聚類質(zhì)量的評(píng)價(jià)方法[J].計(jì)算機(jī)工程,2005,31(20):1012.

        [9]于劍,程乾生.模糊聚類方法中的最佳聚類數(shù)的搜索范圍[J].中國(guó)科學(xué)(E輯),2002,32(2):274280.

        [10]楊燕,靳蕃,Kamel?M.聚類有效性評(píng)價(jià)綜述[J].計(jì)算機(jī)應(yīng)用研究,2008,41(06):16311632.

        基金項(xiàng)目:甘肅政法大學(xué)校級(jí)青年項(xiàng)目(GZF2019?XQNLW08),甘肅省青年科技基金項(xiàng)目(21JR7RA572),2019年甘肅省高校引進(jìn)和使用優(yōu)質(zhì)在線開放課程項(xiàng)目

        作者簡(jiǎn)介:郭文娟(1986—?),女,甘肅武威人,講師,研究方向:智能信息處理。

        猜你喜歡
        聚類
        稠密度聚類在艦船網(wǎng)絡(luò)微弱信號(hào)自適應(yīng)增強(qiáng)中的應(yīng)用
        基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
        基于DBSACN聚類算法的XML文檔聚類
        基于高斯混合聚類的陣列干涉SAR三維成像
        條紋顏色分離與聚類
        基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
        局部子空間聚類
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        基于熵權(quán)和有序聚類的房地產(chǎn)周期分析
        河南科技(2014年23期)2014-02-27 14:19:14
        97自拍视频国产在线观看| 国产自国产在线观看免费观看| 中国精品久久精品三级| 亚洲AV无码乱码一区二区三区 | 亚洲av自偷自拍亚洲一区| 男女av一区二区三区| 四虎影视免费永久在线观看| 精品一级毛片| 亚洲av精品一区二区| 中文字日产幕码三区的做法大全| 成年无码av片在线| 国产成人户外露出视频在线| 在线视频亚洲一区二区三区| 97人妻精品一区二区三区男同| 女人被狂躁到高潮视频免费网站| 久草午夜视频| 日本高清无卡一区二区三区| 无码专区一ⅴa亚洲v天堂| 国产精品久久久久久久免费看 | 亚洲人成网站色在线入口口| 人与动牲交av免费| 91日韩高清在线观看播放| 天堂a版一区二区av| 国产免费三级av在线| 变态 另类 欧美 大码 日韩| 国产精品1区2区| 中文字幕熟女激情50路| 精品国产偷窥一区二区| 无码一区二区波多野结衣播放搜索| 青榴社区国产精品| 日韩精品视频高清在线| 国产揄拍国产精品| 亚洲综合色区无码专区| 人妻体体内射精一区中文字幕| 欧美成人国产精品高潮| 国产精品久久久久久久久鸭| 免费美女黄网站久久久| 色呦呦九九七七国产精品| 国产av精国产传媒| 91情侣在线精品国产免费| 国产精品久色婷婷不卡|