亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于期望最大化的K-Means聚類算法

        2020-06-28 02:18:08郝金山
        關(guān)鍵詞:高維聚類向量

        景 源,郝金山

        (遼寧大學(xué) 信息學(xué)院,遼寧 沈陽(yáng) 110036)

        0 引言

        在數(shù)據(jù)挖掘領(lǐng)域中,聚類技術(shù)是應(yīng)用廣泛且十分重要的技術(shù).聚類分析已經(jīng)應(yīng)用在各種方面,比如其在機(jī)器學(xué)習(xí),文本分類,圖像處理,語(yǔ)音處理,模式識(shí)別等領(lǐng)域.

        常見(jiàn)的聚類方法有模型方法,密度方法[1],網(wǎng)格方法[2],層次劃分方法[3]和劃分的方法.其中EM算法[4-10]屬于模型方法.K-means算法[11-17]屬于劃分的方法.在這些方法中最著名的就是kmeans方法,kmeans方法具有簡(jiǎn)單,快速,有效等諸多優(yōu)點(diǎn),但它也有非常明顯的不足.Kmeans算法過(guò)于依賴于初始聚類中心.

        文獻(xiàn)[8]中,提出一種基于稀疏約束非負(fù)矩陣分解的kmeans聚類方法,通過(guò)在在非負(fù)矩陣分解過(guò)程中對(duì)基矩陣列向量施加l1和l2范數(shù)稀疏約束,實(shí)現(xiàn)高維數(shù)據(jù)的低維表示,然后利用在低維數(shù)據(jù)聚類中性能良好的kmeans算法對(duì)稀疏降維后的數(shù)據(jù)進(jìn)行聚類.該方法適合于高維數(shù)據(jù),并有良好的性能.但缺點(diǎn)是需要消耗的時(shí)間較長(zhǎng).文獻(xiàn)[9]中先根據(jù)類簇指標(biāo)確定需要聚類的數(shù)k,之后采用基于密度的思想,首先將聚類樣本分為核心點(diǎn)、邊界點(diǎn)和孤立點(diǎn),之后排除孤立點(diǎn)和邊界點(diǎn)并取核心點(diǎn)的中心點(diǎn)作為k個(gè)聚類中心后再進(jìn)行kmeans聚類.雖然算法比原始的kmeans算法準(zhǔn)確率得到提高,但同樣耗時(shí)較長(zhǎng),而且在已知k值的情況下,有可能出現(xiàn)k值對(duì)不上的情況.文獻(xiàn)[10]通過(guò)定義的平均類間最大相似度指標(biāo)值來(lái)確定最佳的k值,將所有數(shù)據(jù)點(diǎn)中密度較高的點(diǎn)作為備選聚類中心,將備選點(diǎn)中密度最大的兩個(gè)點(diǎn)作為聚類中心進(jìn)行初步聚類計(jì)算并更新當(dāng)前聚類中心.根據(jù)平均類間最大相似度來(lái)決定是否添加新的聚類中心,結(jié)果表明該算法可以有效的提高聚類的精確性與穩(wěn)定性,而且還能在一定程度上縮短聚類時(shí)間,但隨著數(shù)據(jù)量的增大,特別是對(duì)高維數(shù)據(jù)而言,這些優(yōu)勢(shì)會(huì)極大的減弱.

        針對(duì)以上出現(xiàn)的問(wèn)題,本文提出一種新的初始化方法,用EM方法初始化k-means方法,代替?zhèn)鹘y(tǒng)意義上的隨機(jī)初始化,讓初始聚類中心離最終的聚類結(jié)果更近一些并且適合高維數(shù)據(jù).

        1 K-means算法

        經(jīng)典的k-means算法思想是隨機(jī)選取k個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心,然后根據(jù)一定的距離算法(歐式距離)迭代計(jì)算聚類中心,每次計(jì)算類內(nèi)平均值作為新的聚類中心,直到滿足聚類要求,最后返回k個(gè)聚類中心和最終的蔟類.

        K-means算法步驟:

        1)從數(shù)據(jù)集A中隨機(jī)選取k個(gè)數(shù)據(jù)對(duì)象作為初始聚類中心.

        2)求每個(gè)數(shù)據(jù)點(diǎn)與初始聚類中心的距離.

        3)根據(jù)距離,將每個(gè)數(shù)據(jù)點(diǎn)分配到距離其最近的聚類中心.

        4)求每個(gè)類內(nèi)平均值,作為每個(gè)蔟的新的聚類中心.

        5)設(shè)置聚類迭代上限,或者準(zhǔn)則函數(shù).

        6)判斷,如果滿足或者達(dá)到最大迭代次數(shù),表示迭代結(jié)束,否則返回步驟2.

        2 K-means算法的改進(jìn)

        2.1 初始聚類中心的選擇

        針對(duì)k-means算法中,初始聚類中心對(duì)最終聚類結(jié)果影響較大,但初始聚類中心又是隨機(jī)的,不確定性太大,對(duì)于這種問(wèn)題,把EM算法與k-means算法相結(jié)合,用EM算法來(lái)求解k-means算法的初始聚類中心.

        EM算法的好處在于它可以根據(jù)已知數(shù)據(jù)和數(shù)據(jù)分布模型得到每一個(gè)樣本屬于哪一個(gè)分布和模型分布的參數(shù).為了對(duì)高緯數(shù)據(jù)進(jìn)行聚類,考慮到自然界中大部分?jǐn)?shù)據(jù)都符合高斯分布,所以這里采用的是多維高斯分布模型,因?yàn)檫@里用的是向量,所以需要考慮向量與向量之間的關(guān)系.

        多維向量的高斯概率密度函數(shù)是:

        (1)

        假設(shè)要把數(shù)據(jù)分成k類,每類分別服從多維高斯分布.讓原數(shù)據(jù)以列向量的形式存在.

        第t類的高斯概率密度函數(shù)是:

        EM算法中存在如下Jensen不等式:

        隱含變量z即為所對(duì)應(yīng)的類別,Qi是條件概率,在這里可以用概率密度函數(shù)代替,表示屬于對(duì)應(yīng)變量z的概率.隱含變量z即為所對(duì)應(yīng)的類別就是要找到k-means初始聚類的聚類所對(duì)應(yīng)的種類.未知參數(shù)為θ={u,Y},u為均值,Y為協(xié)方差矩陣,應(yīng)用的EM算法的具體流程如下:

        1)對(duì)θ={u,Y}賦初值,不同的類賦不同的初值.

        2)根據(jù)θ的值求:

        3)根據(jù)Qi的值確定分布的類型,找到Qi最大的值所對(duì)應(yīng)的種類c,若服從第一類的分布模型,則把第一類的概率密度函數(shù)代入,若服從第二類的分布模型,則把第二類的概率密度函數(shù)帶入.若k的值大于2,則找到Qi所對(duì)應(yīng)種類的模型.

        (2)

        EM算法的E步:初始化θt或者根據(jù)更新后θt的求Qti代入Lt(x).

        M步:讓Lt(x)最大化,即分別對(duì)Lt(x)求導(dǎo),讓導(dǎo)數(shù)為零,如讓L1(x)分別對(duì),Y1,u1求導(dǎo)數(shù),讓導(dǎo)數(shù)為零,下面為具體的推導(dǎo)過(guò)程.

        先簡(jiǎn)化公式參數(shù)的似然函數(shù)如下所示,求導(dǎo)過(guò)程中Q1i(z)是個(gè)常數(shù)可以被省略

        n為維數(shù),構(gòu)造公式R為:

        則L1(x)求導(dǎo)可以簡(jiǎn)化為R求導(dǎo),分別對(duì)u1求導(dǎo)和Y1求導(dǎo),當(dāng)導(dǎo)數(shù)為零可得到,

        (3)

        (4)

        根據(jù)公式(3)和公式(4)求得均值和協(xié)方差矩陣:

        公式中的n1是指服從第1類的數(shù)據(jù)的數(shù)量,如此就求出了第一類概率模型參數(shù)的值,之后每一類的概率模型參數(shù)的值同理可求,最后得到的參數(shù)值代入E步,依次在E步和M 步之間循環(huán),直到參數(shù)不再變化為止,如此就求出了每個(gè)模型的參數(shù).知道了每個(gè)數(shù)據(jù)的隱含類別Z,根據(jù)隱含類別,將數(shù)據(jù)歸類,求每個(gè)類別的均值,作為k-means算法的初始值.這樣就是把EM算法用于k-means算法初始聚類中心的選擇.

        2.2 距離公式

        一般k-means算法所采用的距離公式多為傳統(tǒng)的歐式距離,對(duì)于高維數(shù)據(jù)而言,歐式距離的性能收到限制,特別是不同維度的差異較大時(shí),故本文采用一種新的公式作為距離算法,以兩個(gè)列向量的比值為基礎(chǔ),作為兩個(gè)數(shù)據(jù)的距離度量.

        (5)

        其中a和b可以看出分別為兩個(gè)維度為n的列向量,dab值越小表示距離越近.

        以下是k-means算法的改進(jìn)具體流程:

        1)從已有的數(shù)據(jù)集中選取一定量的數(shù)據(jù)進(jìn)行一次遞歸.

        2)在遞歸過(guò)程中采用EM算法計(jì)算出初始聚類中心,并用于計(jì)算出在第一次遞歸中的聚類計(jì)算.

        3)利用鄰近原則和提出的距離算法,根據(jù)距離的遠(yuǎn)近分配到就最近的簇中.

        4)根據(jù)計(jì)算,得到每個(gè)簇中的平均值作為新的聚類中心.

        5)判斷聚類函數(shù)是否收斂,如果收斂,則返回聚類結(jié)果.若不收斂,則轉(zhuǎn)到步驟(3),繼續(xù)計(jì)算,直到收斂為止.

        6)把遞歸回的結(jié)果,作為全部數(shù)據(jù)的初始聚類中心,以相同的原理利用步驟(3)至步驟(5),并得到最終的聚類結(jié)果并返回.

        通過(guò)部分?jǐn)?shù)據(jù)遞歸EM算法,得到的聚類結(jié)果作為真正的初始聚類中心,從而讓初始聚類中心離最終理想的聚類結(jié)果更近一些,提升算法準(zhǔn)確性.

        3 仿真與實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)描述

        表1 數(shù)據(jù)集分布

        為了驗(yàn)證算法的準(zhǔn)確性和穩(wěn)定性,本文從UCI數(shù)據(jù)集中選取Iris,wine,Ionosphere,Soybean,Sonar等5個(gè)經(jīng)典數(shù)據(jù)集進(jìn)行測(cè)試.UCI數(shù)據(jù)集是經(jīng)典的用于測(cè)試機(jī)器學(xué)習(xí)和數(shù)據(jù)挖據(jù)的數(shù)據(jù)集,其中的數(shù)據(jù)有明確的分類.關(guān)于分類準(zhǔn)確率問(wèn)題上,在數(shù)據(jù)集上分別運(yùn)行k-means算法,NMFS-K算法[8]和本文算法各10次,每次迭代次數(shù)不超過(guò)100次,隨后取均值進(jìn)行比較,其中遞歸時(shí)取其中1/4的數(shù)據(jù).數(shù)據(jù)集的分布如表1所示.

        3.2 實(shí)驗(yàn)描述

        基于表1所示的UCI數(shù)據(jù)集,對(duì)k-means算法,NMFS-K算法和本文算法的聚類結(jié)果進(jìn)行對(duì)比分析,用分類準(zhǔn)確率對(duì)結(jié)果進(jìn)行評(píng)價(jià),分類準(zhǔn)確率按如下公式:

        其中ai為每個(gè)類中正確聚類的數(shù)據(jù)個(gè)數(shù),k為聚類個(gè)數(shù),n為數(shù)據(jù)總數(shù),CA的值越高聚類的效果越好,實(shí)驗(yàn)所得的CA值如表2所示:

        表2 聚類的CA值

        表3 運(yùn)行時(shí)間(t/s)

        從表2可以看出傳統(tǒng)算法相對(duì)于高維和數(shù)據(jù)量大的數(shù)據(jù)而言,聚類的效果不是很好,NMFS-K算法相比于傳統(tǒng)的算法,除了在低維數(shù)據(jù)上表現(xiàn)不好外,其他相比于傳統(tǒng)算法要好一些,本文方法雖然同樣在低維數(shù)據(jù)表現(xiàn)不好,但在高維數(shù)據(jù)上要比前兩種方法要更好上一些.故本文方法比較適合于高維數(shù)據(jù).

        為了從時(shí)間上對(duì)比分析算法的效率,記錄了各個(gè)數(shù)據(jù)集的運(yùn)行時(shí)間.如表3所示,本文方法相比于前兩種方法而言,需要消耗更多的時(shí)間.

        4 總結(jié)

        針對(duì)高維數(shù)據(jù)的數(shù)據(jù)集,提出了聚類算法改進(jìn),把EM算法和k-means算法相結(jié)合,使EM算法用于遞歸中來(lái)確定初始聚類中心,讓初始聚類中心離最終聚類結(jié)果更近一些.并為了更好地提升算法的準(zhǔn)確性,提出一種新的距離算法.通過(guò)實(shí)驗(yàn)證明,提高了算法的準(zhǔn)確性,并且適合于高維的大數(shù)據(jù)量的處理,證明了算法的有效性,但是缺點(diǎn)是所需計(jì)算的時(shí)間延長(zhǎng),需要更好的改進(jìn).

        猜你喜歡
        高維聚類向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        基于DBSACN聚類算法的XML文檔聚類
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        向量垂直在解析幾何中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        国产成人无码区免费内射一片色欲| 亚洲av色福利天堂久久入口| 亚洲国产精品美女久久| 无码中文字幕免费一区二区三区| 97人妻熟女成人免费视频| 国内精品福利在线视频| 色偷偷亚洲精品一区二区| 男人国产av天堂www麻豆 | 无码国产午夜福利片在线观看| 中文字幕一区二区三区在线不卡| 色综合久久五十路人妻| 国产欧美在线观看不卡| 国产最新进精品视频| 色www亚洲| 精品人妻一区二区三区不卡毛片| 国产精品午夜福利视频234区| 深夜福利小视频在线观看| 99精品欧美一区二区三区美图| 亚洲一区域二区域三区域四| 亚洲精品乱码久久久久蜜桃| 日韩人妻无码一区二区三区久久99| 亚洲www视频| 国产精品亚洲一区二区三区在线看 | 国产av综合一区二区三区最新| 偷偷夜夜精品一区二区三区蜜桃 | 亚洲国产精品第一区二区| 在线观看亚洲AV日韩A∨| 女同另类一区二区三区| 天天做天天爱夜夜爽女人爽| 88国产精品视频一区二区三区| 最新手机国产在线小视频| 极品尤物在线精品一区二区三区| 国产产区一二三产区区别在线| 欧美日韩在线观看免费| 毛片色片av色在线观看| 人人人妻人人人妻人人人| 亚洲啪啪综合av一区| 国产日韩AV无码免费一区二区| 亚洲综合在线观看一区二区三区| 国产人妻久久精品二区三区老狼 | 91精品久久久老熟女91精品|