亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于密度的全局K-means算法的改進

        2019-03-27 03:13:34陳楚天曲金帥1
        關鍵詞:中心點高密度全局

        徐 娟,范 菁,陳楚天,曲金帥1,

        (1. 云南民族大學 云南省高校信息與通信安全災備重點實驗室,云南 昆明 650500; 2. 云南民族大學 電氣信息工程學院,云南 昆明 650500)

        傳統(tǒng)的K-means算法,方法簡單有效,收斂迅速,便于處理較大型數(shù)據(jù),已經(jīng)被廣泛運用到各個領域[1].但是傳統(tǒng)的K-means算法對初始中心點[2]的選擇依賴性強,為了解決該問題,人們提出了很多增量式算法[3].

        2003年Likas[4]等提出了一種全局K-means聚類算法,同時在文獻中還提出了一種改進的快速全局K-means算法.全局K-means聚類算法是一種增量式算法,該算法需要通過全局搜索來確定下一個簇的初始聚類中心點,每次都需要迭代運行N次(N是數(shù)據(jù)集中數(shù)據(jù)的個數(shù))K-means算法計算簇內平方誤差函數(shù)E,使得簇內平方誤差函數(shù)最小的點,則設定為下一簇的最佳初始中心點.該算法的缺點是每一次都需要迭代N次,計算量大,在處理大數(shù)據(jù)集時消耗的時間更多,因此文獻[4]提出了改進的快速全局K-means聚類算法,該算法提出了一種新的簇內中心判斷指標參數(shù)bi替換全局K-means算法的簇內平方誤差函數(shù)E,減少了算法的計算量.

        1 K-means算法

        傳統(tǒng)K-means算法的規(guī)則:從原始數(shù)據(jù)中隨機選取K個初始聚類簇中心點,然后按照數(shù)據(jù)的最短距離點的原則(歐式距離),將原始數(shù)據(jù)集中的點分配給最近的簇中心.分配完所有的數(shù)據(jù)點后,在每個已生成的簇中,計算簇中點集的質心點,以所有數(shù)據(jù)的平均值點作為新的聚類簇中心點.重復迭代計算,直到簇中心點位置收斂,收斂的判斷方式一般采用簇內誤差平方和函數(shù).此時可判斷為最佳聚類中心點,進行最后的聚類,聚類結束[5].具體流程如下:

        Step 1 初始化:從待聚類的數(shù)據(jù)集中隨機選擇k個聚類中心點,c1c2...ck.

        Step 2 計算除聚類中心點外其他的數(shù)據(jù)到這k個簇中心點的距離,并將該數(shù)據(jù)分配到距離最近的簇中.

        Step 3 計算簇中點集的質心點,質心點定義為所有數(shù)據(jù)點的均值點,再次確定k個簇的聚類中心,并根據(jù)誤差平方和公式計算相應的評價函數(shù)值.

        Step 4 當2次的評價函數(shù)值之差小于ε(ε是一個人為定義的數(shù)值),或者到達設定的最大迭代次數(shù),可以認為算法收斂,此時算法停止.否則轉步驟2.

        2 全局K-means聚類算法

        全局K-means聚類算法[5]用一種遞增式的方法來選擇一個新的簇的最佳初始聚類中心.具體過程如下:

        將一組數(shù)據(jù)集X={x1,x2,...,xn},xi∈RD(i=1,2,...,N),分為k個簇,聚類中心分別為(c1,c2...,ck),形成的聚類簇為(M1,M2,...Mk).

        Step 2 終止條件:k=k+1;若k>K,初始中心點的選擇結束.

        3 快速全局K-means聚類算法

        快速全局K-means聚類算法,在不影響聚類效果的前提下,大大的減少了全局K-means聚類算法的算法耗時.它的改進之處在于,定義了一個新的參數(shù)bi代替了簇內平方誤差和函數(shù)E,通過減少算法的計算量來提高聚類速度.

        (1)

        其中,bi表示的是相比較數(shù)據(jù)集中的其他點,xi作為簇內中心點時,得到的簇內平方和的差值.該差值越大,表示對應的E值越小.該算法流程與全局K-means聚類算法基本一致,只需將選擇下一簇內初始中心點的條件換為bi值,選取使bi值最大的點作為下個簇的初始中心點.

        4 改進的DGK-means算法

        針對全局K-means聚類算法和快速全局K-means聚類算法在選擇下一簇的聚類中心點時,需要對數(shù)據(jù)集中所有的數(shù)據(jù)點逐一計算E值并進行對比,這一過程中存在很多不可能作為備選點的數(shù)據(jù)點,比如數(shù)據(jù)集的邊緣孤立點,數(shù)據(jù)中的噪聲點等.對于這些噪聲點的計算屬于無用功,反而增加了算法的計算量.基于此問題,提出了一種基于高密度數(shù)[6-7]的全局K-means聚類算法.

        該算法旨在將N個數(shù)據(jù)點依靠其各個點的密度數(shù)分類,將高密度數(shù)的數(shù)據(jù)點提取出來,同時剔除低密度點.剔除的低密度點即是該數(shù)據(jù)集中相對的離散點.將高密度數(shù)的數(shù)據(jù)聚集形成新的數(shù)據(jù)集合Data1.該部分也提出了一個依據(jù)密度級來確定聚類個數(shù)的想法,依靠密度等級的劃分將該數(shù)據(jù)集劃分成相應個數(shù)的聚類簇.

        密度數(shù):點在其鄰域范圍R內點的個數(shù).

        Density(xi)={P∈X|dist(xi,p)≤R}.

        (2)

        改進流程圖:

        5 實驗仿真

        本實驗仿真選用了UCI數(shù)據(jù)庫中的4個數(shù)據(jù)集進行實驗對比,證明了本文所提出的DGK-means聚類算法,比全局K-means算法和快速全局K-means算法,聚類耗時更短[8-9].并且選擇了分類適確性指標(davis-bouldin idex,DB),簡稱為DB值,來衡量聚類效果.DB值用來衡量簇內和簇間的關系.DB值越小,意味著簇內數(shù)據(jù)之間的距離越小,相互聯(lián)系度高,還表示簇間的距離越大,聚類結果越好.

        (3)

        本實驗采取了4組從UCI數(shù)據(jù)庫中下載的數(shù)據(jù)集,見表1.對每一組數(shù)據(jù)用3種聚類算法分別運行20次,并求得均值時間作比較.同時計算每一個算法的DB值,來衡量算法的穩(wěn)定性,判斷聚類效果的優(yōu)劣.

        表1 數(shù)據(jù)集

        圖2為IRis數(shù)據(jù)的高密度數(shù)點集,圖3為本文所提的DGK-means算法對IRIS數(shù)據(jù)集的聚類結果圖,圖4為GK-means,F(xiàn)GK-means,和DGK-means算法針對Iris數(shù)據(jù)集,運行所需時間的對比圖.取20次運行時間的均值做對比如表2所示,本文所提的DGK-means算法用時分別近似于全局K-means算法和快速全局K-means算法的51.64%和71.68%.同時本文所提的改進算法的DB值與其他2種算法相比,差距較小,可以保證聚類效果的一致性.

        表2 3種算法對Iris數(shù)據(jù)集的運行時間s

        圖5為Imports-85數(shù)據(jù)集的高密度數(shù)點集,圖6為本文所提的DGK-means算法對Imports-85數(shù)據(jù)集的聚類結果圖,圖7為GK-means,F(xiàn)GK-means,和DGK-means算法針對Imports-85數(shù)據(jù)集,運行所需時間的對比圖.取20次運行時間的均值做對比如表3所示,本文所提的DGK-means算法用時分別近似于全局K-means算法和快速全局K-means算法的34.7%和56.34%.

        圖8為WDBC數(shù)據(jù)的高密度數(shù)點集,圖9為本文所提的DGK-means算法對WDBC數(shù)據(jù)集的聚類結果圖,圖10為GK-means,F(xiàn)GK-means,和DGK-means算法針對WDBC數(shù)據(jù)集,運行所需時間的對比圖.取20次運行時間的均值做對比如表4所示,本文所提的DGK-means算法用時分別近似于全局K-means算法和快速全局K-means算法的15.08%和30.94%.

        表3 3種算法對Imports-85數(shù)據(jù)集的運行時間s

        表4 3種算法對WDBC數(shù)據(jù)集的運行時間 s

        圖11為Mice protein expression Data Set數(shù)據(jù)的高密度數(shù)點集,圖12為本文所提的DGK-means算法對Mice protein expression Data Set的聚類結果圖,圖13為GK-means,F(xiàn)GK-means,和DGK-means算法針對Mice protein expression Data Set數(shù)據(jù)集,運行所需時間的對比圖.取20次運行時間的均值做對比如表5所示,本文所提的DGK-means算法用時分別近似于全局K-means算法和快速全局K-means算法的13.98%和29.4%.

        表5 3種算法對Mice protein expression Data Set的運行時間 s

        綜上分析,在不影響最終聚類效果的前提下,本文所提出的DGK-means算法,對比全局K-means算法和快速全局K-means算法,有效地減少了算法的運行時間.

        6 結語

        本文在學習全局K-means聚類算法的過程中,提出了一種縮小備選數(shù)據(jù)點的改進算法DGK-means聚類算法.該方法通過定義高密度數(shù)的概念,縮小了作為備選的下一簇的初始中心點點集,減少了算法的迭代計算次數(shù).通過UCI 機器學習數(shù)據(jù)庫的4組數(shù)據(jù)測試, 驗證了本文提出的DGK-means算法在保持聚類效果穩(wěn)定的情況下,聚類用時少于全局K-均值聚類算法和快速全局K-均值聚類算法,提高了算法的聚類效率.

        猜你喜歡
        中心點高密度全局
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        高密度電法在斷裂構造探測中的應用
        Scratch 3.9更新了什么?
        電腦報(2020年12期)2020-06-30 19:56:42
        高密度電法在尋找地下水中的應用
        如何設置造型中心點?
        電腦報(2019年4期)2019-09-10 07:22:44
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        城市高密度環(huán)境下的建筑學探討
        漢字藝術結構解析(二)中心點處筆畫應緊奏
        尋找視覺中心點
        大眾攝影(2015年9期)2015-09-06 17:05:41
        国产午夜福利不卡在线观看视频| 久久国产劲爆∧v内射-百度| 精品久久久久久成人av| 久久精品国产9久久综合| 杨幂Av一区二区三区| 成人av一区二区三区四区| 精品国产综合区久久久久久| 欧洲日本一线二线三线区本庄铃 | 综合色就爱涩涩涩综合婷婷| 国产熟妇搡bbbb搡bb七区| 亚洲成a人片在线观看高清| 久久久精品亚洲人与狗| 又色又爽又黄高潮的免费视频| 人人做人人妻人人精| 国产激情一区二区三区在线蜜臀| 国产白色视频在线观看| 一区二区三区四区午夜视频在线| 狠狠综合久久av一区二区蜜桃| 无码一区二区三区免费视频| 欧美真人性做爰一二区| 日本一区二区不卡超清在线播放| 亚洲女人的天堂网av| 97在线观看视频| 免费看奶头视频的网站| 国产亚洲精品综合一区二区| 精品亚洲a∨无码一区二区三区| 国产乱人伦av在线a| 亚洲色欲色欲www成人网| 人妻少妇av中文字幕乱码| 亚洲成在人线av品善网好看| 国产特级全黄一级毛片不卡| 日韩人妻免费一区二区三区| 无套熟女av呻吟在线观看| 97精品超碰一区二区三区| 欧美日韩性视频| 国产三级精品三级在线| 国产av无码专区亚洲版综合| 初尝黑人巨砲波多野结衣| 免费观看视频在线播放| 亚洲一区二区三区特色视频| 亚洲av无码专区电影在线观看|