亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于核函數(shù)動態(tài)分配聚類中心的DGK-Kmeans算法

        2019-06-10 01:01:19張晉逢孫忠林
        軟件導(dǎo)刊 2019年2期

        張晉逢 孫忠林

        摘 要:Kmeans算法存在兩個主要缺陷,導(dǎo)致聚類結(jié)果準確率較低。為改善聚類效果,提出一種DGK-Kmeans算法。該算法選用核密度估計處理數(shù)據(jù),得到備選聚類中心,依據(jù)平均類間相似度動態(tài)增加初始聚類中心個數(shù),直至平均類間相似度大于前次計算值時,選取平均類內(nèi)相似度最小時對應(yīng)的聚類中心為初始聚類中心,進行Kmeans聚類計算。采用UCI標準數(shù)據(jù)集進行實驗,證明改進后的DGK-Kmeans算法在聚類準確率和穩(wěn)定性方面有很大提高。

        關(guān)鍵詞:Kmeans算法;高斯核函數(shù);動態(tài)聚類中心

        DOI:10. 11907/rjdk. 182140

        中圖分類號:TP312文獻標識碼:A文章編號:1672-7800(2019)002-0042-03

        Abstract:There are two main defects in the Kmeans algorithm which lead to lower accuracy of clustering results.In order to improve the clustering effect, a DGK-Kmeans algorithm is proposed.The algorithm uses the kernel density estimation to process the data to obtain the candidate cluster center, and dynamically increases the number of initial cluster centers according to the average inter-class similarity until the average inter-class similarity is greater than the previous calculated value, and the average intra-class similarity is selected. The cluster center corresponding to the minimum degree is Kmeans clustering calculation for the initial cluster center.The experiment uses the UCI standard data set to verify that the improved DGK-Kmeans algorithm and greatly improves the accuracy and stability of clustering.

        Key Words:Kmeans clustering;Gaussian kernel function;dynamic clustering center

        0 引言

        Kmeans算法是一種適用于大規(guī)模數(shù)據(jù)集[1]的簡單聚類算法,但算法迭代次數(shù)受初始聚類中心和實際聚類中心偏差的影響很大,所以選擇合適的初始聚類中心是很有必要的[2]。Kmeans算法有兩個主要缺點:一是需要人工輸入聚類K值;二是隨機選擇K個初始中心[3]。

        為提高Kmeans算法的性能,許多學(xué)者從不同方面對算法進行改進[4]。ALSABTI[5]選擇利用K-D樹結(jié)構(gòu)對Kmeans算法進行改進。賴玉霞等[6]根據(jù)聚類對象分布密度,從K個處于高密度區(qū)域的點中選取相互距離值最遠的樣本點作為初始聚類中心。王玲等[7]提出一種基于密度敏感的相似度度量方法。程艷云等[8]提出通過定義的平均類間最大相似度指標值確定最佳K值,進而動態(tài)分配聚類中心的聚類算法。韓凌波等[9]提出按照密度大小選擇K個聚類中心的算法。馬帥等[10]選擇根據(jù)密度和參考點提高聚類算法,基本滿足聚類以適應(yīng)數(shù)據(jù)集分布的特征。袁方等[11]提出一種基于樣本距離相似度及通過合適的權(quán)值初始化聚類的方法,對特定的數(shù)據(jù)集選擇合適權(quán)值進行聚類,達到了良好的效果。周涓等[12]提出基于距離大小的算法,初始聚類中心選擇的是相互之間距離最遠的K個樣本點。周世兵等[13]從樣本幾何結(jié)構(gòu)的角度定義樣本聚類距離和樣本聚類離差距離,設(shè)計一種新的聚類有效指標,從而提出一種自動確定最佳聚類數(shù)量的方法。劉鳳芹等[14]提出一種基于最大距離實現(xiàn)K值自動生成的算法。翟東海等[15]提出基于最大距離選取初始簇中心的算法。

        以上研究通過密度、權(quán)值及距離對算法進行改進,但都存在聚類精度不高、時間復(fù)雜度高等情況。因此本文提出一種基于高斯核密度、動態(tài)確定初始聚類中心的DGK-Kmeans算法(Gaussian Kernel Kmeans Algorithm)。通過實驗證明,本文算法在UCI數(shù)據(jù)集中的聚類精度高于傳統(tǒng)K-means算法,并且在誤差平方和方面也有很大優(yōu)勢。

        1 高斯核密度估計

        核密度估計方法對于數(shù)據(jù)分布特征的研究從數(shù)據(jù)樣本集合本身出發(fā),不需要利用數(shù)據(jù)分布的先驗知識或?qū)?shù)據(jù)樣本服從何種分布作出任何假設(shè)[16]。核函數(shù)的作用是在高維空間對輸入的空間進行特征映射后,直接在高維數(shù)據(jù)空間進行數(shù)據(jù)處理。核函數(shù)映射是非線性變換的,可確保映射出各種不同的高維特征空間[17]。

        使用高斯核函數(shù)作為核平滑函數(shù)的密度估計,是一種用來估計概率密度函數(shù)的非參數(shù)方法,假定[x1,x2,?,xn]為獨立分布[F]的[n]個數(shù)據(jù)點,數(shù)據(jù)點服從的分布密度函數(shù)為[f],函數(shù)定義為:

        本文采用高斯核函數(shù)為核平滑函數(shù),公式為:

        [h]的取值公式為:

        2 DGK-Kmeans算法

        由于Kmeans算法聚類數(shù)需事先確定,且初始聚類中心的選取具有隨機性,因此本文提出基于高斯核密度的動態(tài)確定初始聚類中心的算法(DGK-Kmeans算法)。

        一本色道久在线综合色| 久久精品国产9久久综合| 久久亚洲国产成人亚| 人妻少妇喷水意淫诱惑| 在线不卡av一区二区| 亚洲国产精品美女久久| 久久久久亚洲av无码麻豆| 亚洲精品久久久久久| 91免费国产| 成人全部免费的a毛片在线看| 手机在线观看日韩不卡av| 大地资源中文第3页| 精品久久亚洲中文无码| 男人天堂AV在线麻豆| 日韩国产自拍视频在线观看| 日出白浆视频在线播放| 国产精品亚洲αv天堂无码| 免费av片在线观看网站| 国产日产久久福利精品一区| 亚洲av熟女传媒国产一区二区| 日本伊人精品一区二区三区| 极品新婚夜少妇真紧| 亚洲综合偷自成人网第页色| 激情视频国产在线观看| 国产精品国产三级国产专播下 | 青青草在线免费观看在线| 漂亮人妻洗澡被公强 日日躁| 国产男女无遮挡猛进猛出| 色两性网欧美| 丝袜美腿一区二区在线观看| 国产成人大片在线播放| 人妻丰满熟妇无码区免费| 日产精品久久久久久久蜜臀| 精品国产自拍在线视频| av在线播放亚洲天堂| 在办公室被c到呻吟的动态图 | 激情五月开心五月啪啪| 久久久久国色av免费观看性色| 免费无码毛片一区二区三区a片| 国产精品激情综合久久| 免费av一区男人的天堂 |