亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于核函數(shù)動態(tài)分配聚類中心的DGK-Kmeans算法

        2019-06-10 01:01:19張晉逢孫忠林
        軟件導(dǎo)刊 2019年2期

        張晉逢 孫忠林

        摘 要:Kmeans算法存在兩個主要缺陷,導(dǎo)致聚類結(jié)果準確率較低。為改善聚類效果,提出一種DGK-Kmeans算法。該算法選用核密度估計處理數(shù)據(jù),得到備選聚類中心,依據(jù)平均類間相似度動態(tài)增加初始聚類中心個數(shù),直至平均類間相似度大于前次計算值時,選取平均類內(nèi)相似度最小時對應(yīng)的聚類中心為初始聚類中心,進行Kmeans聚類計算。采用UCI標準數(shù)據(jù)集進行實驗,證明改進后的DGK-Kmeans算法在聚類準確率和穩(wěn)定性方面有很大提高。

        關(guān)鍵詞:Kmeans算法;高斯核函數(shù);動態(tài)聚類中心

        DOI:10. 11907/rjdk. 182140

        中圖分類號:TP312文獻標識碼:A文章編號:1672-7800(2019)002-0042-03

        Abstract:There are two main defects in the Kmeans algorithm which lead to lower accuracy of clustering results.In order to improve the clustering effect, a DGK-Kmeans algorithm is proposed.The algorithm uses the kernel density estimation to process the data to obtain the candidate cluster center, and dynamically increases the number of initial cluster centers according to the average inter-class similarity until the average inter-class similarity is greater than the previous calculated value, and the average intra-class similarity is selected. The cluster center corresponding to the minimum degree is Kmeans clustering calculation for the initial cluster center.The experiment uses the UCI standard data set to verify that the improved DGK-Kmeans algorithm and greatly improves the accuracy and stability of clustering.

        Key Words:Kmeans clustering;Gaussian kernel function;dynamic clustering center

        0 引言

        Kmeans算法是一種適用于大規(guī)模數(shù)據(jù)集[1]的簡單聚類算法,但算法迭代次數(shù)受初始聚類中心和實際聚類中心偏差的影響很大,所以選擇合適的初始聚類中心是很有必要的[2]。Kmeans算法有兩個主要缺點:一是需要人工輸入聚類K值;二是隨機選擇K個初始中心[3]。

        為提高Kmeans算法的性能,許多學(xué)者從不同方面對算法進行改進[4]。ALSABTI[5]選擇利用K-D樹結(jié)構(gòu)對Kmeans算法進行改進。賴玉霞等[6]根據(jù)聚類對象分布密度,從K個處于高密度區(qū)域的點中選取相互距離值最遠的樣本點作為初始聚類中心。王玲等[7]提出一種基于密度敏感的相似度度量方法。程艷云等[8]提出通過定義的平均類間最大相似度指標值確定最佳K值,進而動態(tài)分配聚類中心的聚類算法。韓凌波等[9]提出按照密度大小選擇K個聚類中心的算法。馬帥等[10]選擇根據(jù)密度和參考點提高聚類算法,基本滿足聚類以適應(yīng)數(shù)據(jù)集分布的特征。袁方等[11]提出一種基于樣本距離相似度及通過合適的權(quán)值初始化聚類的方法,對特定的數(shù)據(jù)集選擇合適權(quán)值進行聚類,達到了良好的效果。周涓等[12]提出基于距離大小的算法,初始聚類中心選擇的是相互之間距離最遠的K個樣本點。周世兵等[13]從樣本幾何結(jié)構(gòu)的角度定義樣本聚類距離和樣本聚類離差距離,設(shè)計一種新的聚類有效指標,從而提出一種自動確定最佳聚類數(shù)量的方法。劉鳳芹等[14]提出一種基于最大距離實現(xiàn)K值自動生成的算法。翟東海等[15]提出基于最大距離選取初始簇中心的算法。

        以上研究通過密度、權(quán)值及距離對算法進行改進,但都存在聚類精度不高、時間復(fù)雜度高等情況。因此本文提出一種基于高斯核密度、動態(tài)確定初始聚類中心的DGK-Kmeans算法(Gaussian Kernel Kmeans Algorithm)。通過實驗證明,本文算法在UCI數(shù)據(jù)集中的聚類精度高于傳統(tǒng)K-means算法,并且在誤差平方和方面也有很大優(yōu)勢。

        1 高斯核密度估計

        核密度估計方法對于數(shù)據(jù)分布特征的研究從數(shù)據(jù)樣本集合本身出發(fā),不需要利用數(shù)據(jù)分布的先驗知識或?qū)?shù)據(jù)樣本服從何種分布作出任何假設(shè)[16]。核函數(shù)的作用是在高維空間對輸入的空間進行特征映射后,直接在高維數(shù)據(jù)空間進行數(shù)據(jù)處理。核函數(shù)映射是非線性變換的,可確保映射出各種不同的高維特征空間[17]。

        使用高斯核函數(shù)作為核平滑函數(shù)的密度估計,是一種用來估計概率密度函數(shù)的非參數(shù)方法,假定[x1,x2,?,xn]為獨立分布[F]的[n]個數(shù)據(jù)點,數(shù)據(jù)點服從的分布密度函數(shù)為[f],函數(shù)定義為:

        本文采用高斯核函數(shù)為核平滑函數(shù),公式為:

        [h]的取值公式為:

        2 DGK-Kmeans算法

        由于Kmeans算法聚類數(shù)需事先確定,且初始聚類中心的選取具有隨機性,因此本文提出基于高斯核密度的動態(tài)確定初始聚類中心的算法(DGK-Kmeans算法)。

        国产一区内射最近更新| 麻豆夫妻在线视频观看| 在线视频观看一区二区| 天天做天天添av国产亚洲| 亚洲精品国产成人| 91啦视频在线观看| 日本高清成人一区二区三区| 亚洲国产果冻传媒av在线观看| 变态调教一区二区三区女同| 狠狠躁天天躁中文字幕| 一区二区亚洲精品在线| 四虎成人精品在永久免费| 婷婷久久久亚洲欧洲日产国码av | 少妇特殊按摩高潮不断| 久久日韩精品一区二区| 乱子伦在线观看| 伊人网综合在线视频| 精品粉嫩国产一区二区三区| 国产内射视频在线免费观看| 中文字幕一区二区人妻性色| 91精品啪在线观看国产18| 91亚洲精品久久久中文字幕| 久久精品丝袜高跟鞋| 黑人巨大白妞出浆| 久久aⅴ无码av高潮AV喷| 日本一级二级三级不卡| 国产av麻豆mag剧集| 亚洲小说图区综合在线| 日韩黄色大片免费网站| 国产99视频精品免视看7| 娇妻玩4p被三个男人伺候电影| 精品一区二区三区久久久| 亚洲av天堂一区二区| 亚洲大胆视频在线观看| 天天做天天爱夜夜夜爽毛片| 97se亚洲国产综合自在线| 精品欧洲AV无码一区二区免费| 中文亚洲一区二区三区| 欧洲成人一区二区三区| 亚洲男同帅gay片在线观看| 国产高清亚洲精品视频|