亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合K近鄰的改進密度峰值聚類算法

        2018-04-08 05:46:27薛小娜高淑萍彭弘銘吳會會
        計算機工程與應用 2018年7期
        關鍵詞:集上分配聚類

        薛小娜,高淑萍,彭弘銘,吳會會

        XUE Xiaona1,GAO Shuping1,PENG Hongming2,WU Huihui1

        1.西安電子科技大學 數(shù)學與統(tǒng)計學院,西安 710126

        2.西安電子科技大學 通信工程學院,西安 710071

        1.School of Mathematics and Statistics,Xidian University,Xi’an 710126,China

        2.School of Telecommunications Engineering,Xidian University,Xi’an 710071,China

        1 引言

        聚類是數(shù)據(jù)挖掘領域中的一種無監(jiān)督分類方法,其目的是將混亂的數(shù)據(jù)進行分組,使得同一簇中的樣本盡可能相似,而不同簇中的樣本盡量不同[1-3],現(xiàn)已被廣泛應用于信息檢索、模式分類及數(shù)據(jù)挖掘等領域[4]?;诓煌瑢W習策略,傳統(tǒng)聚類算法可被劃分為分割聚類(如K-means[5])、密度聚類(如DBSCAN[6]),以及基于傳播的方法(如AP[7])等。

        文獻[8]提出了一種新穎的密度峰值聚類算法DPC,其不僅能檢測出樣本集中存在的聚類數(shù)目,而且能夠有效處理具有不規(guī)則形狀的簇以及異常樣本。盡管DPC算法優(yōu)勢明顯,但其仍存在一些局限:(1)對于大小不同的數(shù)據(jù)集,采用的局部密度計算方式不同,這無形中降低了算法的靈活性;(2)對剩余點的分配策略易造成誤差傳播。近兩年來,許多學者都在對DPC算法進行改進,雖取得了許多研究成果,但也發(fā)現(xiàn)了一些新問題。例如,文獻[9]基于信息熵理論提出了一種從原始數(shù)據(jù)集中自動獲取截斷距離參數(shù)的新方法,但其所需的時間成本大大增加;文獻[10]將DPC算法和Chameleon算法的優(yōu)點相結合提出了E_CFSFDP算法,雖避免了將包含多個密度峰值的一個類聚成多類,但其計算開銷高達O(N2+NlbN+NM)且不利于處理高維數(shù)據(jù)。由于 K 近鄰(K-Nearest-Neighbors,KNN)具有簡單、高效等特點,它不但可以處理文本分類以及流數(shù)據(jù)分類問題,其在聚類中也展現(xiàn)出很強的技巧性[11-13],故該方法不斷被引入DPC算法。例如,文獻[14]提出了DPC-KNN算法,其利用KNN思想來估計每點的密度,并使用主成分分析方法對數(shù)據(jù)降維,提高了對高維數(shù)據(jù)的處理能力且能獲得良好的聚類效果。然而,由于DPC-KNN算法的聚類過程與DPC相同,故DPC算法的缺陷在該算法中仍存在。文獻[15]將模糊加權KNN引入DPC算法提出了FKNN-DPC算法,也使用KNN來計算每點的密度,并利用新提出的分配策略對剩余點進行分配,雖提高了聚類質量,但其模型較為復雜[16]。

        針對上述問題,本文根據(jù)各樣本的相似程度給出一種可適用于任意數(shù)據(jù)集的局部密度計算方法,以增強算法靈活度;受KNN以及隊列思想的啟發(fā),設計了兩種不同的策略來分配剩余點,以提升聚類質量和聚類效率。在21個常用數(shù)據(jù)集上的實驗結果表明,本文算法IDPCA不僅減少了運行時間,而且提升了聚類質量。

        2 DPC算法

        DPC算法基于以下兩點假設進行設計:(1)聚類中心點總是被低密度點包圍;(2)聚類中心與其他高密度點間的距離相對較遠。將待聚類數(shù)據(jù)集記為X,其大小和維度分別為N和D。對于X中的任意數(shù)據(jù)點xi,其分布情況由兩個屬性刻畫,即局部密度ρi及該點與其他具有較高密度點之間的最小距離δi。ρi的計算方式為:

        其中,φ(x)是分段函數(shù),當 dij<dc時,φ(x)=1;否則φ(x)=0;dc為截斷距離參數(shù);dij為點 xi和xj間的距離;ρi可解釋為點xi的dc鄰域內(nèi)點的個數(shù)。對于較小的數(shù)據(jù)集,由式(1)估計的密度可能會受統(tǒng)計誤差的影響,此時采用式(2)來估計其局部密度[8]。

        xi的距離δi定義為:

        對于局部密度最大的點xi,其距離為δi=majx (dij)。

        DPC算法通過引入一種啟發(fā)式方法(決策圖)來幫助用戶獲取聚類中心(或稱密度峰值)。圖1(a)顯示了由4個類組成的數(shù)據(jù)分布情況。為了獲取該數(shù)據(jù)的聚類中心,DPC算法首先將每點的ρ值和δ值于坐標平面內(nèi)繪出,然后將ρ和δ值都較大的點作為聚類中心,即圖1(b)中右上角的4個數(shù)據(jù)點。然而,對于分布稀疏的數(shù)據(jù),通過ρ-δ決策圖難以確定其聚類中心,此時DPC算法使用γ=ρ×δ來獲取,其中γi值越大,xi越可能是聚類中心。將所有點的γ值降序排列,并于坐標平面上繪出,如圖1(c)所示。由于聚類中心的γ值較大,而其他點的γ值較小且呈平滑趨勢,故可使用一條平行于橫軸的直線將其分開,使得直線上方的γ值所對應的點即為聚類中心。當聚類中心找出后,將剩余點分配到其高密度最近鄰所屬的類中。

        圖1 DPC算法

        3 IDPCA算法

        3.1 算法思想

        對于密度聚類算法來說,各樣本密度的估計準確與否不僅影響聚類中心的選取,其對聚類質量也有直接影響。

        由距離δ定義可知,δ值的大小與密度ρ也密切相關,故ρ對于聚類中心的選取至關重要。由于DPC算法的密度計算方法不一致且深受截斷距離dc影響,其不能夠保證與當前點距離小于dc的點的數(shù)目[15],故有不少成果對該算法中的密度公式進行了改進。例如,DPC-KNN[14]和FKNN-DPC[15]算法為了消除dc的影響,均從數(shù)據(jù)局部分布情況出發(fā),利用KNN來估計密度,其計算方式分別為:

        盡管改進方法中的參數(shù)K比dc容易確定,但面對類間樣本數(shù)不均衡以及疏密度不一的數(shù)據(jù),使用γ=ρ×δ方式選取聚類中心時,類中心點與其他點的區(qū)分度并不高。為了以較高區(qū)分度識別出任意數(shù)據(jù)集中的聚類中心,本文從數(shù)據(jù)的整體分布出發(fā),通過引入相似性系數(shù)來調節(jié)各點對當前點的密度貢獻權重,給出一種帶有相似性系數(shù)的高斯核函數(shù)來計算其局部密度。

        對于每個數(shù)據(jù)點xi,其局部密度ρi定義為:

        其中,σ取數(shù)據(jù)量的2%[8],r為相似性系數(shù),表示密度函數(shù)與數(shù)據(jù)點間相似度的關系程度,該值越大,距離點xi越近的點對其密度ρi的貢獻權重越大。聚類中心的擇取方式類似于DPC算法,即先利用式(3)和式(6)計算各點的δ和ρ值,然后通過γ值決策圖輔助獲得M個局部類的聚類中心,即選取較大的前M個γ值對應的點。

        因本文算法IDPCA、DPC、DPC-KNN及FKNN-DPC計算距離δ的方式相同,僅密度計算方法不同,故可通過γ=ρ×δ值來比較各密度公式。圖2(a)顯示了由3個類組成的合成數(shù)據(jù)集;圖2(b)~(f)顯示了采用不同密度方法得到的γ值決策圖,各參數(shù)為K=4,dc=1,r=2。圖2中,所采用的計算方式依次為式(2)、式(1)、式(4)~(6)。

        圖2 采用5種不同密度方法計算的γ值

        觀察圖2可以發(fā)現(xiàn),與DPC算法相比,本文算法IDPCA能夠以較高區(qū)分度識別出圖2(a)數(shù)據(jù)中的3個聚類中心,而DPC-KNN算法和FKNN-DPC算法僅區(qū)分出兩個,故本文提出的密度度量方式在聚類中心選取方面具有一定的優(yōu)勢。

        由于聚類中心往往出現(xiàn)在高密度區(qū)域,故將各聚類中心某鄰域內(nèi)的點看作核心點,而將其他點看作非核心點。核心點的獲取方法為:先將剩余點均分配到距其最近的聚類中心所在的類中,然后計算各局部類Cm中所有點與其類中心cenm間的平均距離um,若xi∈Cm在cenm的εum鄰域內(nèi)(即滿足式(8)),則 xi為核心點。

        其中,|Cm|為第m個局部類Cm中的所有數(shù)據(jù)點的數(shù)目,(i=1,2,|Cm|,m=1,2,…,M)為點 xi∈Cm與cenm間的距離;分離閾值ε與數(shù)據(jù)集大小N有關,為N‰;Xcore為核心點集合。

        為了將剩余點(非核心點)正確歸類,本文設計了兩種分配策略:全局搜索分配策略和統(tǒng)計學習分配策略。前者是以Xcore中的每點為中心,不斷地搜索其未分配的KNN并將之分配到該點所在的局部類中。后者則是通過學習每個剩余點被分配至各局部類的概率來將其歸類,其學習過程如下:首先依式(9)計算xi與xj的相似度sij,若兩點距離越近,則其相似度越高。每點的歸屬由其KNN分布信息決定,若xi的KNN(KNNi)中屬于Cm的點越多且與xi的距離越近,則sij值越大,此時xi被分配到Cm的概率Pmi也越大。Pmi的計算方式如式(10)所示。

        3.2 算法步驟

        輸入:數(shù)據(jù)集X,相似性系數(shù)r,最近鄰個數(shù)K。

        輸出:類標簽labels。

        步驟1使用式(3)和(6)計算每點的δ與ρ值。

        步驟2通過決策圖獲取聚類中心。

        步驟3使用式(7)和(8)提取核心點,并采用全局搜索分配策略將待分類點歸類:

        (1)將核心點集合Xcore置入隊列Q。

        (2)取隊列頭xa,并將之從Q中刪除,然后查找其K個最近鄰KNNa。

        (3)若 x′∈KNNa未被分配,則將 x′分配到 xa所在的類中,并將x′添加至Q尾部;否則轉(2)。

        步驟4采用統(tǒng)計學習策略分配剩余k個點:

        (2)若MP中有非零值,則將Pmo值最大的點xo歸入MI(o)所表示的類中,轉(3);否則終止該策略。

        (3)更新P、MP、MI,令MP(o)=0。對于未分配點xp∈KNNo,更新 P[p][m]、MP(p)及 MI(p)。

        (4)若MP中所有元素均為0,則終止;否則轉(3)。

        步驟5仍未被處理的點可看作噪聲點,并將之歸入到其最近鄰所在的類中。

        3.3 算法時間復雜度

        設||U0為待分類點的總數(shù)目,N′為全局搜索分配

        策略分配的點數(shù)。IDPCA算法的時間耗費主要表現(xiàn)在四方面:(1)計算各數(shù)據(jù)點間的距離所需時間為O(N2)。(2)計算 ρ、δ及 γ值所需時間均為O(N)。(3)將待分類點都分配到距其最近的類中心,并獲取核心點所需時間為O(NM+N+|U0|)。(4)利用全局搜索策略分配N′個點所需時間為O((N-|U0|+N′)2),使用統(tǒng)計學習策略分配剩余的N″=N-N″個點所需時間為O(N″2)。因此,IDPCA算法的時間復雜度近似于O(N2)。

        4 實驗結果與分析

        聚類算法的性能通常是采用多種不同測試數(shù)據(jù)集來驗證說明的,本文選取21個不同數(shù)據(jù)集進行實驗。通過與經(jīng)典聚類算法DBSCAN、K-means、AP及近期提出的DPC算法各項指標的比較,以驗證本文算法IDPCA的性能。關于合成和真實數(shù)據(jù)集的基本屬性將于4.2節(jié)及4.3節(jié)中給出。

        文中將聚類算法研究中廣為采用的聚類精度(Clustering Accuracyn,Acc)、調整互信息系數(shù)(Adjusted Mutual Information,AMI)、調整 Rand系數(shù)(Adjusted Rand Index,ARI)這3個指標[17-18]作為聚類算法性能度量標準。其中,Acc與AMI的取值范圍均為[]0,1,ARI取值范圍為[]

        -1,1,各指標值越大,表明聚類質量越高。

        實驗環(huán)境:硬件平臺為Intel?Core?i5-6500 CPU@3.2 GHz 3.19 GHz處理器,16.0 GB RAM;編程環(huán)境為Win7-Matlab 2015b。

        4.1 實驗參數(shù)分析

        本文所提算法包含兩個參數(shù):最近鄰個數(shù)K和相似性系數(shù)r。為了分析這兩個參數(shù)對IDPCA算法聚類質量的影響,本文選取了較為典型的數(shù)據(jù)集Circle和S2進行實驗,其真實分布如圖3所示。

        圖3 樣本數(shù)據(jù)分布

        圖4(a)、(b)顯示了在Circle數(shù)據(jù)集上參數(shù) K 和 r對IDPCA聚類質量的影響。當K從3變到4時,對應的聚類精度Acc從76.33%變到99.0%,AMI從53.68%變到95.21%,ARI從48.70%變到96.96%;當K繼續(xù)增大時,對應的Acc、AMI和ARI呈現(xiàn)下降趨勢。當r從0.25變到1時,Acc、AMI和ARI急劇增大,Acc從78.67%變到了99%,AMI從61.45%變到95.21%,ARI從54.27%變到96.96%;而當r繼續(xù)增大時,對應的Acc、AMI和ARI亦呈緩慢下降趨勢。因此,IDPCA算法在Circle數(shù)據(jù)集上的參數(shù)選擇為 K=4和r=1。圖4(c)、(d)顯示了在S2數(shù)據(jù)集上參數(shù)K和r對IDPCA算法聚類質量的影響。當K逐漸增大時,對應的Acc、AMI和ARI也逐漸增大,然后趨于穩(wěn)定。當r逐漸增加時,各指標值變化相對穩(wěn)定。由此可知S2數(shù)據(jù)集對參數(shù)K和r不敏感,故IDPCA算法在該數(shù)據(jù)集上的參數(shù)選擇可同Circle數(shù)據(jù)集。

        圖4 參數(shù)對IDPCA算法聚類質量的影響

        通過對4.2節(jié)和4.3節(jié)中其他數(shù)據(jù)集的數(shù)值實驗發(fā)現(xiàn):當最近鄰數(shù)目K=4,相似性系數(shù)r在(0,2]區(qū)間取值時,均能獲得較好的聚類效果。為了便于獲取較好的r值,本文依文獻[19]的尋優(yōu)策略,通過網(wǎng)格搜索法進行尋找。該方法將參數(shù)區(qū)域劃分成等距網(wǎng)格,通過遍歷所有網(wǎng)格點來尋找使算法性能達到最優(yōu)的參數(shù)。由于網(wǎng)格搜索法在步距足夠小的情況下可以在給定區(qū)域內(nèi)找出全局最優(yōu)解[20-21],故適用于本文算法IDPCA。文中將參數(shù)r所在區(qū)間(0,2]劃分為步長為0.2的10個網(wǎng)格點,然后遍歷每個網(wǎng)格點,選取使聚類結果達到最優(yōu)的r值。

        4.2 合成數(shù)據(jù)集實驗

        本節(jié)選取12個合成數(shù)據(jù)集進行實驗,各數(shù)據(jù)集的基本屬性如表1所示。

        表1 合成數(shù)據(jù)集

        圖5和圖6分別顯示了IDPCA算法與DPC算法對表1中的二維數(shù)據(jù)集進行聚類所得到的實驗結果圖,圖中不同顏色標識的點對應著不同的類,由黑色“.”標記的點為各算法識別出的聚類中心。

        從圖5可看出,IDPCA算法不僅能夠給出符合直觀判斷和真實聚類情況的結果,而且能有效處理這10個數(shù)據(jù)集中所包含的類間重疊、結構復雜以及含有噪聲干擾等情況。而在DPC算法的聚類結果中,則明顯存在著一些類別誤判。例如,對于結構復雜Circle數(shù)據(jù)集,IDPCA算法僅將外環(huán)樣本中的兩個點錯分到內(nèi)環(huán)的類中,而DPC算法卻將外環(huán)樣本中大部分點錯分到內(nèi)環(huán)中的類中,主要原因是該算法對剩余點的分配策略會導致誤差傳播,即一旦有一點錯分,那么比該點密度小的點也會被誤分。

        為了更全面客觀地評價IDPCA算法的性能,本文不僅將IDPCA算法與DPC算法作了比較,而且與另外3種經(jīng)典的聚類算法(DBSCAN、K-means、AP)也進行對比。使用這5種聚類算法對表1中數(shù)據(jù)集進行聚類所得的Acc、AMI、ARI指標結果見表2,其中粗體數(shù)據(jù)為最優(yōu)結果。

        對比表2中各聚類算法所獲得Acc、AMI和ARI值可發(fā)現(xiàn),這5種算法在DIM512和DIM1024數(shù)據(jù)集上表現(xiàn)相同,均達到了最優(yōu),而對于其他數(shù)據(jù)集,無論是結構較為復雜的Spiral和Circle,還是數(shù)據(jù)量較大、含噪聲程度不同以及類之間高度重疊的S1~S4,IDPCA均獲得良好的聚類效果。

        4.3 真實數(shù)據(jù)集實驗

        4.3.1UCI數(shù)據(jù)集實驗

        為了進一步測試IDPCA算法的性能,從UCI數(shù)據(jù)庫[27]中選取8個真實數(shù)據(jù)集(如表3)進行實驗,以期獲得具有指導意義的結果。

        圖5 IDPCA算法的聚類結果

        圖6 DPC算法的聚類結果

        表2 5種聚類算法在合成數(shù)據(jù)集上的實驗結果對比

        表3 UCI真實數(shù)據(jù)集

        表4顯示了IDPCA及其他4種聚類算法對這8個UCI數(shù)據(jù)集進行聚類所得的Acc、AMI、ARI指標值,其中符號“—”表示無相應值,加粗數(shù)據(jù)為最優(yōu)聚類結果。

        觀察表4可以發(fā)現(xiàn),從AMI和ARI指標看,DPC僅在Ionosphere數(shù)據(jù)集上獲得了最優(yōu)的聚類結果,K-means算法在Parkinson數(shù)據(jù)集上獲得了最優(yōu)的AMI結果,而在其余真實數(shù)據(jù)集上的最優(yōu)值均由IDPCA算法獲得。

        4.3.2人臉數(shù)據(jù)集實驗

        Olivetti人臉數(shù)據(jù)集[8](Olivetti Face Dataset)由40個類組成,每類又包含10幅維數(shù)為92×112的人臉圖,現(xiàn)已成為測試機器學習算法性能的基準。由于不同類中各圖像維數(shù)及其相似度都很高,一般算法難以獲得理想的聚類效果且計算開銷較高,故本節(jié)選取該數(shù)據(jù)集的前10個類(100幅圖)進行實驗。

        使用IDPCA及DPC、DBSCAN、AP、K-means算法對人臉數(shù)據(jù)集聚類的各指標結果見表5。由于DPC在對該數(shù)據(jù)集聚類時,選取10個聚類中心會導致包含多個密度峰值的類被分裂成多類,故DPC對該數(shù)據(jù)集的聚類結果是在選取9個聚類中心時獲得的。圖7直觀顯示了IDPCA與DPC在該數(shù)據(jù)集上的聚類性能,圖中不同顏色對應著不同的類,由紅色框標識的為錯分圖,右下角用白色方塊標記的圖為算法識別出的聚類中心。

        表4 五種聚類算法在UCI數(shù)據(jù)集上的實驗結果對比

        表5 人臉數(shù)據(jù)集對比實驗

        圖7 人臉數(shù)據(jù)集聚類對比

        對比圖7(a)和(b)可以發(fā)現(xiàn),IDPCA有效地識別出了該數(shù)據(jù)集中的10類,僅分配錯4幅圖,其主要原因是這些圖距其真實類中的圖較遠,以致它們被分配到真實類的概率值較低,故被歸入到其他類,而DPC表現(xiàn)略差。

        對比表5中各聚類算法對Olivetti人臉數(shù)據(jù)集的聚類指標值可知,IDPCA的結果均優(yōu)于其他對比算法,精度高達96%,AP表現(xiàn)也很好,精度達到了92%,其次是DPC算法。

        4.4 算法效率

        算法的執(zhí)行效率通常也是評估其性能的重要指標,本節(jié)從時間復雜度方面將IDPCA與DPC、DBSCAN、AP、K-means算法進行比較,并將這5種算法對真實數(shù)據(jù)集進行聚類所消耗的時間進行對比,以驗證其優(yōu)劣性。

        表6 5種聚類算法時間復雜度對比

        表6顯示了IDPCA及另外4種對比算法的時間復雜度,由該表可知IDPCA與DPC算法的時間復雜度相同,均優(yōu)于AP,而劣于DBSCAN和K-means算法。表7為5種聚類算法對真實數(shù)據(jù)集進行聚類所耗時間(均不包括計算距離矩陣或相似度矩陣的時間)。

        表7 各聚類算法對真實數(shù)據(jù)集聚類所需時間s

        由表7可知,K-means與DBSCAN算法的運行時間最短,驗證了這兩種算法具有快速有效的優(yōu)勢。盡管IDPCA與DPC算法的時間復雜度相同,但前者的執(zhí)行速率略優(yōu)于后者,而AP的計算開銷均高于其他對比算法。

        通過不同數(shù)據(jù)集的聚類實驗及算法效率對比實驗可知,本文算法IDPCA不僅在聚類精度方面表現(xiàn)較好,其在執(zhí)行效率方面也略顯優(yōu)勢。

        5 結束語

        面對結構復雜、維數(shù)較高及含噪聲的數(shù)據(jù)集,DPC算法仍難以給出符合直觀判斷并與真實聚類情況相吻合的結果,本文將K近鄰與DPC算法思想相結合,提出了一種改進的密度峰值聚類算法。本文算法優(yōu)點是給出了適用于任意數(shù)據(jù)集的局部密度計算方法,以及兩種不同的剩余點分配策略,不僅減少了誤差傳播,而且有效提高了聚類效率。通過合成數(shù)據(jù)集實驗表明IDPCA算法能夠獲得良好的聚類結果,尤其在處理結構復雜的Circle、Spiral數(shù)據(jù)集以及含噪聲程度不同的S1~S4數(shù)據(jù)集時,其聚類性能在Acc、AMI及ARI方面明顯優(yōu)于DPC、AP、DBSCAN和K-means算法。IDPCA算法在真實數(shù)據(jù)集上的突出表現(xiàn)及較快的運行速率,進一步驗證了其可行性和有效性。

        參考文獻:

        [1]Berkhin P.A survey of clustering data mining techniques[J].Grouping Multidimensional Data,2006,43(1):25-71.

        [2]Xu R,Wunsch D.Survey of clustering algorithm[J].IEEE Transactions on Neural Networks,2005,16(3):645-678.

        [3]Xu D,Tian Y.A comprehensive survey of clustering algorithm[J].Annals of Data Science,2015,2(2):165-193.

        [4]Jain A K,Murty M N,F(xiàn)lynn P J.Data clustering:A review[J].ACM Computing Surveys,1999,31(3):264-323.

        [5]Anil K.Data clustering:50 years beyondK-means[J].Pattern Recognition Letters,2010,31(8):651-666.

        [6]Frey B J,Dueck D.Clustering by passing messages between data points[J].Science,2007,315:972-976.

        [7]Ester M,Kriegel H,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining.Menlo Park:AAAI Press,1996:226-231.

        [8]Rodriguez A,Laio A.Clustering by fast search and find of density peaks[J].Science,2014,344:1492-1496.

        [9]Wang S,Wang D,Li C,et al.Comment on“Clustering by fast search and find of density peaks”[J].Computer Science,arXiv:1501.04267v2.

        [10]Zhang W,Li J.Extended fast search clustering algorithm:widely density clusters,no density peaks[J].Computer Science,2015(5):1-17.

        [11]毋雪雁,王水花,張煜東.K最近鄰算法理論與應用綜述[J].計算機工程與應用,2017,53(21):1-7.

        [12]周志陽,馮百明,楊朋霖,等.基于Storm的流數(shù)據(jù)KNN分類算法的研究與實現(xiàn)[J].計算機工程與應用,2017,53(19):71-75.

        [13]Qin C,Song S,Huang G,et al.Unsupervised neighborhood component analysis for clustering[J].Neurocomputing,2015,168:609-617.

        [14]Du M,Ding S,Jia H.Study on density peaks clustering based onK-Nearest Neighbors and principal component analysis[J].Knowledge-Based Systems,2016,99:135-145.

        [15]Xie J Y,Gao H C,Xie W X,et al.Robust clustering by detecting density peaks and assigning points based on fuzzy weightedK-Nearest Neighbors[J].Information Science,2016,354:19-40.

        [16]Liu Y,Ma Z,Yu F.Adaptive density peak clustering based onK-Nearest Neighbors with aggregating strategy[J].Knowledge-Based Systems,2017,133:208-220.

        [17]Vinh N,Epps J,Bailey J.Information theoretic measures for clusterings comparison:Is a correction for chance necessary[C]//Proc of the 26th Annual InternationalConferenceonMachineLearning.NewYork:ACM Press,2009:1073-1080.

        [18]Vinh N X,Epps J,Bailey J.Information theoretic measures for clusterings comparison:Variants,properties,normalization and correction for chance[J].Journal of Machine Learning Research,2010,11:2837-2854.

        [19]Jiang Y Z,Deng Z H,Wang J,et al.Transfer generalized Fuzzy C-Means clustering algorithm with improved fuzzy partitions by leveraging knowledge[J].PR&AI,2013,26(10):975-983.

        [20]王健峰,張磊,陳國興,等.基于改進的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J].應用科技,2012(3):28-31.

        [21]董婷,趙儉輝,胡勇.基于時空優(yōu)化深度神經(jīng)網(wǎng)絡的AQI等級預測[J].計算機工程與應用,2017,53(21):17-23.

        [22]Chang H,Yeung D Y.Robust path-based spectral clustering[J].Pattern Recognition,2008,41(1):191-203.

        [23]Veenman C,Reinders M,Backer E.A maximum variance cluster algorithm[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2002,24(9):1273-1280.

        [24]Frant P,Virmajoki O,Hautamaki V.Fast agglomerative clustering using aK-Nearest Neighbor graph[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2006,28(11):1875-1881.

        [25]Fr?nti P,Virmajoki O.Iterative shrinking method for clustering problems[J].Pattern Recognition,2006,39(5):761-765.

        [26]Fr?nti P,Virmajoki O,Hautam?ki V.Fast agglomerative clustering using aK-Nearest Neighbor graph[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(11):1875-1881.

        [27]Bache K,Lichman M.UCI machine learning repository[EB/OL].[2017-11-30].http://archive.ics.uci.edu/ml.

        猜你喜歡
        集上分配聚類
        Cookie-Cutter集上的Gibbs測度
        應答器THR和TFFR分配及SIL等級探討
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        遺產(chǎn)的分配
        一種分配十分不均的財富
        績效考核分配的實踐與思考
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        復扇形指標集上的分布混沌
        基于改進的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        中文字幕免费观看视频| 玩弄放荡人妻一区二区三区| 久久久免费精品国产色夜| 91国产熟女自拍视频| 久久精品中文字幕女同免费| 丰满人妻一区二区三区视频53| 亚洲欧美一区二区三区| 亚洲av美女在线播放啊| 国产三级精品三级在线观看粤语| 久久av粉嫩一区二区| 国语对白做受xxxxx在| 久久九九久精品国产| 亚洲an日韩专区在线| 在线偷窥制服另类| 日本妇女高清一区二区三区| 帅小伙自慰videogay男男| 亚欧色一区w666天堂| 欧美人与物videos另类xxxxx| 国产精品香蕉网页在线播放| 最新国内视频免费自拍一区| 日韩精品一区二区三区在线视频| 黑色丝袜秘书夹住巨龙摩擦| 亚洲综合伊人制服丝袜美腿| 日本最新在线一区二区| 久久精品av在线观看| 夜鲁很鲁在线视频| 久久中文字幕无码一区二区| 亚洲大胆视频在线观看| 亚洲成av人综合在线观看| 欧美疯狂做受xxxx高潮小说| 久久久久成人精品免费播放| 中文文精品字幕一区二区| 扒开腿狂躁女人爽出白浆| 99精品视频69V精品视频| 国产午夜亚洲精品一级在线| 久久免费精品日本久久中文字幕 | 色综合悠悠88久久久亚洲| 亚洲精品v欧洲精品v日韩精品| 亚洲精品免费专区| 国产一区二区三区日韩精品| 色欲色香天天天综合网www|