王巧玲 喬非 蔣友好
摘 要:針對(duì)傳統(tǒng)K均值聚類(K-means)算法隨機(jī)選擇初始中心及K值導(dǎo)致的聚類結(jié)果不確定且精度不高問題,提出了一種基于聚合距離的改進(jìn)K-means算法。首先,基于聚合距離參數(shù)篩選出優(yōu)質(zhì)的初始聚類中心,并將其作用于K-means算法。然后,引入戴維森堡丁指數(shù)(Davies-Bouldin Index, DBI)作為算法的準(zhǔn)則函數(shù),循環(huán)更新聚類直到準(zhǔn)則函數(shù)收斂,最后完成聚類。改進(jìn)算法提供了優(yōu)質(zhì)的初始聚類中心及K值,避免了聚類結(jié)果的隨機(jī)性。二維數(shù)值型仿真數(shù)據(jù)的聚類結(jié)果表明,改進(jìn)算法在數(shù)據(jù)樣本數(shù)達(dá)到10000時(shí)仍能保持較好的聚類效果。針對(duì)Iris和Seg 這兩個(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集的調(diào)整蘭德系數(shù),改進(jìn)算法比傳統(tǒng)算法性能分別提高了83.7%和 71.0%,最終驗(yàn)證了改進(jìn)算法比傳統(tǒng)算法聚類結(jié)果的準(zhǔn)確性更高。
關(guān)鍵詞:聚合距離參數(shù);聚類中心;聚類評(píng)判指標(biāo);戴維森堡丁指數(shù)(DBI);數(shù)據(jù)聚類
中圖分類號(hào):TP301.6
文獻(xiàn)標(biāo)志碼:A
Improved K-means algorithm with aggregation distance coefficient
WANG Qiaoling, QIAO Fei*, JIANG Youhao
School of Electronics and Information Engineering, Tongji University, Shanghai 201804, China
Abstract:
Initial centers and K value are determined randomly in the traditional K-means algorithm, which makes clustering results uncertain and with low precision. Therefore, an improved K-means algorithm based on aggregation distance was proposed. Firstly, high-quality cluster centers were filtered out based on the aggregation distance coefficient as the initial centers of the K-means algorithm. Secondly, Davies-Bouldin Index (DBI) was introduced as the criterion function of the algorithm, and the clustering was cyclically updated until the criterion function converged. Finally, the clustering was completed. The proposed algorithm provides good initial clustering centers and K value, avoiding the randomness of clustering results. The clustering results of two-dimensional numerical simulation data show that the improved algorithm can still maintain a good clustering effect when the number of? data samples reaches 10000. For the adjusted Rand coefficients of the two UCI standard datasets named Iris and Seg, the improved algorithm respectively improves the performance of clustering by 83.7% and 71.0% compared to the traditional algorithm. It can be seen that the improved algorithm can increase the accuracy of the clustering result compared with the traditional algorithm.
Key words:
aggregation distance coefficient; cluster center; clustering evaluation index; Davies-Bouldin Index (DBI); data clustering
0 引言
隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的出現(xiàn),企業(yè)日趨信息化,應(yīng)用系統(tǒng)中的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。數(shù)據(jù)挖掘技術(shù)能夠幫助用戶從大量數(shù)據(jù)中分析出其所蘊(yùn)涵的有價(jià)值的信息。聚類算法就是一種典型的數(shù)據(jù)挖掘方法,它是一種無監(jiān)督的機(jī)器學(xué)習(xí)算法,適合于將不含訓(xùn)練集的大數(shù)據(jù)以相似度為依據(jù)進(jìn)行聚類[1-3]。
K均值聚類(K-means)是一種常見的聚類算法,它在處理大規(guī)模數(shù)據(jù)集時(shí)可保持較好的可伸縮性和高效性[4-6]。然而,傳統(tǒng)的K-means算法也存在一些缺陷:1)初始聚類中心的選擇是隨機(jī)的,這使得聚類結(jié)果不穩(wěn)定,準(zhǔn)確性較低。2)聚類個(gè)數(shù)K值的選擇是隨機(jī)的,若K值過大,則類與類之間的相似度太小;若K值過小,則類與類之間的相似度過大,這兩種情況都會(huì)導(dǎo)致聚類結(jié)果不準(zhǔn)確。
很多學(xué)者針對(duì)K-means算法的缺點(diǎn)提出了相應(yīng)的改進(jìn)。郁啟麟[7]采用關(guān)系矩陣和度中心性選擇K個(gè)初始聚類中心,以此來改進(jìn)K-means算法。文獻(xiàn)[8]中提出了一種基于優(yōu)化抽樣聚類的方法,一定程度上解決了K-means算法聚類精度不足和收斂速度慢的問題。文獻(xiàn)[9]中提出了用隨機(jī)取樣策略來避免決策選取陷入局部最小。為了解決K-means算法初始聚類中心和K值隨機(jī)性的問題,文獻(xiàn)[10]應(yīng)用了Canopy-Kmeans算法,先由Canopy算法對(duì)數(shù)據(jù)集進(jìn)行粗聚類,得到一定數(shù)量的類,每個(gè)類的中心作為K-means算法的初始聚類中心,類的個(gè)數(shù)決定K值的大小。然而Canopy算法的兩個(gè)閾值是隨機(jī)選擇的,這導(dǎo)致了獲得的初始中心和K值存在隨機(jī)性,從而影響聚類效果。
針對(duì)K-means算法初始聚類中心和K值選擇問題,本文提出了一種基于聚合距離參數(shù)的改進(jìn)K-means算法。對(duì)給定數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)點(diǎn)進(jìn)行聚合度及其所屬類的距離分析,篩選出符合條件的數(shù)據(jù)點(diǎn)作為初始聚類中心,符合條件的數(shù)據(jù)點(diǎn)的個(gè)數(shù)即為K值。改進(jìn)的算法能夠確定最優(yōu)的初始聚類中心及聚類個(gè)數(shù),從而避免了聚類結(jié)果的不確定性。最后,采用可視化數(shù)據(jù)及UCI標(biāo)準(zhǔn)數(shù)據(jù)集,驗(yàn)證了改進(jìn)算法聚類結(jié)果的準(zhǔn)確性。
1 聚合距離參數(shù)
初始聚類中心及K值選擇不準(zhǔn)確,會(huì)導(dǎo)致K-means算法聚類結(jié)果準(zhǔn)確性不高,因此,本文提出了聚合距離參數(shù),以篩選出一定量的優(yōu)質(zhì)的初始聚類中心。聚合距離參數(shù)中涉及到的一些相關(guān)定義和概念如下:
歐氏距離 設(shè)每一個(gè)數(shù)據(jù)點(diǎn)包含m個(gè)屬性,即xi={xi1,xi2,…,xim},則xi、xj之間的距離可以表示為:
d(xi,xj)=∑ms=1(xis-xjs)2(1)
數(shù)據(jù)集平均距離 即為一個(gè)數(shù)據(jù)集合中所有數(shù)據(jù)點(diǎn)之間的平均歐氏距離。
Avgd(D)=2n(n-1)∑n-1i=1∑nj=i+1d(xi,xj)(2)
鄰域半徑 R=Avgd(D)nreleR,其中n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù),releR為鄰域半徑調(diào)節(jié)系數(shù),范圍在0~1,根據(jù)經(jīng)驗(yàn),releR取0.13時(shí),聚類效果最佳[11-13]。
聚合度 點(diǎn)xi的聚合度Deg(xi)表示為與其距離小于半徑的點(diǎn)的個(gè)數(shù),即:
Deg(xi)=∑nj=1f(dij-R); f(x)=1, x≤0
0,x>0(3)
集合平均距離 與點(diǎn)xi的距離小于鄰域半徑的所有點(diǎn)組成一個(gè)集合,那么點(diǎn)xi所在集合的平均距離可以定義為:
Cavgd(xi)=2Deg(xi)(Deg(xi)-1)∑Deg(xi)-1i=1∑Deg(xi)j=i+1d(xi,xj)(4)
集合平均距離可以衡量一個(gè)數(shù)據(jù)點(diǎn)所在集合的緊密度, 值越小,表示Cavgd(xi)所在集合越緊密。
聚合度距離 聚合度距離表示點(diǎn)xi與其他具有較高聚合度點(diǎn)xj之間的距離。若所有點(diǎn)中xi的聚合度最大,則其聚合度距離為xi與其余任何點(diǎn)的最大距離。若xi的聚合度不是所有點(diǎn)中最大的,則其聚合度距離為xi與其余任何點(diǎn)的最小距離。即:
G(xi)=min(d(xi,xj)), 存在xj滿足Deg(xj)>Deg(xi)
max(d(xi,xj)),不存在xj滿足Deg(xj)>Deg(xi)(5)
聚合距離參數(shù) 聚合距離參數(shù)由聚合度、集合平均距離及聚合度距離3個(gè)參數(shù)決定。即:
ω(xi)=Deg(xi)·G(xi)Cavgd(xi)(6)
聚合度Deg(xi)越大,表明點(diǎn)xi周圍的數(shù)據(jù)點(diǎn)越密集。聚合度距離G(xi)越大,則兩個(gè)簇之間的相異程度越高。集合平均距離Cavgd(xi)越小,則其倒數(shù)越大,表明由xi組成的集合中的元素越緊密。由此可見,聚合距離參數(shù)值越大的點(diǎn),越適合作為聚類中心。
2 改進(jìn)K-means算法
2.1 改進(jìn)初始聚類中心
由聚合距離參數(shù)篩選最優(yōu)初始聚類中心步驟如下:
1)根據(jù)式(2)~(6),計(jì)算出數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)相關(guān)參數(shù),從而得到每一個(gè)數(shù)據(jù)點(diǎn)的聚合距離參數(shù)。
2)篩選出聚合距離值最大的點(diǎn),作為第一個(gè)初始聚類中心,并依次計(jì)算其他點(diǎn)到該點(diǎn)的歐氏距離:若距離小于鄰域半徑R,將該點(diǎn)從數(shù)據(jù)集中移除;若距離大于R,則不作處理。
3)從剩余點(diǎn)中篩選出聚合距離值最大的點(diǎn),作為第二個(gè)初始聚類中心,并依次計(jì)算其他點(diǎn)到該點(diǎn)的歐氏距離,若距離小于鄰域半徑R,將該點(diǎn)從數(shù)據(jù)集中移除。
4)重復(fù)步驟3)和步驟4),直到數(shù)據(jù)集為空。
5)輸出一系列符合條件的優(yōu)質(zhì)初始聚類中心。
2.2 改進(jìn)準(zhǔn)則函數(shù)
傳統(tǒng)K-means的準(zhǔn)則函數(shù)一般為平方誤差和函數(shù),該函數(shù)計(jì)算了每個(gè)聚類樣本與其聚類中心的平方距離之和,但僅片面地衡量了一個(gè)類之內(nèi)數(shù)據(jù)是否緊湊,沒有考慮到類與類之間的相異性,因此,本文采用戴維森堡丁指數(shù)(Davies-Bouldin Index, DBI)指標(biāo)函數(shù)作為K-means算法的準(zhǔn)則函數(shù)[14-15]。
類間距離 類間距離 Dis(i, j)表示為第i個(gè)類與第j個(gè)類之間的距離,即第i個(gè)聚類中心vi與第j個(gè)聚類中心vj的歐氏距離。
Dis(i, j)=‖vi-vj‖(7)
類內(nèi)標(biāo)準(zhǔn)誤差 類內(nèi)標(biāo)準(zhǔn)誤差Si表示為第i個(gè)聚類Ci中每一個(gè)數(shù)據(jù)點(diǎn)x與該類的中心點(diǎn)vi之間的歐氏距離標(biāo)準(zhǔn)誤差和,即:
Si=1Ni∑x∈Ci‖x-vi‖(8)
其中Ni表示第i個(gè)聚類Ci包含的數(shù)據(jù)對(duì)象個(gè)數(shù)。
DBI指標(biāo)
DBI=1K∑K-1i=1∑Kj=i+1maxSi+SjDis(i, j)(9)
其中K表示為數(shù)據(jù)集的所有聚類個(gè)數(shù)。
DBI指標(biāo)由類之間的距離和類內(nèi)的距離決定。好的聚類結(jié)果應(yīng)該滿足同一個(gè)類中數(shù)據(jù)之間的相似程度大,而類與類之間的相似程度小。DBI指標(biāo)不僅考慮了類內(nèi)的相似性,還考慮了類與類之間的相異性:如果一個(gè)類的類內(nèi)距離較小,則DBI的分子較小,表明類中數(shù)據(jù)點(diǎn)的相似程度大;如果類與類之間的距離較大,則DBI的分母較大,表明類之間的相異性較大。因此,DBI指標(biāo)數(shù)值越小,表明聚類效果越好。
2.3 改進(jìn)算法總流程
改進(jìn)算法根據(jù)聚合距離參數(shù)選取一定數(shù)量的最優(yōu)中心,作為K-means的初始聚類中心,用DBI指標(biāo)作為準(zhǔn)則函數(shù),若準(zhǔn)則函數(shù)收斂,則說明聚類效果達(dá)到最優(yōu),聚類完成,輸出聚類結(jié)果。整體的算法流程如下所示。
算法1 基于聚合距離參數(shù)的改進(jìn)K-means算法。
輸入:數(shù)據(jù)集;
輸出:聚類結(jié)果。
有序號(hào)的程序——————————Shift+Alt+Y
程序前
M=數(shù)據(jù)點(diǎn)個(gè)數(shù)
R=鄰域半徑
1)
for i in range(M)
2)
計(jì)算兩兩數(shù)據(jù)點(diǎn)之間的歐氏距離
3)
計(jì)算每個(gè)數(shù)據(jù)點(diǎn)xi的聚合距離參數(shù)ω(xi)
4)
選出ω(xi)數(shù)值最大的數(shù)據(jù)點(diǎn),作為第一個(gè)初始聚聚類中心,并將其從數(shù)據(jù)集中移除
5)
計(jì)算剩余各點(diǎn)xj到該聚類中心xi的距離di, j
6)
if di, j < R
7)
則將點(diǎn)xj從數(shù)據(jù)集中移除
8)
else if di, j≥R
9)
不作處理
10)
end
11)
重復(fù)步驟4)~10),直到數(shù)據(jù)集為空。
12)
輸出一定個(gè)數(shù)的最優(yōu)中心作為K-means算法的初始聚類中心
13)
輸入中心個(gè)數(shù)N
14)
執(zhí)行改進(jìn)K-means算法,將數(shù)據(jù)集分為N個(gè)聚類
15)
if 準(zhǔn)則函數(shù)DBI=1K∑K-1i=1∑Kj=i+1maxSi+SjDis(i, j)不收斂
16)
繼續(xù)循環(huán)執(zhí)行改進(jìn)K-means算法
17)
else if 準(zhǔn)則函數(shù)收斂
18)
改進(jìn)K-means算法執(zhí)行完畢
19)
end
20)
輸出聚類結(jié)果
程序后
3 實(shí)驗(yàn)結(jié)果與分析
3.1 可視化數(shù)據(jù)集
為了更好地說明改進(jìn)算法的優(yōu)異性,本節(jié)使用Python中的make_blobs模塊生成二維數(shù)值型仿真數(shù)據(jù)。首先,為了便于可視化處理,生成兩組均包含200個(gè)樣本點(diǎn)的數(shù)據(jù)。圖1(a)和圖1(b)的結(jié)果表明,改進(jìn)算法找到了優(yōu)質(zhì)的初始聚類中心,成功將數(shù)據(jù)分成了2類和3類,聚類結(jié)果準(zhǔn)確,從而改進(jìn)算法的有效性得以驗(yàn)證。然后,為了檢驗(yàn)算法面對(duì)較大樣本時(shí)的效果,再生成一組達(dá)到10000樣本數(shù)的數(shù)據(jù)。圖1(c)的結(jié)果表明,改進(jìn)算法仍能很好地完成聚類。
3.2 標(biāo)準(zhǔn)數(shù)據(jù)集
3.2.1 評(píng)估指標(biāo)
標(biāo)準(zhǔn)數(shù)據(jù)集指明了每一個(gè)數(shù)據(jù)點(diǎn)真實(shí)所屬的類,即true_label,而實(shí)際的聚類結(jié)果也會(huì)有一個(gè)相對(duì)應(yīng)的標(biāo)簽,即pred_label,用于表示每個(gè)數(shù)據(jù)點(diǎn)實(shí)際被分到的類。對(duì)于標(biāo)準(zhǔn)數(shù)據(jù)集,本文采用以下指標(biāo)進(jìn)行評(píng)估:調(diào)整蘭德系數(shù)、互信息、Fowlkes-Mallows 指標(biāo)、同質(zhì)性和完整性,這些指標(biāo)都用于衡量true_label和pred_label的相似程度。
3.2.2 實(shí)驗(yàn)結(jié)果
本文采用了UCI網(wǎng)站上的標(biāo)準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集名稱及其屬性如表1所示。
為了更深入地進(jìn)行對(duì)比,本文采用了傳統(tǒng)K-means算法,Canopy算法及改進(jìn)K-means算法對(duì)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行聚類。聚類結(jié)果的評(píng)估指標(biāo)如圖2所示。
圖2(a)顯示調(diào)整蘭德系數(shù)指標(biāo)結(jié)果,調(diào)整蘭德系數(shù)表示兩個(gè)數(shù)據(jù)分布之間的相似度,其范圍從-1到1。值越大,表明聚類結(jié)果與實(shí)際情況越一致;若值為負(fù),表明兩個(gè)數(shù)據(jù)分布相互獨(dú)立,匹配程度很低。改進(jìn)K-means算法相比于傳統(tǒng)K-means,調(diào)整蘭德系數(shù)指標(biāo)均可有效提高。其中Iris和Seg 這兩個(gè)數(shù)據(jù)集,改進(jìn)算法比傳統(tǒng)算法的調(diào)整蘭德系數(shù)指標(biāo)分別提高了83.7%和71.0%。
圖2(b)和圖2(c)分別顯示互信息及Fowlkes-Mallows指標(biāo)結(jié)果。這兩個(gè)指標(biāo)用于表示兩個(gè)變量true_label和pred_label是否有關(guān)系,以及關(guān)系的接近程度。互信息和Fowlkes-Mallows指標(biāo)的范圍都為0~1,如果值較大,則表示true_label和pred_label之間的關(guān)系更接近。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法在各個(gè)數(shù)據(jù)集上,互信息及Fowlkes-Mallows指標(biāo)的數(shù)值都明顯比傳統(tǒng)K-means算法有提高。即改進(jìn)K-means的實(shí)際聚類結(jié)果與標(biāo)準(zhǔn)結(jié)果更接近,聚類效果更好。
圖3表示同質(zhì)性和完整性的實(shí)驗(yàn)結(jié)果。同質(zhì)性表示每個(gè)群集只包含單個(gè)類的成員,完整性表示給定類的所有成員都分配給同一個(gè)群集,這兩個(gè)指標(biāo)通常一起使用,范圍為0到1之間,值越大表明聚類效果越好。
通過比較圖2和圖3的整體結(jié)果可知:1)改進(jìn)K-means算法的評(píng)估指標(biāo)數(shù)值均高于其他兩個(gè)算法,即改進(jìn)算法的實(shí)際聚類結(jié)果與標(biāo)準(zhǔn)結(jié)果更一致,這說明了其性能是優(yōu)于傳統(tǒng)算法的。2)對(duì)于不同的數(shù)據(jù)集來說,同一個(gè)算法聚類結(jié)果的評(píng)估指標(biāo)數(shù)值也不一樣,這說明聚類效果會(huì)因不同的數(shù)據(jù)集而波動(dòng)。3)Canopy的聚類結(jié)果大多比傳統(tǒng)K-means算法差,有時(shí)比傳統(tǒng)K-means更好,這是因?yàn)镃anopy的聚類結(jié)果很大程度上取決于兩個(gè)閾值,且閾值在實(shí)驗(yàn)中是隨機(jī)選擇的。如果閾值更準(zhǔn)確,最終的聚類結(jié)果將更好,指標(biāo)將更好。而改進(jìn)的K-means算法避免了隨機(jī)性,并且始終具有更好的聚類結(jié)果。
4 結(jié)語
K-means算法是聚類算法中的重要方法。本文針對(duì)傳統(tǒng)K-means算法的不足,提出了基于聚合距離參數(shù)的改進(jìn)K-means算法。首先,通過使用聚合距離參數(shù)獲取一定的最優(yōu)聚類中心;然后,將最優(yōu)聚類中心應(yīng)用于改進(jìn)的K-means,并且改進(jìn)的K-means算法將根據(jù)新的準(zhǔn)則函數(shù)DBI收斂,當(dāng)準(zhǔn)則函數(shù)達(dá)到最小值時(shí),聚類結(jié)束,輸出聚類結(jié)果。
改進(jìn)的K-means算法有效地解決了初始聚類中心和K值選擇不確定的問題,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的K-means算法比傳統(tǒng)K-means算法,在聚類效果上有很大的提升。
未來工作中將會(huì)采用改進(jìn)的K-means算法來對(duì)工業(yè)大數(shù)據(jù)進(jìn)行聚類。由于工業(yè)大數(shù)據(jù)大都具有時(shí)效性,因此,將考慮對(duì)大數(shù)據(jù)進(jìn)行降維,從而減少聚類算法的計(jì)算時(shí)間。同時(shí),會(huì)在Hadoop平臺(tái)上并行化實(shí)現(xiàn)大數(shù)據(jù)的聚類,提高時(shí)間效能。最后基于改進(jìn)算法得出的聚類結(jié)果,提出針對(duì)工業(yè)大數(shù)據(jù)的異常值檢測(cè)方法,從而將改進(jìn)算法應(yīng)用于工業(yè)大數(shù)據(jù)領(lǐng)域,有效檢測(cè)工業(yè)設(shè)備運(yùn)行的健康程度。
參考文獻(xiàn)
[1]王治和,黃夢(mèng)瑩,杜輝,等. 基于密度峰值與密度聚類的集成算法[J].計(jì)算機(jī)應(yīng)用,2019,39(2):398-402. (WANG Z H, HUANG M Y, DU H, et al. Integrated algorithm based on density peaks and density-based clustering J]. Journal of Computer Applications, 2019, 39(2): 398-402.)
[2]McLOUGHLIN F, DUFFY A, CONLON M. A clustering approach to domestic electricity load profile characterisation using smart metering data [J]. Applied Energy, 2015, 141: 190-199.
[3]ALI A-W, WU J, JENKINS N. K-means based load estimation of domestic smart meter measurements [J]. Applied Energy, 2016, 194: 333-342.
[4]楊輝華,王克,李靈巧,等.基于自適應(yīng)布谷鳥搜索算法的K-means聚類算法及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2066-2070.(YANG H H, WANG K, LI L Q, et al. K-means clustering algorithm based on adaptive cuckoo search and its application [J]. Journal of Computer Applications, 2016, 36(8): 2066-2070.)
[5]黃韜,劉勝輝,譚艷娜.基于K-means聚類算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(7):54-57.(HUANG T, LIU S H, TAN Y N. Research of clustering algorithm based on K-means [J]. Computer Technology and Development, 2011, 21(7):54-57.)
[6]王駿,王士同,鄧趙紅. 特征加權(quán)距離與軟子空間學(xué)習(xí)相結(jié)合的文本聚類新方法[J].計(jì)算機(jī)學(xué)報(bào), 2012, 35(8): 1655-1665. (WANG J, WANG S T, DENG Z H. A novel text clustering algorithm based on feature weighting distance and soft subspace learning [J]. Chinese Journal of Computers, 2012, 35(8): 1655-1665. )
[7]郁啟麟. K-means算法初始聚類中心選擇的優(yōu)化[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2017, 26(5): 170-174. (YU Q L. Optimization of initial clustering centers selection method for K-means algorithm [J]. Computer Systems & Applications, 2017, 26(5): 170-174.)
[8]周潤(rùn)物,李智勇,陳少淼,等.面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類K-means算法[J].計(jì)算機(jī)應(yīng)用,2016,36(2):311-315.(ZHOU R W, LI Z Y, CHEN S M, et al. Parallel optimization sampling clustering K-means algorithm for big data processing [J]. Journal of Computer Applications, 2016, 36(2): 311-315.)
[9]王麗娟,郝志峰,蔡瑞初,等. 基于隨機(jī)取樣的選擇性K-means聚類融合算法[J]. 計(jì)算機(jī)應(yīng)用, 2013, 33(7): 1969-1972. (WANG L J, HAO Z F, CAI R C, et al. Selective K-means clustering ensemble based on random sampling [J]. Journal of Computer Applications, 2013, 33(7): 1969-1972.)
[10]毛典輝.基于MapReduce的Canopy-Kmeans改進(jìn)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(27): 22-26. (MAO D H. Improved Canopy-Kmeans algorithm based on MapReduce [J]. Computer Engineering and Applications, 2012, 48(27): 22-26.)
[11]趙昱,陳琴,蘇一丹,等. 基于鄰域相似度的近鄰傳播聚類算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2018, 39(7): 1883-1888. (ZHAO Y, CHEN Q, SU Y D, et al. Affinity propagation clustering algorithm based on neighborhood similarity [J]. Computer Engineering and Design, 2018, 39(7): 1883-1888.)
[12]劉鵬,王明陽(yáng),王焱.基于自適應(yīng)動(dòng)態(tài)球半徑的K鄰域搜索算法[J]. 機(jī)械設(shè)計(jì)與制造工程, 2016, 45(6): 83-86.(LIU P, WANG M Y, WANG Y. K domain search algorithm based on adaptive dynamic sphere radius [J]. Machine Design and Manufacturing Engineering, 2016, 45(6): 83-86.)
[13]NGUYEN D, LE T, NGUYEN S. An algorithmic method of calculating neighborhood radius for clustering in-home activities within smart home environment [C]// Proceedings of the 7th International Conference on Intelligent Systems, Modelling and Simulation. Piscataway, NJ: IEEE, 2016: 42-47.
[14]COELHO G P, BARBANTE C C, BOCCATO L, et al. Automatic feature selection for BCI: an analysis using the Davies-Bouldin index and extreme learning machines [C]// Proceedings of the 2012 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2012: 1-8.
[15]THOMAS J C R, PEAS M S, MORA M. New version of Davies-Bouldin index for clustering validation based on cylindrical distance [C]// Proceedings of the 32nd International Conference of the Chilean Computer Science Society. Piscataway, NJ: IEEE, 2013: 49-53.
This work is partially supported by the Major Program of National Natural Science Foundation of China (71690230, 71690234).
WANG Qiaoling, born in 1994, M. S. candidate. Her research interests include clustering algorithm, big data analysis.
QIAO Fei, born in 1967, Ph. D., professor. Her research interests include big data analysis, complex manufacturing planning and scheduling, intelligent production systems.
JIANG Youhao, born in 1976, Ph. D. candidate. His research interests include big data analysis, intelligent production systems.