摘要: 針對(duì)現(xiàn)有的集成聚類算法通常默認(rèn)使用K-means算法作為基聚類生成器, 雖能確保聚類成員的多樣性, 卻忽視了差的基聚類可能會(huì)對(duì)最終聚類結(jié)果造成極大干擾的問題, 提出一種基于聚類質(zhì)量的兩階段集成算法. 鑒于K-means算法運(yùn)行高效但聚類質(zhì)量較粗糙, 提出首先在生成階段采用K-means算法生成基聚類成員, 然后通過群體一致性度量篩選出兼具高質(zhì)量和強(qiáng)多樣性的聚類成員, 形成候選集成; 其次, 進(jìn)一步在集成階段應(yīng)用信息熵知識(shí)構(gòu)建基聚類加權(quán)的共協(xié)矩陣; 最后應(yīng)用一致函數(shù)得到最終聚類結(jié)果. 采用3個(gè)指標(biāo)在10個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明, 該算法在有效提升聚類結(jié)果準(zhǔn)確度的同時(shí), 能保持較好的魯棒性.
關(guān)鍵詞: 集成聚類; 聚類質(zhì)量; 群體一致性; 信息熵; 一致函數(shù)
中圖分類號(hào): TP391 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1671-5489(2023)04-0899-10
Two Stage Ensemble Algorithm Based on Clustering Quality
YAN Chen, YANG Youlong, LIU Yuanyuan
(School of Mathematics and Statistics, Xidian University, Xi’an 710126, China)
Abstract: Aiming at the problem that existing ensemble clustering algorithms usually used K-means algorithm as the base clustering generator, although it could ensure the diversity of clustering members, it ignored that poor base clusterings might cause terrible disturbance to the final clustering result, we proposed a two stage ensemble algorithm based on clustering quality. Considering that K-means algorithm ran efficiently, but the clustering quality was relatively rough, firstly, we proposed to" use K-means algorithm to generate base clustering members in the generation stage, and then" selected clustering members with both high quality and strong diversity through" group aggrement measure to form candidate ensemble. Secondly, the information entropy knowledge was futher applied to construct the weighted-clustering co-association matrix in the ensemble stage. Finally, the final clustering result was obtained by using consensus function. Three indexes were used for comparative experiments on ten real datasets, and the experimantal results show that the algorithm can effectively improve the accuracy of clustering results while maintaining good robustness.
Keywords: ensemble clustering; clustering quality; group aggrement; information entropy; consensus function
聚類作為數(shù)據(jù)挖掘中的一種常用算法, 能發(fā)現(xiàn)未知數(shù)據(jù)的潛在模式, 進(jìn)一步指導(dǎo)實(shí)踐, 在機(jī)器學(xué)習(xí)、 數(shù)據(jù)挖掘和人工智能等領(lǐng)域應(yīng)用廣泛[1-5]. 聚類的基本思想是根據(jù)相似性或距離的大小將數(shù)據(jù)劃分為若干類, 再利用人工對(duì)各類指定類別, 從而便于將數(shù)據(jù)價(jià)值最大化. 目前已有很多非常成熟的聚類算法[4-5], 但這些算法通常僅能處理特定類型的數(shù)據(jù), 且對(duì)參數(shù)的依賴性過高, 導(dǎo)致聚類效果不佳且應(yīng)用范圍較窄.
集成學(xué)習(xí)[6]是機(jī)器學(xué)習(xí)領(lǐng)域中一種非常重要的技術(shù), 其通過一定規(guī)則融合多個(gè)模型的結(jié)果, 期望得到一個(gè)更好的結(jié)果. 集成學(xué)習(xí)主要分為集成分類和集成聚類. 集成聚類[6]的主要思想是融合多個(gè)“好而不同”的聚類結(jié)果, 得到一個(gè)精度和魯棒性都更強(qiáng)的聚類結(jié)果. “好而不同”是指基聚類成員之間應(yīng)滿足本身的聚類質(zhì)量較好, 同時(shí)彼此之間的差異性較大的條件, 以確保能得到一個(gè)更好的一致聚類結(jié)果. 集成聚類的這一優(yōu)越性能使得它可以在很大程度上克服單個(gè)聚類算法的缺陷, 進(jìn)一步拓寬了聚類的應(yīng)用.
集成聚類算法可分為生成基聚類和集成基聚類兩個(gè)階段. 目前對(duì)集成聚類算法的研究主要關(guān)注兩個(gè)問題: 一是如何生成“好而不同”的基聚類成員; 二是如何設(shè)計(jì)集成策略. 對(duì)于第一個(gè)問題, 一般采用啟發(fā)式算法, 包括在數(shù)據(jù)層面對(duì)樣本或特征加入擾動(dòng), 算法層面對(duì)同一算法設(shè)置不同參數(shù)或采用不同算法生成基聚類成員. 由于譜聚類對(duì)小樣本具有良好的分簇能力, 因此可降低譜聚類的計(jì)算復(fù)雜度[7-10], 使其應(yīng)用于大規(guī)模數(shù)據(jù)集. 對(duì)于第二個(gè)問題, 目前的研究主要分為基于相似度的集成聚類算法和基于圖模型的集成聚類算法. 盡管現(xiàn)有的集成聚類算法已取得了較好的效果, 但仍存在兩個(gè)問題: 1) 多數(shù)算法默認(rèn)使用K-means算法作為基聚類生成器, 然后考慮聚類的效率和多樣性, 但忽視了其中差的基聚類可能對(duì)最終結(jié)果造成極大干擾, 研究表明, 在保證基聚類質(zhì)量的前提下盡可能增強(qiáng)其多樣性, 有利于得到一個(gè)更好的集成結(jié)果[11-13]; 2) 在設(shè)計(jì)集成策略時(shí)常平等地對(duì)待所有基聚類或同一基聚類內(nèi)的所有簇, 缺乏對(duì)集成信息的深入探索.
針對(duì)上述問題, 本文提出一種基于聚類質(zhì)量的兩階段集成算法. 首先采用K-means算法生成若干多樣化的基聚類成員, 然后利用群體一致性度量計(jì)算每個(gè)基聚類的質(zhì)量, 從中篩選出排名靠前的質(zhì)量與多樣性都較好的基聚類, 將其作為集成階段的候選成員, 再進(jìn)一步在集成階段利用信息熵估計(jì)基聚類質(zhì)量, 構(gòu)造融合基聚類質(zhì)量的共協(xié)矩陣, 最后對(duì)該矩陣應(yīng)用層次聚類算法得到最終聚類結(jié)果.
1 相關(guān)工作
在對(duì)集成聚類算法的相關(guān)研究中, 基于相似度的方法和基于圖的方法是兩種主流的研究方法. 基于相似度的方法將集成信息表示為一個(gè)共協(xié)矩陣, 每個(gè)元素表示樣本對(duì)在所有基聚類中同時(shí)出現(xiàn)的頻率, 然后把該矩陣視為相似矩陣, 再應(yīng)用任何一種劃分算法得到最終的聚類結(jié)果. 這類方法概念簡(jiǎn)單, 可解釋性強(qiáng), 且易于實(shí)現(xiàn)和聚合, 因此受到廣泛關(guān)注. Fred等[14]提出了共協(xié)矩陣的概念, 并進(jìn)一步提出了證據(jù)累積聚類(evidence accumulation clustering, EAC), 但該方法平等地對(duì)待參與集成的每個(gè)基聚類, 忽視了不同基聚類的質(zhì)量差異對(duì)最終結(jié)果的影響. 針對(duì)上述缺陷, Wang等[15]將每個(gè)基聚類的簇規(guī)模和樣本維數(shù)考慮在內(nèi), 對(duì)EAC方法進(jìn)行改進(jìn), 提出了一種概率累積的方法, 從而能更好地度量樣本之間的成對(duì)相關(guān)性. Huang等[16]提出以群策智慧思想估計(jì)基聚類質(zhì)量, 之后又提出了利用信息熵估計(jì)不同簇對(duì)集成的貢獻(xiàn)度, 得到改進(jìn)的局部加權(quán)共協(xié)矩陣[17]. 考慮到共協(xié)矩陣中存在部分不確定樣本對(duì), 可能會(huì)影響聚類效果, Yi等[18]提出通過設(shè)置合理的閾值, 從共協(xié)矩陣中去掉不可靠樣本, 再利用矩陣補(bǔ)全技術(shù)完全化共協(xié)矩陣, 最后應(yīng)用譜聚類得到劃分結(jié)果. 由于共協(xié)矩陣本身并不能涵蓋全部集成信息, 因此Zhong等[19]提出從共協(xié)矩陣中多次移除部分低頻共現(xiàn)元素, 對(duì)形成的多個(gè)矩陣分別進(jìn)行聚類并設(shè)計(jì)了一個(gè)內(nèi)部度量, 根據(jù)該度量選擇聚類質(zhì)量最好的一個(gè)作為最終集成結(jié)果. Zhou等[20]利用子空間聚類思想, 結(jié)合微簇概念, 通過構(gòu)造目標(biāo)函數(shù), 優(yōu)化學(xué)習(xí)后得到一個(gè)代表點(diǎn)級(jí)別上的相似矩陣, 劃分后得到聚類結(jié)果.
基于圖模型的方法將集成聚類問題轉(zhuǎn)化為圖分割問題, 進(jìn)而得到聚類結(jié)果. 這類算法的關(guān)鍵在于如何構(gòu)圖, 包括如何設(shè)置圖節(jié)點(diǎn)以及如何定義邊權(quán)重. Strehl等[21]最早提出了3種基于圖的算法, 分別是基于樣本相似度的算法(cluster-based similarity partitioning algorithm, CSPA)、 超圖劃分算法(hyper graph partitioning algorithm, HGPA)和元聚類算法(meta-clustering algorithm, MCLA). CSPA以樣本為圖節(jié)點(diǎn), 根據(jù)共協(xié)矩陣定義樣本權(quán)重構(gòu)造圖; HGPA以簇為超邊, 每條超邊連接了所有屬于該簇的樣本; MCLA以簇為圖節(jié)點(diǎn), 對(duì)兩個(gè)簇計(jì)算Jaccard系數(shù)并作為邊權(quán)重建立元圖. 由于HGPA算法在構(gòu)圖時(shí)可能會(huì)丟失部分?jǐn)?shù)據(jù)信息, Fern等[22]對(duì)其進(jìn)行了改進(jìn), 把樣本和簇同時(shí)作為圖節(jié)點(diǎn), 若樣本屬于某個(gè)簇, 則它們之間的邊權(quán)重為1, 否則為0, 提出了一種混合二部圖描述算法. 為充分利用集成信息, Huang等[23]通過在圖上進(jìn)行隨機(jī)游走, 提出了概率軌跡累積聚類和概率軌跡圖劃分算法; 并結(jié)合類簇在集成中的不確定性, 構(gòu)造出融合簇可靠性的局部加權(quán)二部圖[17]. 此外, 還有一些針對(duì)譜聚類的改進(jìn)算法[24-25], 可以應(yīng)用于較大規(guī)模數(shù)據(jù)集或者高維數(shù)據(jù)集.
上述這些算法均重點(diǎn)關(guān)注集成方法的設(shè)計(jì), 默認(rèn)使用K-means算法生成基聚類成員, 無法為集成階段提供一個(gè)良好的輸入, 從而影響最終聚類效果. 根據(jù)機(jī)器學(xué)習(xí)界公認(rèn)的GIGO(garbage in, garbage out)原理, 即差的前提導(dǎo)致差的結(jié)論, 本文提出對(duì)集成聚類算法的兩個(gè)階段分別采用不同方法控制基聚類質(zhì)量, 以提升聚類的準(zhǔn)確度.
w(πm)表示樣本xi和xj所屬基聚類的權(quán)值. 把這個(gè)共協(xié)矩陣A′視為相似矩陣, 進(jìn)一步應(yīng)用層次聚類算法進(jìn)行劃分得到最終聚類結(jié)果.
根據(jù)上述對(duì)算法過程的描述, 本文設(shè)計(jì)了一種基于聚類質(zhì)量的兩階段集成算法(two stage ensemble algorithm based on clustering quality, TSEC), 從全局角度考慮基聚類質(zhì)量, 期望聚類準(zhǔn)確度能有所提升.
算法1 TSEC算法.
輸入: 數(shù)據(jù)集X, 采樣率r%, 簇?cái)?shù)k, 集成規(guī)模M;
輸出: 聚類結(jié)果;
步驟1) 利用K-means算法生成T個(gè)基聚類, 將結(jié)果表示為N×T階矩陣D;
步驟2) 對(duì)矩陣D隨機(jī)降采樣, 取r%個(gè)樣本的聚類結(jié)果, 構(gòu)成一個(gè)新的N×T階矩陣E;
步驟3) 對(duì)矩陣E進(jìn)行標(biāo)簽重排, 得到新矩陣F;
步驟4) 基于矩陣F, 根據(jù)式(1)和式(2)計(jì)算所有基聚類的質(zhì)量, 從大到小排列后選擇前95%的基聚類作為基聚類池;
步驟5) 從基聚類池中隨機(jī)取M個(gè)基聚類進(jìn)行集成;
步驟6) 根據(jù)式(3)和式(4)計(jì)算每個(gè)基聚類對(duì)集成的不確定性;
步驟7) 根據(jù)式(5)計(jì)算每個(gè)基聚類在集成中的權(quán)重;
步驟8) 根據(jù)式(7)得到改進(jìn)的共協(xié)矩陣A′;
步驟9) 應(yīng)用層次聚類算法得到最終的集成聚類結(jié)果.
3 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證本文算法的有效性, 設(shè)計(jì)4組實(shí)驗(yàn). 第一組實(shí)驗(yàn)為確定采樣率; 第二組通過消融實(shí)驗(yàn)驗(yàn)證加入降采樣方法對(duì)最終結(jié)果的貢獻(xiàn)度; 第三組實(shí)驗(yàn), 將本文算法與7個(gè)集成聚類算法在3個(gè)指標(biāo)上進(jìn)行性能對(duì)比; 最后測(cè)試本文算法對(duì)集成規(guī)模的魯棒性. 為保證實(shí)驗(yàn)結(jié)果的公平、 公正性, 所有實(shí)驗(yàn)均在Intel(R) Core(TM) i7-6700 CPU @3.40 GHz 3.41 GHz, Windows 10, MATLAB 2020a上完成.
3.1 數(shù)據(jù)集與評(píng)估準(zhǔn)則
本文使用10個(gè)真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 分別是FCT(forest covertype),MF(multiple features),ODR(optical digit recognition),SPF(steel plates faults),LS(landsat),Semeion,USPS,ISOLET,PD(pen digit)和IS(image segmentation). 除數(shù)據(jù)集USPS來自文獻(xiàn)[17]外, 其他數(shù)據(jù)集均來自UCI機(jī)器學(xué)習(xí)庫(kù), 各數(shù)據(jù)集信息列于表1.
本文所有對(duì)比算法的基聚類池均由K-means算法在[2,N]內(nèi)變換簇?cái)?shù), 生成100個(gè)基聚類構(gòu)成. 為證明本文算法的性能, 采用標(biāo)準(zhǔn)互信息、 調(diào)整蘭德系數(shù)(adjusted Rand index, ARI)和準(zhǔn)確度(ACC)3個(gè)指標(biāo)衡量聚類效果. 這3個(gè)指標(biāo)值均為越接近1, 則聚類效果越好.
3.2 TSEC算法采樣率的確定
分別設(shè)置3個(gè)不同采樣率(10%,30%,50%)考察采樣率大小對(duì)本文算法準(zhǔn)確度和運(yùn)行時(shí)間的影響, 以證明加入降采樣的TSEC算法在生成階段設(shè)置采樣率為10%, 通過隨機(jī)降采樣方法估計(jì)基聚類質(zhì)量的合理性. 對(duì)每個(gè)采樣率, 設(shè)置算法的集成規(guī)模為20, 記錄其運(yùn)行30次的平均ACC值及運(yùn)行時(shí)間, 結(jié)果分別如圖1和圖2所示.
由圖1可見, 對(duì)于在不同采樣率上的平均ACC值, TSEC算法只有在數(shù)據(jù)集FCT,SPF和IS上略有變化, 在其余7個(gè)數(shù)據(jù)集上該算法的平均ACC值基本相等. 由圖2可見, 算法運(yùn)行時(shí)間隨著采樣率的增大而增大. 此外, 數(shù)據(jù)量和維數(shù)的大小也會(huì)影響算法的運(yùn)行效率. 綜合考慮算法在不同采樣率下的準(zhǔn)確度和運(yùn)行成本, 本文選擇采樣率為10%.
3.3 消融實(shí)驗(yàn)
為驗(yàn)證加入降采樣方法對(duì)TSEC算法的貢獻(xiàn)度, 本文設(shè)計(jì)一組消融實(shí)驗(yàn). 對(duì)比算法與本文算法的不同之處在于前者直接基于生成的基聚類集合計(jì)算基聚類質(zhì)量, 未采用降采樣方法. 對(duì)比算法稱為不加降采樣方法, 兩種算法均設(shè)置集成規(guī)模為20, 運(yùn)行30次后分析各自的平均ACC值及運(yùn)行時(shí)間, 結(jié)果均保留至小數(shù)點(diǎn)后4位. 由于兩種算法在不同數(shù)據(jù)集上運(yùn)行時(shí)間的差異在于生成階段采用NGAM度量計(jì)算基聚類質(zhì)量這一部分, 因此只記錄該部分的用時(shí). 兩種算法在所有數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果列于表2.
由表2可見, 在FCT,ODR,LS和ISOLET 4個(gè)數(shù)據(jù)集上, 加降采樣方法的ACC值略高于不加降采樣的方法. 其中, 在FCT數(shù)據(jù)集上本文提出的加降采樣方法的準(zhǔn)確度提高了2.43%. 在其余數(shù)據(jù)集上, 兩種方法的ACC值幾乎相等, 相差范圍在0.002~0.005. 但顯然加降采樣方法的運(yùn)行速率更高效, 在10個(gè)數(shù)據(jù)集上, 運(yùn)行效率提高了120%~750%. 特別是在數(shù)據(jù)集PD,USPS和ODR上, 運(yùn)行效率分別提高了748%,450%和574%. 因此, 相比于不加降采樣的方法, 本文提出的加降采樣的TSEC算法在保持準(zhǔn)確度相當(dāng)?shù)那闆r下可大幅度提速, 突出了在生成階段對(duì)基聚類成員集合先隨機(jī)降采樣再去篩選基聚類的重要性.
3.4 集成規(guī)模的魯棒性分析
選擇數(shù)據(jù)集FCT,MF,ODR和LS測(cè)試TSEC算法與其他對(duì)比算法在不同集成規(guī)模下的魯棒性. 實(shí)驗(yàn)設(shè)置集成規(guī)模為10~30, 步長(zhǎng)為5. 對(duì)每個(gè)數(shù)據(jù)集, 所有算法在不同集成規(guī)模下各自運(yùn)行30次, 記錄平均NMI、 平均ARI和平均ACC值, 結(jié)果如圖3所示.
由圖3可見, 當(dāng)集成規(guī)模為20時(shí), TSEC算法在數(shù)據(jù)集FCT,MF和ODR上的NMI值高于其他對(duì)比算法. 對(duì)5個(gè)集成規(guī)模, TSEC算法在數(shù)據(jù)集FCT,MF,LS上的ARI值均優(yōu)于對(duì)比算法. 其中, 在數(shù)據(jù)集FCT上, 當(dāng)集成規(guī)模為20時(shí), TSEC算法的ARI值達(dá)到最大. 對(duì)數(shù)據(jù)集MF, TSEC算法的ARI值在集成規(guī)模大于20后逐漸趨于平穩(wěn). 在數(shù)據(jù)集LS上, TSEC算法的ARI值隨著集成規(guī)模的增大而增大. 對(duì)于ACC值, TSEC算法在選用的4個(gè)數(shù)據(jù)集上的性能均優(yōu)于對(duì)比算法, 且ACC值隨著集成規(guī)模的增加而逐漸趨于穩(wěn)定. 綜合TSEC算法在4個(gè)數(shù)據(jù)集上關(guān)于3個(gè)指標(biāo)的性能, 兼顧算法運(yùn)行成本, 本文選擇集成規(guī)模為20.
3.5 與其他集成聚類算法的對(duì)比實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證本文算法的有效性, 將TSEC算法與其他7個(gè)先進(jìn)的集成聚類算法進(jìn)行對(duì)比實(shí)驗(yàn). 對(duì)比算法為3個(gè)圖聚類算法, 分別是概率軌跡圖劃分(probability trajectory based graph partitioning, PTGP)算法、 多粒度連接圖劃分(graph partitioning with multi-granularity link analysis, GPMGLA)算法和局部加權(quán)圖劃分(locally weighted graph partitioning, LWGP)算法, 以及4個(gè)基于共協(xié)矩陣的算法, 分別是證據(jù)累積聚類(EAC)、 概率軌跡累積(probability trajectory accumulation, PTA)聚類、 加權(quán)證據(jù)累積聚類(weighted evidence accumulation clustering, WEAC)和局部加權(quán)證據(jù)累積(locally weighted evidence accumulation, LWEA)聚類. 實(shí)驗(yàn)設(shè)置所有算法的劃分?jǐn)?shù)目均為數(shù)據(jù)集真實(shí)類數(shù), 集成規(guī)模為20. 記錄每種算法在不同數(shù)據(jù)集上運(yùn)行30次的平均NMI、 平均ARI和平均ACC值, 結(jié)果分別列于表3~表5. 所有實(shí)驗(yàn)結(jié)果均保留至小數(shù)點(diǎn)后4位.
由表3可見, 與性能次優(yōu)的算法相比, TSEC算法在數(shù)據(jù)集FCT,MF,ODR,USPS和ISOLET上的NMI值都有小幅度提高, 提高范圍為0.19%~2.12%. 在其余5個(gè)數(shù)據(jù)集上本文算法的性能略差, 相比于性能最佳的算法, TSEC算法的NMI值落后范圍為0.8%~7.75%. 由表4可見, TSEC算法在FCT,MF,ODR,SPF,LS,USPS和ISOLET數(shù)據(jù)集上的ARI值性能較好. 特別是在數(shù)據(jù)集LS上, 與性能次優(yōu)的PTA算法相比, TSEC算法的ARI值提高了5.31%. 由表5可見, 與對(duì)比實(shí)驗(yàn)相比, TSEC算法的ACC值總體上性能較好. 尤其是在數(shù)據(jù)集SPF上, 相比性能次優(yōu)的LWGP算法, TSEC算法的ACC值提高了10.81%. 此外, 與性能次優(yōu)的PTA算法相比, TSEC算法在數(shù)據(jù)集LS上的ACC值也提高了7.16%. 在數(shù)據(jù)集FCT,MF和USPS上, 相比于性能次優(yōu)的算法, TSEC算法的ACC值分別提高了3.09%,2.65%和3.01%.
根據(jù)上述分析, 雖然TSEC算法在數(shù)據(jù)集PD和IS上的NMI值和ARI值略遜于LWEA和LWGP算法, 但效果相差較小. 此外, 由表3~表5可見, PTA算法在多個(gè)數(shù)據(jù)集上性能良好, 這可能是因?yàn)镻TA算法通過連接可靠節(jié)點(diǎn), 在圖上根據(jù)概率軌跡隨機(jī)游走獲取全局結(jié)構(gòu)信息, 有效提升了聚類性能. 因此, TSEC算法在3個(gè)指標(biāo)上的聚類效果總體上相對(duì)較好.
綜上所述, 針對(duì)當(dāng)前集成聚類算法研究側(cè)重于集成策略的設(shè)計(jì), 在生成階段默認(rèn)使用K-means算法生成基聚類成員, 僅能確保多樣性, 忽視了基聚類質(zhì)量對(duì)最終聚類結(jié)果影響的問題, 本文提出了一種基于聚類質(zhì)量的兩階段集成算法, 采用不同度量方法對(duì)集成聚類算法的兩個(gè)階段分別把控聚類質(zhì)量, 得到一個(gè)精度和魯棒性都更好的聚類結(jié)果. 將本文算法與7個(gè)先進(jìn)的集成聚類算法在10個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明, 本文算法可有效提高聚類準(zhǔn)確度, 并保持較好的魯棒性.
參考文獻(xiàn)
[1]ZOU Q, LIN G, JIANG X P, et al. Sequence Clustering in Bioinformatics: An Empirical Study [J]. Briefings in Bioinformatics, 2020, 21(1): 1-10.
[2]OTTO C, WANG D, JAIN A K. Clustering Millions of Faces by Identity [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(2): 289-303.
[3]AGHABOZORGI S, SHIRKHORSHIDI A S, WAH T Y. Time-Series Clustering: A Decade Review [J]. Information Systems, 2015, 53: 16-38.
[4]OYELADE J, ISEWON I, OLADIPUPO O, et al. Data Clustering: Algorithms and Its Applications [C]//2019 19th International Conference on Computational Science and Its Applications. Piscataway, NJ: IEEE, 2019: 71-81.
[5]GAN G J, MA C Q, WU J H. Data Clustering: Theory, Algorithms, and Applications [M]. Philadelphia: Society for Industrial and Applied Mathematics, 2020: 1-448.
[6]ZHOU Z H. Ensemble Methods: Foundations and Algorithms [M]. New York: CRC Press, 2012: 135-155.
[7]HUANG D, WANG C D, WU J S, et al. Ultra-Scalable Spectral Clustering and Ensemble Clustering [J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 32(6): 1212-1226.
[8]白璐, 趙鑫, 孔鈺婷, 等. 譜聚類算法研究綜述 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(14): 15-26. (BAI L, ZHAO X, KONG Y T, et al. Survey of Spectral Clustering Algorithms [J]. Computer Engineering and Applications, 2021, 57(14): 15-26.)
[9]尤坊州, 白亮. 關(guān)鍵節(jié)點(diǎn)選擇的快速圖聚類算法 [J]. 計(jì)算機(jī)科學(xué)與探索, 2021, 15(10): 1930-1937. (YOU F Z, BAI L. Fast Graph Clustering Algorithm Based on Selection of Key Nodes [J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(10): 1930-1937.)
[10]薛紅艷, 錢雪忠, 周世兵. 超簇加權(quán)的集成聚類算法 [J]. 計(jì)算機(jī)科學(xué)與探索, 2021, 15(12): 2362-2373. (XUE H Y, QIAN X Z, ZHOU S B. Ensemble Clustering Algorithm Based on Weighted Super Cluster [J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(12): 2362-2373.)
[11]BREIMAN L. Random Forests [J]. Machine Learning, 2001, 45(1): 5-32.
[12]周志華, 陳世福. 神經(jīng)網(wǎng)絡(luò)集成 [J]. 計(jì)算機(jī)學(xué)報(bào), 2002, 25(1): 1-8. (ZHOU Z H, CHEN S F. Neural Network Ensemble [J]. Chinese Journal of Computers, 2002, 25(1): 1-8.)
[13]TUMER K, GHOSH J. Linear and Order Statistics Combiners for Neural Pattern Classifiers [EB/OL]. (1999-03-20)[2022-02-01]. https://arxiv.org/abs/cs/9905012.
[14]FRED A L N, JAIN A K. Combining Multiple Clusterings Using Evidence Accumulation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(6): 835-850.
[15]WANG X, YANG C Y, ZHOU J. Clustering Aggregation by Probability Accumulation [J]. Pattern Recognition, 2009, 42(5): 668-675.
[16]HUANG D, LAI J H, WANG C D. Combining Multiple Clusterings via Crowd Agreement Estimation and Multi-granularity Link Analysis [J]. Neurocomputing, 2015, 170: 240-250.
[17]HUANG D, WANG C D, LAI J H. Locally Weighted Ensemble Clustering [J]. IEEE Transactions on Cybernetics, 2017, 48(5): 1460-1473.
[18]YI J F, YANG T B, JIN R, et al. Robust Ensemble Clustering by Matrix Completion [C]//2012 IEEE 12th International Conference on Data Mining. Washington, D.C.: IEEE Computer Society, 2012: 1176-1181.
[19]ZHONG C M, HU L Y, YUE X D, et al. Ensemble Clustering Based on Evidence Extracted from the Co-association Matrix [J]. Pattern Recognition, 2019, 92: 93-106.
[20]ZHOU J, ZHENG H C, PAN L L. Ensemble Clustering Based on Dense Representation [J]. Neurocomputing, 2019, 357: 66-76.
[21]STREHL A, GHOSH J. Cluster Ensembles: A Knowledge Reuse Framework for Combining Multiple Partitions [J]. Journal of Machine Learning Research, 2002, 3(12): 583-617.
[22]FERN X Z, BRODLEY C E. Solving Cluster Ensemble Problems by Bipartite Graph Partitioning [C]//Proceedings of the Twenty-First International Conference on Machine Learning. New York: Association for Computering Machinery, 2004: 36-1-36-8.
[23]HUANG D, LAI J H, WANG C D. Robust Ensemble Clustering Using Probability Trajectories [J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 28(5): 1312-1326.
[24]LIU H F, LIU T L, WU J J, et al. Spectral Ensemble Clustering [C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computering Machinery, 2015: 715-724.
[25]LIANG Y N, REN Z G, WU Z Z, et al. Scalable Spectral Ensemble Clustering via Building Representative Co-association Matrix [J]. Neurocomputing, 2020, 390: 158-167.
(責(zé)任編輯: 韓 嘯)
收稿日期: 2022-05-31.
第一作者簡(jiǎn)介: 閆 晨(1997—), 女, 漢族, 碩士, 從事模式識(shí)別和數(shù)據(jù)挖掘分析的研究, E-mail: 2799702609@qq.com. 通信作者簡(jiǎn)介: 楊有龍(1967—), 男, 漢族, 博士, 教授, 從事高維數(shù)據(jù)分析與應(yīng)用的研究, E-mail: ylyang@mail.xidian.edu.cn.
基金項(xiàng)目: 陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(批準(zhǔn)號(hào): 2021JM-133).