亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于聚類質(zhì)量的兩階段集成算法

2023-04-29 17:53:06閆晨楊有龍劉原園

吉林大學學報(理學版) 2023年4期

關(guān)鍵詞：信息熵

閆晨　楊有龍　劉原園

摘要：針對現(xiàn)有的集成聚類算法通常默認使用K-means算法作為基聚類生成器，雖能確保聚類成員的多樣性，卻忽視了差的基聚類可能會對最終聚類結(jié)果造成極大干擾的問題，提出一種基于聚類質(zhì)量的兩階段集成算法. 鑒于K-means算法運行高效但聚類質(zhì)量較粗糙，提出首先在生成階段采用K-means算法生成基聚類成員，然后通過群體一致性度量篩選出兼具高質(zhì)量和強多樣性的聚類成員，形成候選集成；其次，進一步在集成階段應用信息熵知識構(gòu)建基聚類加權(quán)的共協(xié)矩陣; 最后應用一致函數(shù)得到最終聚類結(jié)果. 采用3個指標在10個真實數(shù)據(jù)集上進行對比實驗，實驗結(jié)果表明，該算法在有效提升聚類結(jié)果準確度的同時，能保持較好的魯棒性.

關(guān)鍵詞：集成聚類；聚類質(zhì)量；群體一致性；信息熵；一致函數(shù)

中圖分類號： TP391 文獻標志碼： A 文章編號： 1671-5489（2023）04-0899-10

Two Stage Ensemble Algorithm Based on Clustering Quality

YAN Chen， YANG Youlong， LIU Yuanyuan

（School of Mathematics and Statistics， Xidian University， Xian 710126， China）

Abstract： Aiming at the problem that existing ensemble clustering algorithms usually used K-means algorithm as the base clustering generator， although it could ensure the diversity of clustering members， it ignored that poor base clusterings might cause terrible disturbance to the final clustering result， we proposed a two stage ensemble algorithm based on clustering quality. Considering that K-means algorithm ran efficiently， but the clustering quality was relatively rough， firstly， we proposed to? use K-means algorithm to generate base clustering members in the generation stage， and then? selected clustering members with both high quality and strong diversity through? group aggrement measure to form candidate ensemble. Secondly， the information entropy knowledge was futher applied to construct the weighted-clustering co-association matrix in the ensemble stage. Finally， the final clustering result was obtained by using consensus function. Three indexes were used for comparative experiments on ten real datasets， and the experimantal results show that the algorithm can effectively improve the accuracy of clustering results while maintaining good robustness.

Keywords： ensemble clustering; clustering quality; group aggrement; information entropy; consensus function

聚類作為數(shù)據(jù)挖掘中的一種常用算法，能發(fā)現(xiàn)未知數(shù)據(jù)的潛在模式，進一步指導實踐，在機器學習、數(shù)據(jù)挖掘和人工智能等領域應用廣泛［1-5］. 聚類的基本思想是根據(jù)相似性或距離的大小將數(shù)據(jù)劃分為若干類，再利用人工對各類指定類別，從而便于將數(shù)據(jù)價值最大化. 目前已有很多非常成熟的聚類算法［4-5］，但這些算法通常僅能處理特定類型的數(shù)據(jù)，且對參數(shù)的依賴性過高，導致聚類效果不佳且應用范圍較窄.

集成學習［6］是機器學習領域中一種非常重要的技術(shù)，其通過一定規(guī)則融合多個模型的結(jié)果，期望得到一個更好的結(jié)果. 集成學習主要分為集成分類和集成聚類. 集成聚類［6］的主要思想是融合多個“好而不同”的聚類結(jié)果，得到一個精度和魯棒性都更強的聚類結(jié)果. “好而不同”是指基聚類成員之間應滿足本身的聚類質(zhì)量較好，同時彼此之間的差異性較大的條件，以確保能得到一個更好的一致聚類結(jié)果. 集成聚類的這一優(yōu)越性能使得它可以在很大程度上克服單個聚類算法的缺陷，進一步拓寬了聚類的應用.

集成聚類算法可分為生成基聚類和集成基聚類兩個階段. 目前對集成聚類算法的研究主要關(guān)注兩個問題：一是如何生成“好而不同”的基聚類成員；二是如何設計集成策略. 對于第一個問題，一般采用啟發(fā)式算法，包括在數(shù)據(jù)層面對樣本或特征加入擾動，算法層面對同一算法設置不同參數(shù)或采用不同算法生成基聚類成員. 由于譜聚類對小樣本具有良好的分簇能力，因此可降低譜聚類的計算復雜度［7-10］，使其應用于大規(guī)模數(shù)據(jù)集. 對于第二個問題，目前的研究主要分為基于相似度的集成聚類算法和基于圖模型的集成聚類算法. 盡管現(xiàn)有的集成聚類算法已取得了較好的效果，但仍存在兩個問題： 1）多數(shù)算法默認使用K-means算法作為基聚類生成器，然后考慮聚類的效率和多樣性，但忽視了其中差的基聚類可能對最終結(jié)果造成極大干擾，研究表明，在保證基聚類質(zhì)量的前提下盡可能增強其多樣性，有利于得到一個更好的集成結(jié)果［11-13］; 2）在設計集成策略時常平等地對待所有基聚類或同一基聚類內(nèi)的所有簇，缺乏對集成信息的深入探索.

針對上述問題，本文提出一種基于聚類質(zhì)量的兩階段集成算法. 首先采用K-means算法生成若干多樣化的基聚類成員，然后利用群體一致性度量計算每個基聚類的質(zhì)量，從中篩選出排名靠前的質(zhì)量與多樣性都較好的基聚類，將其作為集成階段的候選成員，再進一步在集成階段利用信息熵估計基聚類質(zhì)量，構(gòu)造融合基聚類質(zhì)量的共協(xié)矩陣，最后對該矩陣應用層次聚類算法得到最終聚類結(jié)果.

1 相關(guān)工作

在對集成聚類算法的相關(guān)研究中，基于相似度的方法和基于圖的方法是兩種主流的研究方法. 基于相似度的方法將集成信息表示為一個共協(xié)矩陣，每個元素表示樣本對在所有基聚類中同時出現(xiàn)的頻率，然后把該矩陣視為相似矩陣，再應用任何一種劃分算法得到最終的聚類結(jié)果. 這類方法概念簡單，可解釋性強，且易于實現(xiàn)和聚合，因此受到廣泛關(guān)注. Fred等［14］提出了共協(xié)矩陣的概念，并進一步提出了證據(jù)累積聚類（evidence accumulation clustering， EAC），但該方法平等地對待參與集成的每個基聚類，忽視了不同基聚類的質(zhì)量差異對最終結(jié)果的影響. 針對上述缺陷， Wang等［15］將每個基聚類的簇規(guī)模和樣本維數(shù)考慮在內(nèi)，對EAC方法進行改進，提出了一種概率累積的方法，從而能更好地度量樣本之間的成對相關(guān)性. Huang等［16］提出以群策智慧思想估計基聚類質(zhì)量，之后又提出了利用信息熵估計不同簇對集成的貢獻度，得到改進的局部加權(quán)共協(xié)矩陣［17］. 考慮到共協(xié)矩陣中存在部分不確定樣本對，可能會影響聚類效果， Yi等［18］提出通過設置合理的閾值，從共協(xié)矩陣中去掉不可靠樣本，再利用矩陣補全技術(shù)完全化共協(xié)矩陣，最后應用譜聚類得到劃分結(jié)果. 由于共協(xié)矩陣本身并不能涵蓋全部集成信息，因此Zhong等［19］提出從共協(xié)矩陣中多次移除部分低頻共現(xiàn)元素，對形成的多個矩陣分別進行聚類并設計了一個內(nèi)部度量，根據(jù)該度量選擇聚類質(zhì)量最好的一個作為最終集成結(jié)果. Zhou等［20］利用子空間聚類思想，結(jié)合微簇概念，通過構(gòu)造目標函數(shù)，優(yōu)化學習后得到一個代表點級別上的相似矩陣，劃分后得到聚類結(jié)果.

基于圖模型的方法將集成聚類問題轉(zhuǎn)化為圖分割問題，進而得到聚類結(jié)果. 這類算法的關(guān)鍵在于如何構(gòu)圖，包括如何設置圖節(jié)點以及如何定義邊權(quán)重. Strehl等［21］最早提出了3種基于圖的算法，分別是基于樣本相似度的算法（cluster-based similarity partitioning algorithm， CSPA）、超圖劃分算法（hyper graph partitioning algorithm， HGPA）和元聚類算法（meta-clustering algorithm， MCLA）. CSPA以樣本為圖節(jié)點，根據(jù)共協(xié)矩陣定義樣本權(quán)重構(gòu)造圖； HGPA以簇為超邊，每條超邊連接了所有屬于該簇的樣本； MCLA以簇為圖節(jié)點，對兩個簇計算Jaccard系數(shù)并作為邊權(quán)重建立元圖. 由于HGPA算法在構(gòu)圖時可能會丟失部分數(shù)據(jù)信息， Fern等［22］對其進行了改進，把樣本和簇同時作為圖節(jié)點，若樣本屬于某個簇，則它們之間的邊權(quán)重為1，否則為0，提出了一種混合二部圖描述算法. 為充分利用集成信息， Huang等［23］通過在圖上進行隨機游走，提出了概率軌跡累積聚類和概率軌跡圖劃分算法; 并結(jié)合類簇在集成中的不確定性，構(gòu)造出融合簇可靠性的局部加權(quán)二部圖［17］. 此外，還有一些針對譜聚類的改進算法［24-25］，可以應用于較大規(guī)模數(shù)據(jù)集或者高維數(shù)據(jù)集.

上述這些算法均重點關(guān)注集成方法的設計，默認使用K-means算法生成基聚類成員，無法為集成階段提供一個良好的輸入，從而影響最終聚類效果. 根據(jù)機器學習界公認的GIGO（garbage in， garbage out）原理，即差的前提導致差的結(jié)論，本文提出對集成聚類算法的兩個階段分別采用不同方法控制基聚類質(zhì)量，以提升聚類的準確度.

w（πm）表示樣本xi和xj所屬基聚類的權(quán)值. 把這個共協(xié)矩陣A′視為相似矩陣，進一步應用層次聚類算法進行劃分得到最終聚類結(jié)果.

根據(jù)上述對算法過程的描述，本文設計了一種基于聚類質(zhì)量的兩階段集成算法（two stage ensemble algorithm based on clustering quality， TSEC），從全局角度考慮基聚類質(zhì)量，期望聚類準確度能有所提升.

算法1 TSEC算法.

輸入：數(shù)據(jù)集X，采樣率r%，簇數(shù)k，集成規(guī)模M;

輸出：聚類結(jié)果;

步驟1）利用K-means算法生成T個基聚類，將結(jié)果表示為N×T階矩陣D；

步驟2）對矩陣D隨機降采樣，取r%個樣本的聚類結(jié)果，構(gòu)成一個新的N×T階矩陣E；

步驟3）對矩陣E進行標簽重排，得到新矩陣F；

步驟4）基于矩陣F，根據(jù)式（1）和式（2）計算所有基聚類的質(zhì)量，從大到小排列后選擇前95%的基聚類作為基聚類池；

步驟5）從基聚類池中隨機取M個基聚類進行集成；

步驟6）根據(jù)式（3）和式（4）計算每個基聚類對集成的不確定性；

步驟7）根據(jù)式（5）計算每個基聚類在集成中的權(quán)重；

步驟8）根據(jù)式（7）得到改進的共協(xié)矩陣A′；

步驟9）應用層次聚類算法得到最終的集成聚類結(jié)果.

3 實驗結(jié)果與分析

為驗證本文算法的有效性，設計4組實驗. 第一組實驗為確定采樣率；第二組通過消融實驗驗證加入降采樣方法對最終結(jié)果的貢獻度；第三組實驗，將本文算法與7個集成聚類算法在3個指標上進行性能對比；最后測試本文算法對集成規(guī)模的魯棒性. 為保證實驗結(jié)果的公平、公正性，所有實驗均在Intel（R） Core（TM） i7-6700 CPU @3.40 GHz 3.41 GHz， Windows 10， MATLAB 2020a上完成.

3.1 數(shù)據(jù)集與評估準則

本文使用10個真實數(shù)據(jù)集進行實驗，分別是FCT（forest covertype），MF（multiple features），ODR（optical digit recognition），SPF（steel plates faults），LS（landsat），Semeion，USPS，ISOLET，PD（pen digit）和IS（image segmentation）. 除數(shù)據(jù)集USPS來自文獻［17］外，其他數(shù)據(jù)集均來自UCI機器學習庫，各數(shù)據(jù)集信息列于表1.

本文所有對比算法的基聚類池均由K-means算法在［2，N］內(nèi)變換簇數(shù)，生成100個基聚類構(gòu)成. 為證明本文算法的性能，采用標準互信息、調(diào)整蘭德系數(shù)（adjusted Rand index， ARI）和準確度（ACC）3個指標衡量聚類效果. 這3個指標值均為越接近1，則聚類效果越好.

3.2 TSEC算法采樣率的確定

分別設置3個不同采樣率（10%，30%，50%）考察采樣率大小對本文算法準確度和運行時間的影響，以證明加入降采樣的TSEC算法在生成階段設置采樣率為10%，通過隨機降采樣方法估計基聚類質(zhì)量的合理性. 對每個采樣率，設置算法的集成規(guī)模為20，記錄其運行30次的平均ACC值及運行時間，結(jié)果分別如圖1和圖2所示.

由圖1可見，對于在不同采樣率上的平均ACC值， TSEC算法只有在數(shù)據(jù)集FCT，SPF和IS上略有變化，在其余7個數(shù)據(jù)集上該算法的平均ACC值基本相等. 由圖2可見，算法運行時間隨著采樣率的增大而增大. 此外，數(shù)據(jù)量和維數(shù)的大小也會影響算法的運行效率. 綜合考慮算法在不同采樣率下的準確度和運行成本，本文選擇采樣率為10%.

3.3 消融實驗

為驗證加入降采樣方法對TSEC算法的貢獻度，本文設計一組消融實驗. 對比算法與本文算法的不同之處在于前者直接基于生成的基聚類集合計算基聚類質(zhì)量，未采用降采樣方法. 對比算法稱為不加降采樣方法，兩種算法均設置集成規(guī)模為20，運行30次后分析各自的平均ACC值及運行時間，結(jié)果均保留至小數(shù)點后4位. 由于兩種算法在不同數(shù)據(jù)集上運行時間的差異在于生成階段采用NGAM度量計算基聚類質(zhì)量這一部分，因此只記錄該部分的用時. 兩種算法在所有數(shù)據(jù)集上的實驗結(jié)果列于表2.

由表2可見，在FCT，ODR，LS和ISOLET 4個數(shù)據(jù)集上，加降采樣方法的ACC值略高于不加降采樣的方法. 其中，在FCT數(shù)據(jù)集上本文提出的加降采樣方法的準確度提高了2.43%. 在其余數(shù)據(jù)集上，兩種方法的ACC值幾乎相等，相差范圍在0.002～0.005. 但顯然加降采樣方法的運行速率更高效，在10個數(shù)據(jù)集上，運行效率提高了120%～750%. 特別是在數(shù)據(jù)集PD，USPS和ODR上，運行效率分別提高了748%，450%和574%. 因此，相比于不加降采樣的方法，本文提出的加降采樣的TSEC算法在保持準確度相當?shù)那闆r下可大幅度提速，突出了在生成階段對基聚類成員集合先隨機降采樣再去篩選基聚類的重要性.

3.4 集成規(guī)模的魯棒性分析

選擇數(shù)據(jù)集FCT，MF，ODR和LS測試TSEC算法與其他對比算法在不同集成規(guī)模下的魯棒性. 實驗設置集成規(guī)模為10～30，步長為5. 對每個數(shù)據(jù)集，所有算法在不同集成規(guī)模下各自運行30次，記錄平均NMI、平均ARI和平均ACC值，結(jié)果如圖3所示.

由圖3可見，當集成規(guī)模為20時， TSEC算法在數(shù)據(jù)集FCT，MF和ODR上的NMI值高于其他對比算法. 對5個集成規(guī)模， TSEC算法在數(shù)據(jù)集FCT，MF，LS上的ARI值均優(yōu)于對比算法. 其中，在數(shù)據(jù)集FCT上，當集成規(guī)模為20時， TSEC算法的ARI值達到最大. 對數(shù)據(jù)集MF， TSEC算法的ARI值在集成規(guī)模大于20后逐漸趨于平穩(wěn). 在數(shù)據(jù)集LS上， TSEC算法的ARI值隨著集成規(guī)模的增大而增大. 對于ACC值， TSEC算法在選用的4個數(shù)據(jù)集上的性能均優(yōu)于對比算法，且ACC值隨著集成規(guī)模的增加而逐漸趨于穩(wěn)定. 綜合TSEC算法在4個數(shù)據(jù)集上關(guān)于3個指標的性能，兼顧算法運行成本，本文選擇集成規(guī)模為20.

3.5 與其他集成聚類算法的對比實驗

為進一步驗證本文算法的有效性，將TSEC算法與其他7個先進的集成聚類算法進行對比實驗. 對比算法為3個圖聚類算法，分別是概率軌跡圖劃分（probability trajectory based graph partitioning， PTGP）算法、多粒度連接圖劃分（graph partitioning with multi-granularity link analysis， GPMGLA）算法和局部加權(quán)圖劃分（locally weighted graph partitioning， LWGP）算法，以及4個基于共協(xié)矩陣的算法，分別是證據(jù)累積聚類（EAC）、概率軌跡累積（probability trajectory accumulation， PTA）聚類、加權(quán)證據(jù)累積聚類（weighted evidence accumulation clustering， WEAC）和局部加權(quán)證據(jù)累積（locally weighted evidence accumulation， LWEA）聚類. 實驗設置所有算法的劃分數(shù)目均為數(shù)據(jù)集真實類數(shù)，集成規(guī)模為20. 記錄每種算法在不同數(shù)據(jù)集上運行30次的平均NMI、平均ARI和平均ACC值，結(jié)果分別列于表3～表5. 所有實驗結(jié)果均保留至小數(shù)點后4位.

由表3可見，與性能次優(yōu)的算法相比， TSEC算法在數(shù)據(jù)集FCT，MF，ODR，USPS和ISOLET上的NMI值都有小幅度提高，提高范圍為0.19%～2.12%. 在其余5個數(shù)據(jù)集上本文算法的性能略差，相比于性能最佳的算法， TSEC算法的NMI值落后范圍為0.8%～7.75%. 由表4可見， TSEC算法在FCT，MF，ODR，SPF，LS，USPS和ISOLET數(shù)據(jù)集上的ARI值性能較好. 特別是在數(shù)據(jù)集LS上，與性能次優(yōu)的PTA算法相比， TSEC算法的ARI值提高了5.31%. 由表5可見，與對比實驗相比， TSEC算法的ACC值總體上性能較好. 尤其是在數(shù)據(jù)集SPF上，相比性能次優(yōu)的LWGP算法， TSEC算法的ACC值提高了10.81%. 此外，與性能次優(yōu)的PTA算法相比， TSEC算法在數(shù)據(jù)集LS上的ACC值也提高了7.16%. 在數(shù)據(jù)集FCT，MF和USPS上，相比于性能次優(yōu)的算法， TSEC算法的ACC值分別提高了3.09%，2.65%和3.01%.

根據(jù)上述分析，雖然TSEC算法在數(shù)據(jù)集PD和IS上的NMI值和ARI值略遜于LWEA和LWGP算法，但效果相差較小. 此外，由表3～表5可見， PTA算法在多個數(shù)據(jù)集上性能良好，這可能是因為PTA算法通過連接可靠節(jié)點，在圖上根據(jù)概率軌跡隨機游走獲取全局結(jié)構(gòu)信息，有效提升了聚類性能. 因此， TSEC算法在3個指標上的聚類效果總體上相對較好.

綜上所述，針對當前集成聚類算法研究側(cè)重于集成策略的設計，在生成階段默認使用K-means算法生成基聚類成員，僅能確保多樣性，忽視了基聚類質(zhì)量對最終聚類結(jié)果影響的問題，本文提出了一種基于聚類質(zhì)量的兩階段集成算法，采用不同度量方法對集成聚類算法的兩個階段分別把控聚類質(zhì)量，得到一個精度和魯棒性都更好的聚類結(jié)果. 將本文算法與7個先進的集成聚類算法在10個數(shù)據(jù)集上進行對比實驗，實驗結(jié)果表明，本文算法可有效提高聚類準確度，并保持較好的魯棒性.

參考文獻

［1］ZOU Q， LIN G， JIANG X P， et al. Sequence Clustering in Bioinformatics： An Empirical Study ［J］. Briefings in Bioinformatics， 2020， 21（1）： 1-10.

［2］OTTO C， WANG D， JAIN A K. Clustering Millions of Faces by Identity [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 40（2）： 289-303.

［3］AGHABOZORGI S， SHIRKHORSHIDI A S， WAH T Y. Time-Series Clustering： A Decade Review [J]. Information Systems， 2015， 53： 16-38.

［4］OYELADE J， ISEWON I， OLADIPUPO O， et al. Data Clustering： Algorithms and Its Applications ［C］//2019 19th International Conference on Computational Science and Its Applications. Piscataway， NJ： IEEE， 2019： 71-81.

［5］GAN G J， MA C Q， WU J H. Data Clustering： Theory， Algorithms， and Applications [M]. Philadelphia： Society for Industrial and Applied Mathematics， 2020： 1-448.

［6］ZHOU Z H. Ensemble Methods： Foundations and Algorithms ［M］. New York： CRC Press， 2012： 135-155.

［7］HUANG D， WANG C D， WU J S， et al. Ultra-Scalable Spectral Clustering and Ensemble Clustering ［J］. IEEE Transactions on Knowledge and Data Engineering， 2019， 32（6）： 1212-1226.

［8］白璐，趙鑫，孔鈺婷，等. 譜聚類算法研究綜述 [J]. 計算機工程與應用， 2021， 57（14）： 15-26. （BAI L， ZHAO X， KONG Y T， et al. Survey of Spectral Clustering Algorithms [J]. Computer Engineering and Applications， 2021， 57（14）： 15-26.）

［9］尤坊州，白亮. 關(guān)鍵節(jié)點選擇的快速圖聚類算法［J］. 計算機科學與探索， 2021， 15（10）： 1930-1937. （YOU F Z， BAI L. Fast Graph Clustering Algorithm Based on Selection of Key Nodes ［J］. Journal of Frontiers of Computer Science and Technology， 2021， 15（10）： 1930-1937.）

［10］薛紅艷，錢雪忠，周世兵. 超簇加權(quán)的集成聚類算法［J］. 計算機科學與探索， 2021， 15（12）： 2362-2373. （XUE H Y， QIAN X Z， ZHOU S B. Ensemble Clustering Algorithm Based on Weighted Super Cluster ［J］. Journal of Frontiers of Computer Science and Technology， 2021， 15（12）： 2362-2373.）

［11］BREIMAN L. Random Forests ［J］. Machine Learning， 2001， 45（1）： 5-32.

［12］周志華，陳世福. 神經(jīng)網(wǎng)絡集成 [J]. 計算機學報， 2002， 25（1）： 1-8. （ZHOU Z H， CHEN S F. Neural Network Ensemble ［J］. Chinese Journal of Computers， 2002， 25（1）： 1-8.）

［13］TUMER K， GHOSH J. Linear and Order Statistics Combiners for Neural Pattern Classifiers ［EB/OL］. （1999-03-20）［2022-02-01］. https：//arxiv.org/abs/cs/9905012.

［14］FRED A L N， JAIN A K. Combining Multiple Clusterings Using Evidence Accumulation ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2005， 27（6）： 835-850.

［15］WANG X， YANG C Y， ZHOU J. Clustering Aggregation by Probability Accumulation ［J］. Pattern Recognition， 2009， 42（5）： 668-675.

［16］HUANG D， LAI J H， WANG C D. Combining Multiple Clusterings via Crowd Agreement Estimation and Multi-granularity Link Analysis ［J］. Neurocomputing， 2015， 170： 240-250.

［17］HUANG D， WANG C D， LAI J H. Locally Weighted Ensemble Clustering ［J］. IEEE Transactions on Cybernetics， 2017， 48（5）： 1460-1473.

［18］YI J F， YANG T B， JIN R， et al. Robust Ensemble Clustering by Matrix Completion ［C］//2012 IEEE 12th International Conference on Data Mining. Washington， D.C.： IEEE Computer Society， 2012： 1176-1181.

［19］ZHONG C M， HU L Y， YUE X D， et al. Ensemble Clustering Based on Evidence Extracted from the Co-association Matrix ［J］. Pattern Recognition， 2019， 92： 93-106.

［20］ZHOU J， ZHENG H C， PAN L L. Ensemble Clustering Based on Dense Representation ［J］. Neurocomputing， 2019， 357： 66-76.

［21］STREHL A， GHOSH J. Cluster Ensembles： A Knowledge Reuse Framework for Combining Multiple Partitions ［J］. Journal of Machine Learning Research， 2002， 3（12）： 583-617.

［22］FERN X Z， BRODLEY C E. Solving Cluster Ensemble Problems by Bipartite Graph Partitioning ［C］//Proceedings of the Twenty-First International Conference on Machine Learning. New York： Association for Computering Machinery， 2004： 36-1-36-8.

［23］HUANG D， LAI J H， WANG C D. Robust Ensemble Clustering Using Probability Trajectories ［J］. IEEE Transactions on Knowledge and Data Engineering， 2015， 28（5）： 1312-1326.

［24］LIU H F， LIU T L， WU J J， et al. Spectral Ensemble Clustering ［C］//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： Association for Computering Machinery， 2015： 715-724.

［25］LIANG Y N， REN Z G， WU Z Z， et al. Scalable Spectral Ensemble Clustering via Building Representative Co-association Matrix ［J］. Neurocomputing， 2020， 390： 158-167.

（責任編輯：韓嘯）

收稿日期： 2022-05-31.

第一作者簡介：閆晨（1997—），女，漢族，碩士，從事模式識別和數(shù)據(jù)挖掘分析的研究， E-mail： 2799702609@qq.com. 通信作者簡介：楊有龍（1967—），男，漢族，博士，教授，從事高維數(shù)據(jù)分析與應用的研究， E-mail： ylyang@mail.xidian.edu.cn.

基金項目：陜西省自然科學基礎研究計劃項目（批準號： 2021JM-133）.