何雪梅
摘 要:在大數(shù)據(jù)時代,數(shù)據(jù)是由不同來源生成的,或者是從不同視圖中觀察得到的,這些數(shù)據(jù)被稱為多視圖數(shù)據(jù)。在數(shù)據(jù)挖掘與分析中,充分發(fā)揮知識在多視圖數(shù)據(jù)中的作用是非常重要的,因此需要在融合相關(guān)數(shù)據(jù)的同時,考慮不同視圖的多樣性。近年來,多視圖聚類(MvC)受到越來越多學者關(guān)注,根據(jù)其涉及的機制和原則,將多視圖聚類算法分為5類,即協(xié)同訓練算法、多核學習、多視圖聚類、多視圖子空間聚類與多任務(wù)多視圖聚類。對多視圖聚類算法進行介紹,并重點介紹了協(xié)同訓練算法與多核學習。
關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析;多視圖聚類;協(xié)同訓練;多核學習
DOI:10. 11907/rjdk. 182831
中圖分類號:TP312文獻標識碼:A文章編號:1672-7800(2019)004-0079-03
0 引言
在如今信息爆炸的時代,數(shù)據(jù)量也不斷增加。在眾多數(shù)據(jù)中,如何找出其中的有用信息成為人們關(guān)注的重點。數(shù)據(jù)挖掘技術(shù)作為大數(shù)據(jù)處理及信息挖掘的重要手段,已得到了廣泛應(yīng)用。聚類分析[1]是根據(jù)數(shù)據(jù)對象間的關(guān)系將集合分割成多個簇(Cluster)的過程,并將距離近的數(shù)據(jù)對象劃分到同一個簇中,將距離遠的數(shù)據(jù)對象劃分到不同簇。因此,可以通過相似性對數(shù)據(jù)進行劃分,得到更為準確的聚類結(jié)果。如果從機器學習層面進行解釋,聚類分析是一種無監(jiān)督學習 (Unsupervised Learning)方法,可以對標簽信息未知的數(shù)據(jù)進行聚類等操作,從而提取出有用信息。
隨著如今對數(shù)據(jù)信息化的要求越來越高,僅從單一視圖描述數(shù)據(jù)已無法得到預(yù)期效果,因此多視圖數(shù)據(jù)(Multi-view Data)聚類問題成為學者們的研究重點。聚類由一個視圖組成的數(shù)據(jù)稱為單視圖聚類(Single-view Clustering),而多視圖聚類(Multi-view Clustering)則是用聚類方法處理多視圖數(shù)據(jù)。隨著網(wǎng)絡(luò)信息化的快速發(fā)展,越來越多的多視圖數(shù)據(jù)在實際中得到應(yīng)用。例如:對于同一種數(shù)據(jù),可以根據(jù)該數(shù)據(jù)的不同特征進行劃分,每種特征代表一種視圖數(shù)據(jù);對于網(wǎng)頁大數(shù)據(jù),可通過文本或網(wǎng)頁鏈接的形式獲取數(shù)據(jù),從而構(gòu)成兩個視圖的多視圖數(shù)據(jù)。已有聚類算法通常僅適用于單視圖數(shù)據(jù),因此本文在傳統(tǒng)算法基礎(chǔ)上進行擴展,得到多視圖聚類算法,即從多個視圖出發(fā),充分利用視圖內(nèi)與視圖間的關(guān)系,不僅分析視圖間的一致性,也分析視圖間的差異性,從而充分運用多視圖中的所有有效信息,使聚類結(jié)果更加準確。
1 多視圖聚類
過去幾十年來,研究者們已提出許多先進的聚類算法。雖然這些聚類算法在某種程度上已非常成功,但其中大部分算法僅適用于單視圖數(shù)據(jù)。即使將所有視圖連接成一個視圖,然后在該單一視圖上采用最先進的聚類算法,也無法提高聚類性能,因為每個視圖都具有其特定的統(tǒng)計特性,所以該方式在物理上沒有意義。相比之下,多視圖聚類(Multi view Clusteing,MvC)通過考慮不同視圖的多樣性和互補性,可有效處理多視圖數(shù)據(jù)。作為一種先進的聚類模式,MvC近年來受到越來越多學者關(guān)注。
由于多視圖數(shù)據(jù)不同視圖間既具有內(nèi)在聯(lián)系又存在差異,因此充分、合理地利用多視圖數(shù)據(jù)中的信息是提升多視角學習性能的關(guān)鍵。為了更好地挖掘出其中的信息,多視圖算法一般需遵循兩個原則[2]:一致性原則和互補性原則。本文根據(jù)多視圖聚類算法原則將其分為5類,即協(xié)同訓練算法、多內(nèi)核學習、多視圖圖形聚類、多視圖子空間聚類、多任務(wù)多視圖聚類。
1.1 協(xié)同訓練
在多視圖協(xié)商一致的情況下,本文研究了協(xié)同訓練算法。該方法旨在最大限度地擴展所有觀點的相互協(xié)議,并達成最廣泛的共識。協(xié)同訓練算法一般過程如圖1所示,根據(jù)該過程對算法進行交替訓練,利用先驗信息或相互學習知識,使兩種不同視圖的一致性最大化。
在無監(jiān)督學習中,Bickel&Scheffer[3]首次利用協(xié)同訓練思想研究了MvC,并提出兩種用于文本數(shù)據(jù)的MvC算法。一種是多視圖EM算法,其在視圖之間交替工作,另一種是受協(xié)同訓練啟發(fā)的凝聚算法。最后得出結(jié)論,多視圖EM算法顯著優(yōu)于單視圖算法,但凝聚算法會導致負面結(jié)果;Tzortzis&Likas[4]提出一種加權(quán)多視圖凸混合模型,該模型通過EM自動為視圖分配權(quán)重;Kumar等[5]進一步提出用于多視圖譜聚類的共規(guī)則化方法;文獻[6]中提出一種適用于MvC的共正則化概率潛語義分析(PLSA)模型。其核心思想是,一個視圖主題空間中的樣本相似性應(yīng)與另一個視圖一致;為了解決視圖之間部分映射(即不完整視圖)的挑戰(zhàn),文獻[7]、[8]研究了具有成對約束傳播的CO-EM多視圖約束聚類,即使用CO-EM迭代估計每個視圖中的傳播,跨視圖傳遞給定的成對約束,更新聚類模型,最后學習所有視圖的統(tǒng)一聚類結(jié)果。
此外,部分學者還研究了基于共聚類的MvC。例如,Meng等 [9]提出一種異構(gòu)數(shù)據(jù)協(xié)同聚類方法,其不僅可以將融合從兩個視圖擴展到多個視圖,還可以對多個數(shù)據(jù)源特征進行加權(quán)。在矩陣分解的基礎(chǔ)上,Sun等[10]提出一種近端交替線性最小化算法,該算法可以同時將多個數(shù)據(jù)矩陣分解為稀疏的行和列向量,并使用二進制向量鏈接不同數(shù)據(jù)視圖,其中二進制向量可強制保持所有視圖行簇的一致性。
1.2 多核學習
最初開發(fā)多核學習是為了提高可能的內(nèi)核函數(shù)[11](例如:線性內(nèi)核、多項式內(nèi)核及高斯內(nèi)核)的搜索空間容量,以實現(xiàn)良好的泛化性。由于多核學習中的內(nèi)核自然對應(yīng)于不同視圖,因此多核學習被廣泛應(yīng)用于處理多視圖數(shù)據(jù)。多核學習方法一般過程如圖2所示,其中使用不同的預(yù)定義內(nèi)核處理不同視圖,然后將其進行內(nèi)核線性或非線性組合,以便得到一個統(tǒng)一內(nèi)核。在MvC設(shè)置中,基于多核學習的MvC希望能最優(yōu)地組合一組預(yù)定義內(nèi)核,以便提高聚類性能。在該方法中,一個基本問題是找到一種方法以選擇合適的核函數(shù),并將這些核采用最優(yōu)方式組合起來。
在單視圖場景中,Zhao等[12]提出一種基于最大邊緣聚類的多核聚類算法,該算法可以同時找到最大邊緣超平面、最佳聚類和最優(yōu)核;Du等[13]提出一種多核k均值算法,該算法能夠同時找到最優(yōu)聚類標簽、聚類隸屬度和多核最優(yōu)組合。值得強調(diào)的是,上述算法可以在圖4所示框架下處理多視圖數(shù)據(jù)。在多視圖場景中,De Sa等[14]構(gòu)建了一種基于最小分歧算法的自定義核組合方法,其生成了一個多分圖以誘導內(nèi)核,然后將其用于譜聚類。該方法實際上可看作核正則相關(guān)分析的變體,是共聚類與譜聚類的推廣。此外,Yu等[15]將經(jīng)典的K均值聚類擴展到Hilbert空間,將多視圖數(shù)據(jù)矩陣表示為核矩陣,然后將其自動組合后進行數(shù)據(jù)融合。
通過考慮視圖間的差異,部分學者還研究了具有內(nèi)核加權(quán)組合的方法。例如,文獻[16]提出一種系統(tǒng)化的MvC方法,可通過優(yōu)化過程自動分配權(quán)重,導出每個視圖上的核矩陣,其中核矩陣學習基于核對齊,以測量兩個核矩陣之間的相似度。此外,Liu等[17]展示了一種基于矩陣誘導正則化的加權(quán)多核K-means聚類方法,可以減少冗余核并增強預(yù)定核的多樣性;Zhao等 [18]提出一種基于改進變權(quán)高斯核的加權(quán)MvC算法。
然而,在許多應(yīng)用程序中,一些視圖上的數(shù)據(jù)不可用或僅部分可用的情況是十分常見的,從而導致不完整的多視圖數(shù)據(jù)。為解決該問題,Trivedi等[19]提出一種通用方法,允許MvC在完整視圖設(shè)置下適用于該場景,在該場景中只有一個視圖是完整的,而輔助視圖不完整,并以基于內(nèi)核CCA的MvC為例進行說明;De Sa等提出一種基于最小分岐算法,可以計算具有缺失視圖的樣本關(guān)系;在缺乏完整視圖的環(huán)境中,Shao等[20]提出一個集體核學習算法,以推斷隱藏樣本的相似性。
1.3 多視圖圖聚類
圖形(或網(wǎng)絡(luò))廣泛用于表示對象之間的關(guān)系,其中每個節(jié)點都與數(shù)據(jù)對象相對應(yīng),并且每個邊描繪一對對象之間的關(guān)系。在實踐中,該關(guān)系通常用相似性或親緣關(guān)系表示,即輸入圖矩陣是由數(shù)據(jù)相似性矩陣生成的。在多視圖場景中,數(shù)據(jù)對象由多個圖進行捕獲。一個常見假設(shè)是每個單獨的圖可以捕獲數(shù)據(jù)部分信息,而所有圖形都具有相同的基礎(chǔ)數(shù)據(jù)聚類結(jié)構(gòu)。因此,這些圖可以通過合并數(shù)據(jù)對象之間的關(guān)系以相互增強。多視圖圖聚類的目的是在所有視圖中找到一個融合圖,然后在融合圖上應(yīng)用圖形切割算法或其它技術(shù)(如譜聚類[21]),產(chǎn)生最終的聚類結(jié)果。
1.4 多視圖子空間聚類
多視圖子空間聚類[22]是對所有視圖數(shù)據(jù),從多個子空間或潛在空間學習一種新的、統(tǒng)一的表示,使其在建立聚類模型時更容易處理高維數(shù)據(jù)。在MvC領(lǐng)域,多視圖子空間聚類已成為一個熱門話題。多視圖子空間聚類通過以下兩種方式獲得統(tǒng)一的特征表示:①直接從多個子空間中獲取單一表示;②首先學習一個潛在空間,然后到達該統(tǒng)一表示。最后,這種統(tǒng)一表示被輸入到現(xiàn)成的聚類模型中,以產(chǎn)生聚類結(jié)果。
1.5 多任務(wù)多視圖聚類
如上文所述,MvC利用不同視圖之間的一致性和互補性以實現(xiàn)更好的聚類質(zhì)量。多任務(wù)聚類(屬于多任務(wù)學習領(lǐng)域[23])一起執(zhí)行多個相關(guān)任務(wù),并利用這些任務(wù)之間的關(guān)系增強單視圖數(shù)據(jù)的聚類性能。通過繼承MvC和多任務(wù)聚類的屬性,多任務(wù)多視圖聚類(Multi-task Multi-View Clustering,M2vC)通過一個或多個任務(wù)處理單個視圖數(shù)據(jù)。M2vC的主要挑戰(zhàn)包括在每個視圖上找到一種任務(wù)內(nèi)聚類建模方法,以及一種利用多任務(wù)與多視圖關(guān)系的方法,同時對任務(wù)間的知識進行相互傳遞。
2 結(jié)語
雖然MvC是在2003年左右提出的,但尚無一個統(tǒng)一標準決定在所有聚類算法中,哪種算法最優(yōu),因為不同方法有其各自的優(yōu)缺點。協(xié)同訓練算法可通過交換信息以交互式地增強不同視圖聚類。然而,當視圖數(shù)量大于3時,這些數(shù)據(jù)很難進行處理;基于核的MvC繼承了內(nèi)核的優(yōu)點,但同時也帶來了較高的計算復雜度;多視圖圖聚類引入譜圖理論,并依賴于構(gòu)造的相似性矩陣;多視圖子空間聚類方法具有直觀的可解釋性與初始化依賴性;多任務(wù)多視圖繼承了多任務(wù)聚類與多視圖聚類的特性,但其仍然處于起步階段。
目前對MvC的研究已成為熱點,但其仍面臨以下問題和挑戰(zhàn):①視圖正確性。找到一種判斷視圖是否正確的方法對于MVC而言是至關(guān)重要的,因此為了確保MvC的有效性,必須在很大程度上解決該問題;②不完整MvC的問題。在現(xiàn)實生活中,數(shù)據(jù)丟失的情況頻繁發(fā)生,而對于不完整MvC的研究還不多見,未來將對不完整MvC作進一步研究。
參考文獻:
[1] 曹凱迪. 聚類分析綜述[J]. 智慧健康,2016(10):50-53.
[2] AGGARWAL C C,REDDY C K. Data clustering : algorithms and applications[M]. Data Clustering: Algorithms and Applications. Chapman & Hall/CRC, 2013.
[3] BICKEL S,SCHEFFER T. Multi-view clustering[C]. IEEE International Conference on Data Mining,2004.
[4] TZORTZIS G F,LIKAS A C. Multiple view clustering using a weighted combination of exemplar-based mixture models[J]. IEEE Transactions on Neural Networks, 2010, 21(12):1925-1938.
[5] KUMAR A,RAI P,DAUMé III H. Co-regularized multi-view spectral clustering[C]. Proceedings of the 24th International Conference on Neural Information Processing Systems, 2011.
[6] JIANG Y,LIU J,LI Z,et al. Co-regularized PLSA for multi-view clustering[C]. Asian Conference on Computer Vision, 2012.
[7] EATON E,DESJARDINS M,JACOB S. Multi-view clustering with constraint propagation for learning with an incomplete mapping between views[C]. Toronto:Proceedings of the 19th ACM Conference on Information and Knowledge Management,2010.
[8] EATON E,DESJARDINS M,JACOB S. Multi-view constrained clustering with an incomplete mapping between views[J].? Knowledge and Information Systems,2014,38(1):231-257.
[9] MENG L,TAN A H,XU D. Semi-supervised heterogeneous fusion for multimedia data co-clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(9):2293-2306.
[10] SUN J W,LU J,XU T Y,et al.Multi-view sparse co-clustering via proximal alternating linearized minimization[C]. Proceedings 32nd International Conference Machine Learning, Lille, France, 2015:757-766.
[11] 張佩瑞,楊燕,邢煥來,等. 多核學習的多視圖增量聚類模型研究[D]. 成都:西南交通大學,2017.
[12] ZHAO B,KWOK J T,ZHANG C S. Multiple kernel clustering[C]. Proceedings 2009 SIAM International Conference on Data Mining, 2009:638-649.
[13] DU L, ZHOU P, SHI L,et al. Robust multiple kernel K-means using 2;1-norm[C]. International Conference on Artificial Intelligence,2015:3476-3482.
[14] SA V R, GALLAGHER P W, LEWIS J M,et al. Multi-view kernel construction[J]. Machine Learning,2010,79(1):47-71.
[15] YU S, TRANCHEVENT L C, LIU X, et al. Optimized data fusion for kernel K-means clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(5):1031-1039.
[16] LU Y,WANG L,LU J, et al. Multiple kernel clustering based on centered kernel alignment[J]. Pattern Recognition, 2014, 47(11):3656-3664.
[17] LIU X,DOU Y,YIN J,et al. Multiple kernel k-means clustering with matrix-induced regularization[C]. Thirtieth AAAI Conference on Artificial Intelligence. AAAI Press, 2016.
[18] ZHAO Y,DOU Y,LIU X, et al. A novel multi-view clustering method via low-rank and matrix-induced regularization[J]. Neurocomputing,2016,216:342-350.
[19] TRIVEDI A,RAI P,DAUM'E H,et al. Multiview clustering with incomplete views[C].? Whistler:Proceedings of Workshop on Machine Learning for Social Computing,2010.
[20] SHAO W,SHI X,YU P S.? Clustering on multiple incomplete datasets via collective kernel learning[C]. Proceedings 13th International Conference Data Mining,2013:1181-1186.
[21] 陳新泉,周靈晶,劉耀中. 聚類算法研究綜述[J]. 集成技術(shù),2017,3(6):41-49.
[22] YAN Y,WANG H. Multi-view clustering: a survey[J]. Big Data Mining and Analytics, 2018(2):83-107.
[23] CARUANA R. Multitask learning[J]. Machine Learning,1997, 28(1):41-75.
(責任編輯:黃 ?。?/p>