劉金花 王洋 賀瀟磊
摘要:為了解決目前基于子空間的多視圖聚類模型存在的兩個(gè)問(wèn)題,即:只考慮各視圖間的互補(bǔ)信息或一致性來(lái)進(jìn)行聚類;通常采取兩步方式,提出了一種改進(jìn)的多樣性驅(qū)動(dòng)的多視圖子空間聚類算法。綜合利用各視圖的多樣性表示來(lái)獲得互補(bǔ)信息,同時(shí)通過(guò)引入概率單純形約束和秩約束從子空間系數(shù)矩陣中自動(dòng)學(xué)習(xí)用于聚類的共同親鄰圖和一致類簇指標(biāo)矩陣,以提高聚類性能。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)證明了所提方法的有效性和優(yōu)越性。
關(guān)鍵詞:子空間聚類;多視圖數(shù)據(jù);概率單純形約束;秩約束
中圖分類號(hào):TP312
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1006-8228(2020)09-91-04
Improved multi-view subspace clustering with diversify driven
Liu Jinhua1, Wang Yang2, He Xiaolei2
(1 Fenyang College of Shanxi Medical University, Fenyang, Shanxi 032200. China; 2 Nnrth Automatic Control Technology Institute)
Abstract: In order to solve the two problems existing in the current subspace based multi-view clustering model, i.e.. onlyconsidering the clustering of complementary information or consistency information from the multiple views; usually adopting two-step framework, an improved multi-view subspace clustering algorithm with diversity driven is proposed. It obtains complementaryinformation by using diversity representation of each view. meanwhile learns the common affinity matrix and class indicator matrixautomatically by introducing probabilistic simplex constraint and rank constraint. Experiments on real-world dataset have validatedthe effectiveness and superiority of the proposed method.
Key words: subspace clustering; multi-view data; probabilistic simplex constraint; rank constraint
0引言
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的采集方式和設(shè)備都發(fā)生了巨大變化,呈現(xiàn)出大量的多視圖數(shù)據(jù)。多視圖數(shù)據(jù)是對(duì)同一對(duì)象的不同視角的表征和描述[1],含有比單視圖數(shù)據(jù)更多樣的信息,在數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)等領(lǐng)域經(jīng)常出現(xiàn)。比如,同一段文本被不同的語(yǔ)言來(lái)表達(dá),同一張照片被不同的沒(méi)備采集和抓取。多視圖數(shù)據(jù)挖掘的主要挑戰(zhàn)就是如何在探索潛在一致結(jié)構(gòu)時(shí)綜合利用多樣的特征信息來(lái)完成類簇的劃分。
由于其有效性和理論保證,基于子空間聚類的方法成為了多視圖研究的主流。文獻(xiàn)[2]將子空間聚類擴(kuò)展到多視圖聚類任務(wù)中,通過(guò)學(xué)習(xí)共同的聚類結(jié)構(gòu)來(lái)增強(qiáng)多視圖之間的一致性。文獻(xiàn)[3]提出的DiMSC模型和文獻(xiàn)[4]提出的ECMSC模型,它們的主要思想是通過(guò)探索不同視圖的多樣性特征來(lái)提高聚類性能。文獻(xiàn)[5]將每個(gè)視圖的自表示系數(shù)矩陣分為一致性(低秩結(jié)構(gòu),由不同視圖共享)和特異性(表征每個(gè)視圖的固有差異),提出了一致性一特異性多視圖子空間聚類模型(CSMSC)。
盡管上面提到的模型已經(jīng)被證明具有很好的聚類性能,但由于采用兩步策略,給聚類性能造成一定的影響。為此,本文提出了一種改進(jìn)的多樣性驅(qū)動(dòng)的多視圖子空間聚類模型,該模型不僅利用學(xué)習(xí)到的各視圖的多樣性表示來(lái)獲得數(shù)據(jù)的互補(bǔ)信息,而且引入概率單純形約束和秩約束從子空間系數(shù)矩陣中自動(dòng)學(xué)習(xí)用于聚類的共同親鄰圖和一致類簇指標(biāo)矩陣,提高了聚類的性能。
1本文方法
1.1基礎(chǔ)模型
受文獻(xiàn)[5]的啟發(fā),我們使用的基礎(chǔ)模型如式(1),為避免各樣本由自己表示,增加了等式約束。
(1)
上述基礎(chǔ)模型在獲得了各視圖的潛在系數(shù)表示Z后,通過(guò)式(2)來(lái)獲得一致親鄰圖S。然而,這樣做會(huì)帶來(lái)兩個(gè)問(wèn)題:①完全忽略掉各視圖之間的一致信息;②通過(guò)絕對(duì)值操作強(qiáng)制使Z(v)中的負(fù)值變?yōu)檎?,?huì)破壞樣本之間固有的聯(lián)系。因此簡(jiǎn)單組合各視圖的潛在系數(shù)矩陣會(huì)得到一個(gè)質(zhì)量較差的親鄰圖,影響后續(xù)聚類性能。
s=
(2)
1.2一致親鄰圖與類簇標(biāo)識(shí)矩陣
為獲得一個(gè)有效的、能為各視圖共享的親鄰圖,受文獻(xiàn)[6]啟發(fā),我們采用自動(dòng)方式來(lái)學(xué)習(xí)一致親鄰圖S,并且引入概率單純形約束,使系數(shù)表示矩陣Z與親鄰圖中的元素都在同一范圍內(nèi)。
(3)
另外,為了使一致親鄰圖S有k個(gè)連通分量,我們對(duì)S的進(jìn)行了秩約束。根據(jù)文獻(xiàn)[7]中的理論,如果拉普拉斯矩陣滿足rank(L) =n-k,那么親鄰圖S恰好包含k個(gè)連通分量。又據(jù)文獻(xiàn)[8]的研究,rank(L)=n-k等價(jià)于=0,根據(jù)Ky Fan的理論[9],得到下式:
(4)其中F是類簇指標(biāo)矩陣,Ls為拉普拉斯矩陣,Ls=D-(S+ST)/2,D為對(duì)角矩陣,其第j個(gè)對(duì)角元素為。
綜合式(1)(3)(4)得到本文模型的目標(biāo)函數(shù),如公式(5):
(5)
目標(biāo)函數(shù)包含三部分,第一部分為視圖內(nèi)部的結(jié)構(gòu)學(xué)習(xí),其中第一項(xiàng)是自表示學(xué)習(xí)項(xiàng),第二項(xiàng)是流形學(xué)習(xí)項(xiàng);第二部分是視圖間多樣性學(xué)習(xí);第三部分用來(lái)學(xué)習(xí)各視圖的一致性親鄰圖S和類別一致指標(biāo)矩陣F,用于后續(xù)的聚類操作。
2優(yōu)化
利用交替方向乘子法(ADMM)優(yōu)化上述模型,引入輔助變量C(v),相應(yīng)的增廣拉格朗日函數(shù)如式(6)。其中Y(v)為拉格朗日乘子,u是懲罰因子。
(6)
2.1求解Z(v)-子問(wèn)題
只考慮變量Z而忽略其他變量,得到式(7)。
(7)
上述方程有閉形式的解。
(8)
(9)
公式(8)是典型的西爾韋斯特方程,存在唯一解Z(v)求得Z(v)后,據(jù)式(9)就可以得到Z(v)。
2.2 C-子問(wèn)題
通過(guò)求解下面的問(wèn)題,便可以對(duì)C進(jìn)行優(yōu)化
(10)
上述問(wèn)題可以通過(guò)算法1求得有效解。
2.3求解S-子問(wèn)題
通過(guò)求解下面的問(wèn)題,便可以對(duì)S進(jìn)行優(yōu)化。
(11)
引入輔助變量,那么式(11)等價(jià)于求解下式的最小值。
(12)
通過(guò)算法1可以得到公式(12)的惟一解。
2.4求解F-子問(wèn)題
通過(guò)求解下面的問(wèn)題,便可以對(duì)F進(jìn)行優(yōu)化。
O(F)=mintr(FTLsF)
s.t.FTF=I
(13)
F的優(yōu)化解為拉普拉斯矩陣Ls的k個(gè)最小的特征值對(duì)應(yīng)的特征向量(k為給定的類簇?cái)?shù))。
詳細(xì)的優(yōu)化過(guò)程如算法2所示。
3實(shí)驗(yàn)
3.1實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)
為了驗(yàn)證本文方法的有效性,在Caltech101-7,MSRC-v1、Reuters、BBCSport公開的多視圖數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。另外,通過(guò)準(zhǔn)確率(ACC),NMI和F-score三個(gè)通用的指標(biāo)來(lái)評(píng)價(jià)聚類性能。
3.2比較實(shí)驗(yàn)
將所提模型與現(xiàn)有的相關(guān)模型進(jìn)行比較,包括經(jīng)典的k-means算法、一個(gè)單視圖的子空間聚類方法(LRR)和三個(gè)多視圖的聚類方法(Co-Reg SPC、DiMSC、ECMSCC)。將k-means方法作為本文的基準(zhǔn)方法。具體地,我們使用k-means在每個(gè)視圖的數(shù)據(jù)上進(jìn)行聚類,并且挑選聚類性能最好的結(jié)果KM_best,另外,我們還將所有視圖的特征進(jìn)行拼接后,再用k-mean聚類,得到的聚類結(jié)果為KM_all。對(duì)于算法LRR,同樣也將各視圖的特征進(jìn)行拼接后,再在這些數(shù)據(jù)上執(zhí)行LRR聚類。對(duì)于各個(gè)對(duì)比模型,我們下載其作者公開的代碼,參數(shù)的設(shè)置都遵循相關(guān)論文中的建議。為了避免隨機(jī)初始化造成的誤差,我們?cè)诿總€(gè)數(shù)據(jù)集上都進(jìn)行30次重復(fù)實(shí)驗(yàn),然后取平均作為最后的聚類結(jié)果。表1-表3展示了各模型在公開數(shù)據(jù)集上的聚類準(zhǔn)確率、NMI和F-score值。
從上述表中可以看出本文所提模型除了在數(shù)據(jù)集Reuters我們的模型沒(méi)有達(dá)到應(yīng)有的效果,在其他三個(gè)數(shù)據(jù)集上均優(yōu)于其他的模型,需要重點(diǎn)觀察的是與本文模型最相關(guān)的DiMSC模型,我們的模型的三個(gè)評(píng)價(jià)指標(biāo)在三個(gè)數(shù)據(jù)集上都比DiMSC要高,這也很好的證明了通過(guò)自動(dòng)學(xué)習(xí)一致親鄰圖和類簇指標(biāo)矩陣可以有效提高子空間的聚類性能。另外,與模型ECMSC相比,因?yàn)樵撃P椭幸灿玫搅祟惔刂笜?biāo)一致項(xiàng),是直接用Z來(lái)代替親鄰圖進(jìn)行圖的秩約束,其本質(zhì)上還是使用了前面公式(2)來(lái)代替親鄰圖S,聚類性能還是受到了影響。
4總結(jié)
本文提出的模型結(jié)合了視圖內(nèi)部的結(jié)構(gòu)學(xué)習(xí)和視圖間的多樣性與一致性學(xué)習(xí)來(lái)提高聚類的性能。通過(guò)引入單純形概率約束和秩約束來(lái)自動(dòng)學(xué)習(xí)用于聚類任務(wù)的共同親鄰圖與類指標(biāo)矩陣,避免了兩步聚類策略帶來(lái)的次優(yōu)化問(wèn)題,在真實(shí)的數(shù)據(jù)集上實(shí)驗(yàn),驗(yàn)證了所提模型的有效性。但所提模型也存在一定的缺陷,如參數(shù)的調(diào)試很費(fèi)時(shí),實(shí)現(xiàn)一個(gè)無(wú)參的多視圖聚類模型是未來(lái)研究的重點(diǎn)。
參考文獻(xiàn)(References):
[1]何夢(mèng)嬌.基于非負(fù)矩陣分解的多視圖聚類研究[D],面南交通大學(xué),2017.
[2]Gao H,Nie F,Li X,et al.Multi-view Subspace Clustering[CI//IEEE International Conference on Computer Vision.IEEE.2015.
[3]X. Cao,C.Zhang,H.Fu,S.Liu,H.Zhang, Diversity-induced multi-view subspace clustering[C], in: Proceed-ings of the IEEE Conference on Computer Vision andPattern Recognition,2015:586-594
[4] X. Wang, Z. Lei, X. Guo, C. Zhang, H. Shi, S.Z. Li, Multi-view subspace clustering with intactness-aware similari-ty[J].Pattern Recognit, 2019.88: 50-63
[5]S. Luo, C. Zhang, W. Zhang, and X. Cao, Consistent andspecificmultiview subspace clustering[C], in Proc. Int.30th AAAI Conf. Artif. Intell.,2018:3730-3737
[6] X. Zhu, S. Zhang, R. Hu, W. He, C. Lei, P. Zhu, One-stepmulti-view spectral clustering[J], IEEE Trans. Knowl.Data Eng,2018.31:2022-2034
[7] F. Nie, X. Wang, H. Huang, Clustering and projectedclustering with adaptive neighbors[C], in: Proceedingsof the 20th ACM SIGKDD International Conferenceon Knowledge DiscoveW and Data Mining, ACM,2014:977-986
[8] K. Zhan, C. Niu, C. Chen, F. Nie, C. Zhang, Y. Yang,Graph structure fusion for multiview clustering[J].IEEETrans. Knowl. Data Eng,2018.31:1984-1993
[9] K. Fan, On a theorem of weyl concerning eigenvalues oflinear transformations[Cl. in, Proc. Natl. Acad. Sci,1949.35(11):652-655
收稿日期:2020-05-22
*基金項(xiàng)目:山西醫(yī)科大學(xué)汾陽(yáng)學(xué)院人才引進(jìn)啟動(dòng)基金(2018D06)
作者簡(jiǎn)介:劉金花(1987-),女,山西省汾陽(yáng)人,碩士,講師,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。