王麗娟,邢津萍,尹明,郝志峰,蔡瑞初,溫雯
(1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510006;2.廣東工業(yè)大學(xué)自動(dòng)化學(xué)院,廣東 廣州 510006;3.汕頭大學(xué),廣東 汕頭 515063)
多視角數(shù)據(jù)描述了同一事物在不同視角下的多種數(shù)據(jù)信息。比如:一個(gè)新聞往往以文字、視頻、圖片等不同的形式出現(xiàn),一張照片中的景色往往以不同的角度進(jìn)行拍攝。這些視角的形式、內(nèi)容通常不同。因此,探索同一對(duì)象在每個(gè)視角內(nèi)部隱含的一致性信息是一個(gè)極具挑戰(zhàn)的問(wèn)題。多視角聚類(lèi)是一個(gè)有效的數(shù)據(jù)挖掘算法。其聚類(lèi)性能依賴(lài)于多視角數(shù)據(jù)一致性信息的發(fā)現(xiàn)程度。傳統(tǒng)的單視角聚類(lèi)算法,如文獻(xiàn)[1-3]只能依次處理每一個(gè)視角,這樣做可能會(huì)割裂數(shù)據(jù)內(nèi)部一致性,無(wú)法有效提取多視角內(nèi)部信息。目前,多視角聚類(lèi)方法大致可分為基于子空間[4-6]、基于非負(fù)矩陣分解[7-8]、基于圖[9-10]3 種聚類(lèi)方法?;谧涌臻g的多視角聚類(lèi)方法從多個(gè)子空間或者潛在空間中學(xué)習(xí)所有視角數(shù)據(jù)新的統(tǒng)一表示,以便在構(gòu)建聚類(lèi)模型時(shí)更容易處理高維多視角數(shù)據(jù)。文獻(xiàn)[11]提出一個(gè)協(xié)同訓(xùn)練框架下的多視角子空間聚類(lèi),利用在一個(gè)視角下自動(dòng)學(xué)習(xí)的標(biāo)簽來(lái)輔助另一個(gè)視角下判別性子空間的生成?;诜秦?fù)矩陣分解的多視角聚類(lèi)算法利用非負(fù)矩陣分解對(duì)原始數(shù)據(jù)進(jìn)行降維處理,獲得的低維數(shù)據(jù)特征有利于學(xué)習(xí)數(shù)據(jù)的潛在特征。文獻(xiàn)[12]提出一個(gè)將非負(fù)特征分解用于數(shù)據(jù)并將數(shù)據(jù)進(jìn)行融合,制定了一個(gè)帶有歸一化策略的聯(lián)合矩陣分解?;趫D的多視角聚類(lèi)方法利用樣本之間的加權(quán)無(wú)向圖來(lái)表示樣本之間的關(guān)系。這一類(lèi)方法通常假設(shè)每個(gè)單獨(dú)的視角都可以捕獲數(shù)據(jù)的部分信息,同時(shí)所有的樣本關(guān)系圖都具有相同的潛在一致性數(shù)據(jù)信息。文獻(xiàn)[13]提出一個(gè)共同正則化多視角譜聚類(lèi)方法,在學(xué)習(xí)共享特征向量的同時(shí)減小多個(gè)視角之間的差異,保持多個(gè)視角之間具有一致性。文獻(xiàn)[14]提出學(xué)習(xí)多個(gè)視角間的相似度矩陣,學(xué)習(xí)得到一個(gè)一致性的聯(lián)通分量的方法。但是,以上這些方法在獲取視角間一致性信息時(shí)忽略了視角的多樣性和重要性排序,平等對(duì)待每個(gè)視角會(huì)受到冗余視角的干擾,無(wú)法提取多視角數(shù)據(jù)內(nèi)隱含的一致性信息,降低了聚類(lèi)性能。
本文提出一個(gè)基于一致性圖的權(quán)重自適應(yīng)多視角譜聚類(lèi)算法(WGSC)。首先引入自適應(yīng)的視角權(quán)重,使得不同視角發(fā)揮不同作用,自適應(yīng)調(diào)節(jié)加權(quán)視角權(quán)重,學(xué)習(xí)真實(shí)的一致性共享相似度矩陣。其次學(xué)習(xí)具有多樣性的特征嵌入,建立特征嵌入與樣本嵌入的二部圖,實(shí)現(xiàn)特征嵌入和樣本嵌入之間的特征遷移,最大化兩者間的一致性。最后分別將共享相似度矩陣、特征嵌入同樣本嵌入聯(lián)合優(yōu)化,以此提高樣本嵌入的一致性。
傳統(tǒng)的機(jī)器學(xué)習(xí)通常需要使用同分布假設(shè)的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,然而在實(shí)際過(guò)程中不同數(shù)據(jù)集可能存在一些問(wèn)題,比如數(shù)據(jù)分布差異、標(biāo)注數(shù)據(jù)過(guò)期和訓(xùn)練數(shù)據(jù)過(guò)期等問(wèn)題。為了充分利用標(biāo)簽數(shù)據(jù),保證新任務(wù)上的模型精度,遷移學(xué)習(xí)應(yīng)運(yùn)而生。遷移學(xué)習(xí)利用輔助數(shù)據(jù)集來(lái)提高目標(biāo)數(shù)據(jù)集的學(xué)習(xí)性能,其目的是獲取源域和學(xué)習(xí)任務(wù)中的知識(shí),以幫助提升目標(biāo)域中的預(yù)測(cè)函數(shù)的學(xué)習(xí)。
對(duì)于該思想在聚類(lèi)問(wèn)題中的應(yīng)用,文獻(xiàn)[15]提出自我學(xué)習(xí)聚類(lèi)(STC),在大量無(wú)標(biāo)簽輔助數(shù)據(jù)的幫助下對(duì)目標(biāo)數(shù)據(jù)進(jìn)行聚類(lèi)。STC 擴(kuò)展了基于信息理論的協(xié)同聚類(lèi)算法[16],假設(shè)目標(biāo)數(shù)據(jù)集和輔助數(shù)據(jù)集共享相同的特征聚類(lèi)。遷移譜聚類(lèi)(TSC)[17]在此基礎(chǔ)之上提出了一種基于類(lèi)似假設(shè)的方法。與基于信息理論的STC 不同,TSC 在建立圖的基礎(chǔ)上對(duì)任務(wù)進(jìn)行聚類(lèi)。在TSC 的基礎(chǔ)上,本文將兩個(gè)視角延伸到多個(gè)視角并改善了只能建立相同特征數(shù)視角的二部圖約束,即便特征數(shù)不同的視角也能建立二部圖,實(shí)現(xiàn)多視角數(shù)據(jù)中樣本嵌入和特征嵌入之間的遷移學(xué)習(xí)。
在文獻(xiàn)[13]提出的協(xié)同訓(xùn)練和協(xié)同聚類(lèi)基礎(chǔ)上,文獻(xiàn)[18-19]提出了多種不同的多視角聚類(lèi)算法。但是這些算法都忽略了不同視角之間的權(quán)重和樣本關(guān)系學(xué)習(xí)的問(wèn)題。文獻(xiàn)[14]提出了基于圖學(xué)習(xí)的多視角聚類(lèi)算法,該算法給出了權(quán)重參數(shù),使得不同視角信息具備不同重要性。但是這種算法忽略了權(quán)重因子非負(fù)的問(wèn)題,因?yàn)橐粋€(gè)非負(fù)的歸一化權(quán)重能夠減少某一個(gè)視角完全決定整個(gè)算法的情況,使得視角參數(shù)更加可靠。因此,文獻(xiàn)[20]提出一種可擴(kuò)展的多視角聚類(lèi)方法,該方法給每個(gè)視角分配非負(fù)的權(quán)重,從而避免了因某一視角權(quán)重過(guò)大而決定整體結(jié)果。受到該方法的啟發(fā),本文提出視角權(quán)重向量,視角權(quán)重由相似度矩陣和共享相似度矩陣之間的差異自適應(yīng)調(diào)節(jié),無(wú)須再手動(dòng)調(diào)節(jié)視角權(quán)重參數(shù)。通過(guò)最小化兩者之間的差異,促使共享相似度矩陣最大化學(xué)習(xí)視角間的一致性信息。但是,多視角數(shù)據(jù)樣本的信息尚未得到充分利用,為此本文充分學(xué)習(xí)樣本的特征,建立特征嵌入與樣本嵌入的聯(lián)系,將特征嵌入的多樣性特征轉(zhuǎn)化為有利于樣本嵌入的一致性表達(dá),實(shí)現(xiàn)信息的遷移。
對(duì)于具有nv個(gè)視角的多視角數(shù)據(jù)樣本X={X1,X2,…,Xnv},其中,Xv∈Rd×n表示第v個(gè)視角下的樣本數(shù)據(jù),d表示的是對(duì)應(yīng)視角下的特征維度,n是樣本點(diǎn)的個(gè)數(shù)。特征嵌入F∈Rn×c,c表示聚類(lèi)的個(gè)數(shù)?!琗‖2,1表示2,1 范數(shù),表示2 范數(shù)的平方,表示Frobenis 范數(shù)的平方。
相似度矩陣的初始化通常采用高斯核全連接的方式構(gòu)造相似度矩陣,本文采用式(1)分別初始化每個(gè)視角v的相似度矩陣Sv。該式利用樣本點(diǎn)之間的距離計(jì)算兩者之間的相似度sij,并對(duì)相似度矩陣施加范數(shù)約束,避免某一個(gè)樣本點(diǎn)對(duì)應(yīng)的相似度向量si中存在只有一個(gè)非零值的情況。
其中:εs是調(diào)節(jié)相似度矩陣的正則化參數(shù)。
WGSC 算法整體流程如圖1 所示,首先構(gòu)建每個(gè)視角的相似度矩陣并初始化其對(duì)應(yīng)的視角權(quán)重,對(duì)兩者進(jìn)行加權(quán)求和,最小化共享的相似度矩陣G和多個(gè)視角相似度矩陣Sv之間的差異,以此獲得所有視角的一致性表達(dá)。其次學(xué)習(xí)每個(gè)視角特征嵌入Av并建立與共享樣本嵌入F的二部圖,遷移多樣性數(shù)據(jù)于樣本嵌入和特征嵌入之間,同時(shí)最大化特征嵌入與樣本嵌入間的一致性約束,實(shí)現(xiàn)多個(gè)視角間的多樣性信息轉(zhuǎn)化為一致性信息。最終以樣本嵌入為中間樞紐站,整合共享相似度矩陣、樣本嵌入和特征嵌入的統(tǒng)一學(xué)習(xí)框架。該框架可分為兩個(gè)部分:一是本文方法的核心,樣本嵌入F的學(xué)習(xí)是從特征嵌入Av和共享相似度矩陣G中學(xué)習(xí)一致性和多樣性信息,提高樣本嵌入的一致性;二是為了充分利用原始數(shù)據(jù)信息,學(xué)習(xí)共享相似度矩陣G得到一致性樣本關(guān)系和遷移特征嵌入的多樣性信息。通過(guò)相似度矩陣Sv和視角權(quán)重αv的結(jié)合學(xué)習(xí),篩選更優(yōu)的視角,減少不重要信息的干擾,得到一致性相似度矩陣G。從特征嵌入的多樣性信息中學(xué)習(xí)能夠補(bǔ)充單一地學(xué)習(xí)樣本關(guān)系的不足,學(xué)習(xí)到的多樣性特征信息能夠提供更多多視角間的一致性信息,兩者相輔相成最終獲得更好的多視角聚類(lèi)結(jié)果。
圖1 WGSC 算法流程Fig.1 Procedure of WGSC algorithm
傳統(tǒng)的譜聚類(lèi)通常預(yù)先計(jì)算樣本點(diǎn)之間的距離得到相似度矩陣。但是,在多視角聚類(lèi)中,直接對(duì)每個(gè)視角的相似度矩陣做聚類(lèi)難以保證多個(gè)視角之間的一致性。為了解決這個(gè)問(wèn)題,提出學(xué)習(xí)視角間共享的相似度矩陣。本文方法賦值相似度矩陣對(duì)應(yīng)的視角權(quán)重并對(duì)其加權(quán)求和,通過(guò)Frobenis 范數(shù)約束減少加權(quán)后的相似度矩陣與共享相似度矩陣的差值,得到具有多個(gè)視角間一致性樣本關(guān)系的共享相似度矩陣。視角權(quán)重的自適應(yīng)調(diào)節(jié)數(shù)值由相似度矩陣與共享相似度矩陣之間的差異決定,如果差異過(guò)大會(huì)減少視角權(quán)重的值,從而提高更優(yōu)視角的權(quán)重。參數(shù)權(quán)重的引入打破了每個(gè)視角之間的平等性,對(duì)所含信息重要性差異化的多個(gè)視角進(jìn)行排序,降低了次優(yōu)視角的權(quán)重,最小化了每個(gè)視角相似度矩陣與共享相似度矩陣的差異,優(yōu)化了共享相似度矩陣的一致性學(xué)習(xí)。最后得到共享的相似度矩陣G:
其中:αv為視角權(quán)重;Sv為相似度矩陣;G為共享相似度矩陣。
在聚類(lèi)中,同一類(lèi)中的樣本往往有相似的特征分布,并且特征的相似度越高,屬于同一類(lèi)的概率也越大[21]。本文方法利用遷移學(xué)習(xí)思想,知識(shí)從源域遷移映射到目標(biāo)域,表現(xiàn)為將特征信息遷移到樣本信息,學(xué)習(xí)每個(gè)視角的特征嵌入并將相似的信息傳遞給樣本嵌入。在方法實(shí)現(xiàn)上,采用二部圖來(lái)表示樣本和特征之間的關(guān)系,尋找樣本和特征之間的最小切割,最大化兩者之間的相同點(diǎn)。其中,2,1 范數(shù)[22]能夠有效降低樣本中的噪聲對(duì)特征選擇的影響。其函數(shù)表達(dá)式如式(3)所示:
本文方法以樣本嵌入F為中心,以共享相似度圖G和特征嵌入Av為出發(fā)點(diǎn),在譜聚類(lèi)中實(shí)現(xiàn)對(duì)樣本嵌入的優(yōu)化,得到最終的目標(biāo)函數(shù)。首先,學(xué)習(xí)每個(gè)視角所對(duì)應(yīng)的相似度矩陣,并對(duì)權(quán)重αv平均初始化。其次,在Frobenis 范數(shù)的約束下最小化相似度矩陣和共享相似度矩陣的差異,得到最優(yōu)的共享相似度矩陣。與此同時(shí),建立樣本嵌入F與特征嵌入Av之間的二部圖,最大化兩者的共同性,以此加強(qiáng)樣本嵌入的一致性學(xué)習(xí),同時(shí)通過(guò)2,1 范數(shù)降低特征嵌入學(xué)習(xí)過(guò)程中噪聲對(duì)特征選擇的影響。在迭代更新中,共享相似度矩陣學(xué)習(xí)了所有視角的相似度矩陣,視角權(quán)重的更新由相似度矩陣和共享相似度矩陣的差異決定,如果單個(gè)視角的相似度矩陣與共享相似度矩陣差異很大,意味著該視角的相似度矩陣存在很多與其他視角不一樣的數(shù)據(jù)點(diǎn),視角權(quán)重將自適應(yīng)降低權(quán)重參數(shù)的值,同時(shí)更重要的視角權(quán)值會(huì)增加。通過(guò)這種方式,最終的共享相似度矩陣學(xué)習(xí)了所有視角的一致性信息。共享相似度矩陣由每個(gè)視角的相似度矩陣、視角參數(shù)共同決定,這為譜聚類(lèi)的學(xué)習(xí)提供了一個(gè)可靠的相似度矩陣。譜聚類(lèi)不僅需要考慮樣本相似度矩陣,還需要考慮特征嵌入學(xué)習(xí)。為了進(jìn)一步優(yōu)化樣本嵌入,將多個(gè)視角中的多樣性特征遷移至樣本嵌入中,通過(guò)最大化特征嵌入與樣本嵌入之間的一致性,補(bǔ)充了樣本嵌入中的多樣性信息,提升了樣本嵌入的準(zhǔn)確性和一致性。具體來(lái)講,樣本嵌入將具有一致性的樣本關(guān)系作用于特征嵌入,特征嵌入將優(yōu)化后的多樣性特征反饋給樣本嵌入,樣本嵌入學(xué)習(xí)視角間多樣性特征信息,以此最大化視角間的一致性信息。最終圖學(xué)習(xí)、譜聚類(lèi)以及參數(shù)更新在統(tǒng)一的框架中聯(lián)合優(yōu)化,在譜聚類(lèi)作用下得到一個(gè)具有一致性和準(zhǔn)確性的樣本嵌入,提高了最終的聚類(lèi)性能。本文方法的目標(biāo)損失函數(shù)如式(4)所示:
其中:αv為視角權(quán)重;Sv為相似度矩陣;G為共享相似度矩陣;Av為特征嵌入;F為樣本嵌入;為歸一化后的樣本數(shù)據(jù);λ為樣本學(xué)習(xí)調(diào)節(jié)參數(shù);μ、β為特征樣本參數(shù)。
該節(jié)對(duì)提出的算法進(jìn)行詳細(xì)的求解。由于該算法所含變量非凸,本文采用最優(yōu)交替乘子法(ADMM)[23]對(duì)該目標(biāo)公式進(jìn)行求解,取得G、F、A的最優(yōu)解。首先引入輔助變量Q、β,并得到該算法的拉格朗日函數(shù)如下:
其中:Yv是拉格朗日乘子;γ是懲罰參數(shù)。
更新G,固定其余變量,保留只含有G的項(xiàng),最終可以得到式(6):
式(11)為非凸函數(shù),采用最優(yōu)交替乘子法取得最優(yōu)解。
更新F,固定其余變量:
定 理1對(duì)于秩 為p的矩陣Z∈Rn×p,Z在Stiefel Manifold[24]上的投影定義為:
N是半正定矩陣,式(24)是一個(gè)二次凸優(yōu)化問(wèn)題。本文實(shí)驗(yàn)通過(guò)經(jīng)典拉格朗日乘數(shù)的方法來(lái)有效解決該問(wèn)題。因此,式(24)優(yōu)化等價(jià)于式(25)優(yōu)化:
式(29)的優(yōu)化參考了文獻(xiàn)[25]算法優(yōu)化。
在WGSC 算法中,假設(shè)總迭代次數(shù)為m,視角權(quán)重更新中的迭代次數(shù)為t。WGSC 由3 個(gè)子問(wèn)題組成:更新共享相似度矩陣,迭代優(yōu)化共享相似度矩陣G,復(fù)雜度為O(n2cm+nm2t+m3t);更新樣本嵌入F,需要計(jì)算其本身和投影,時(shí)間復(fù)雜度為O(n2c);更新特征嵌入Av,計(jì)算的復(fù)雜度為O(n2c)。因此,WGSC的復(fù)雜度為O(n2cm+nm2t+m3t)。
本節(jié)將驗(yàn)證上述方法的性能,本文實(shí)驗(yàn)將在5 個(gè)真實(shí)的數(shù)據(jù)集上運(yùn)行。
3-Sources 數(shù)據(jù)集來(lái)自3 個(gè)著名的在線新聞資源:BBC,Reuters,Guardian。該數(shù)據(jù)集在3 個(gè)來(lái)源中共報(bào)道169 篇,分為6 個(gè)主題標(biāo)簽,每篇新聞都有一個(gè)主題標(biāo)簽。Yale 數(shù)據(jù)集包含了15 個(gè)人的165 張GIF 格式的灰度圖像,每個(gè)對(duì)象在不同心情、不同條件下提供11 張照片。MSRCV1 數(shù)據(jù)集包含240 張圖像和8 個(gè)對(duì)象類(lèi)別,選擇7 種類(lèi)別的數(shù)據(jù),每種類(lèi)型有6 種提取方式,即CENT、CMT、GIST、HOG、LBP、SIFT。ORL 數(shù)據(jù)集包含40 個(gè)不同主題的400 張圖像,所有圖像均在暗光均勻的光線下拍攝,且在不同的時(shí)間、不同的光照、不同的面部表情和不同細(xì)節(jié)下拍攝。COIL20 數(shù)據(jù)集包含20 個(gè)物體的圖像,每個(gè)物體有72 張不同角度的彩色圖像,共1 440 張。本文實(shí)驗(yàn)運(yùn)行于Apple M1 芯片,內(nèi)存8 GB,MATLAB R2020a 軟件。
首先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行歸一化處理,使得所有的樣本數(shù)據(jù)值在[-1,1]之間。對(duì)歸一化后的樣本數(shù)據(jù)輸入到WGSC 算法中得到樣本嵌入,并對(duì)樣本嵌入做K-means 聚類(lèi)得到最終的實(shí)驗(yàn)結(jié)果。其中將所有對(duì)比算法中近鄰參數(shù)設(shè)置為類(lèi)的個(gè)數(shù),本文實(shí)驗(yàn)也設(shè)置為類(lèi)的個(gè)數(shù)。本文實(shí)驗(yàn)將多視角的數(shù)據(jù)分別依次傳輸?shù)絾我暯撬惴ㄖ羞M(jìn)行運(yùn)行,并選取實(shí)驗(yàn)結(jié)果最好的視角作為最終的實(shí)驗(yàn)結(jié)果,其余算法均一次性運(yùn)行所有視角的數(shù)據(jù)并得到最終的實(shí)驗(yàn)結(jié)果。所有實(shí)驗(yàn)結(jié)果均由上述實(shí)驗(yàn)方式得到,并在同一數(shù)據(jù)集下運(yùn)行30 次得到相應(yīng)實(shí)驗(yàn)結(jié)果,計(jì)算各評(píng)估指標(biāo)的平均值和標(biāo)準(zhǔn)差。
多視角聚類(lèi)對(duì)比算法如下:
1)譜聚類(lèi)[26]構(gòu)建樣本的相似度矩陣,距離與邊權(quán)值成反比。通過(guò)對(duì)所有數(shù)據(jù)點(diǎn)組成的圖進(jìn)行切圖,讓切圖后不同的子圖間邊權(quán)重和盡可能得低,而子圖內(nèi)的邊權(quán)重和盡可能得高,從而達(dá)到聚類(lèi)的目的。優(yōu)點(diǎn)在于具有能在任意形狀的樣本空間上聚類(lèi)且收斂于全局最優(yōu)解,但是對(duì)相似度圖的改變和聚類(lèi)參數(shù)的選擇非常敏感。
2)可擴(kuò)展多視角聚類(lèi)(SFMC)算法[20]。SFMC是一個(gè)用于多視角聚類(lèi)的可擴(kuò)展和無(wú)參數(shù)的圖形融合框架,以自我監(jiān)督加權(quán)方式尋求跨多個(gè)視圖兼容的聯(lián)合圖。學(xué)習(xí)的一致性圖和視角參數(shù)的自適應(yīng)相互學(xué)習(xí)解決了超參數(shù)的問(wèn)題。
3)加權(quán)多視圖譜聚類(lèi)(WMSC)算法[27]。根據(jù)特征向量對(duì)聚類(lèi)結(jié)果的影響,引出尋找一個(gè)一致的拉普拉斯矩陣,以及對(duì)相似的視圖賦予相似的權(quán)重來(lái)差異化最終的聚類(lèi),運(yùn)用最大典型角的方法來(lái)衡量聚類(lèi)結(jié)果的差異。
4)聚合相似度矩陣的譜聚類(lèi)(AASC)算法[28]。對(duì)不同視角的相似度矩陣的學(xué)習(xí)減少不重要特征對(duì)聚類(lèi)的影響,并在此基礎(chǔ)之上引入權(quán)重向量,優(yōu)化每個(gè)視角的相似度學(xué)習(xí)。
5)共同正則化譜聚類(lèi)(Co-Reg)算法[29]。建立一個(gè)共同正則化譜聚類(lèi)框架,并在此基礎(chǔ)之上提出兩種正則化方案來(lái)實(shí)現(xiàn)這個(gè)目標(biāo)。兩種方案的區(qū)別在于K-means 所作用的特征向量的不同,第1 個(gè)方案是K-means 作用于所有視圖中的其中一個(gè)特征向量,第2 個(gè)方案是K-means 作用于代表所有視角潛在的具有一致性的特征向量。
6)多視角一致性聚類(lèi)(MCGC)算法[30]。學(xué)習(xí)一個(gè)最小化所有視角差異的一致性圖,并用拉普拉斯矩陣的秩加以約束,最終通過(guò)學(xué)習(xí)到的一致性圖直接獲得樣本的標(biāo)簽。
3.3.1 算法性能對(duì)比
本文采用6 個(gè)聚類(lèi)評(píng)估標(biāo)準(zhǔn)來(lái)評(píng)估聚類(lèi)性能,分別是聚類(lèi)精確度(Accuracy)、標(biāo)準(zhǔn)化互信息(NMI)[31]、純度(Purity)、精確率(Precision)、召回率(Recall)和F1 值。這6 個(gè)評(píng)估標(biāo)準(zhǔn)下的實(shí)驗(yàn)結(jié)果值越大,表明效果越好。表1~表5 分別展示了本文算法與多個(gè)對(duì)比算法在3-Sources、MRSCV1、Yale、ORL、COIL20 數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果,其中,實(shí)驗(yàn)結(jié)果均以平均值(標(biāo)準(zhǔn)差)的形式展示,加粗?jǐn)?shù)字為最優(yōu)值。
表1 不同算法在3-Sources 數(shù)據(jù)集上的比較Table 1 Comparison of different algorithms on 3-Sources dataset >%
表2 不同算法在MRSCV1 數(shù)據(jù)集上的比較Table 2 Comparison of different algorithms on MRSCV1 dataset %
表3 不同算法在Yale 數(shù)據(jù)集上的比較Table 3 Comparison of different algorithms on Yale dataset %
表4 不同算法在ORL 數(shù)據(jù)集上的比較Table 4 Comparison of different algorithms on ORL dataset %
表5 不同算法在COIL20 數(shù)據(jù)集上的比較Table 5 Comparison of different algorithms on COIL20 dataset %
1)WGSC 與SFMC 相比,SFMC 更適用于數(shù)據(jù)規(guī)模更大的數(shù)據(jù)集,其學(xué)習(xí)每個(gè)視角對(duì)應(yīng)的錨點(diǎn),壓縮了數(shù)據(jù)的規(guī)模,學(xué)習(xí)視角間的一致性圖。但是,在錨點(diǎn)降維過(guò)程中損失了很多特征,因此本文利用二部圖的方式學(xué)習(xí)樣本特征并進(jìn)行遷移學(xué)習(xí)至樣本嵌入補(bǔ)充多樣性。從表1 實(shí)驗(yàn)結(jié)果可以看出,WGSC優(yōu)于SFMC,這表明對(duì)于數(shù)據(jù)相似度矩陣在樣本特征損失較大的情況下,學(xué)習(xí)樣本特征能提升聚類(lèi)性能。
2)WMSC 和WGSC 都是聚焦于得到視角間一致的聚類(lèi)結(jié)果。WGSC 采用的是學(xué)習(xí)一致性相似度矩陣的方法。為了尋找視角間潛在的一致性樣本關(guān)系,賦予相似度矩陣對(duì)應(yīng)視角權(quán)重,融合相似度矩陣得到具有一致性的共享相似度矩陣。兩者不同之處在于:WMSC 學(xué)習(xí)具有一致性的拉普拉斯矩陣,它運(yùn)用最大典型角的方法來(lái)減少不同視角之間的差異。實(shí)驗(yàn)結(jié)果表明,WGSC 優(yōu)于WMSC,因?yàn)橄啾扔诶绽咕仃嚨膶W(xué)習(xí),相似度矩陣學(xué)習(xí)過(guò)程中的數(shù)據(jù)損失更少,聚類(lèi)性能更佳。
3)WGSC 在所有數(shù)據(jù)集的聚類(lèi)結(jié)果正確率比AASC 高出了5%以上,這表明WGSC 有良好的聚類(lèi)性能。AASC 引入了權(quán)重向量并由特征值決定權(quán)重的大小。不同于AASC,WGSC 用相似度矩陣決定最終權(quán)重的大小,并在每輪中迭代更新。WGSC 對(duì)權(quán)重的評(píng)估具有更加豐富的信息,對(duì)于數(shù)據(jù)關(guān)系不清晰和雜亂的視角,賦予更低的權(quán)重能夠降低包含較多噪聲的視角對(duì)聚類(lèi)性能的影響。
4)與WGSC 相比,Co-Reg 學(xué)習(xí)了具有一致性的特征向量,并最小化不同視圖間的特征向量之間的差異來(lái)達(dá)成一致性。不同于Co-Reg,WGSC 直接學(xué)習(xí)一致性相似度矩陣避免了原始數(shù)據(jù)中不可靠特征和不重要特征對(duì)特征向量的影響。
5)在這5 個(gè)數(shù)據(jù)集中,3-Sources 數(shù)據(jù)集特征數(shù)量遠(yuǎn)多于樣本點(diǎn)個(gè)數(shù)。因此,特征較多的數(shù)據(jù)集在WGSC 算法上的表現(xiàn)相比于其他算法表現(xiàn)更佳。這是因?yàn)閃GSC 將視角間的特征信息遷移到了樣本嵌入中,且這些視角的多樣性特征能夠補(bǔ)充樣本關(guān)系中存在的不足。此外,3-Sources 數(shù)據(jù)集的樣本點(diǎn)個(gè)數(shù)較少,對(duì)模型的遷移特征部分中二部圖的計(jì)算更有利,與其他算法相比更具優(yōu)勢(shì),不僅學(xué)習(xí)了構(gòu)建的相似度矩陣中的樣本關(guān)系,還學(xué)習(xí)了大量的特征信息。
綜上,該實(shí)驗(yàn)驗(yàn)證了自適應(yīng)學(xué)習(xí)視角權(quán)重能提高共享相似度矩陣學(xué)習(xí)的準(zhǔn)確率,在保證不同視角之間的一致性以外,學(xué)習(xí)了原始數(shù)據(jù)的潛在一致性特征,并通過(guò)二部圖遷移了不同視角間的多樣性信息,確保了聚類(lèi)的準(zhǔn)確率。
3.3.2 共享相似度矩陣的一致性驗(yàn)證
在圖2 中,圖2(a)~圖2(c)分別對(duì)應(yīng)MRSCV1 在3 個(gè)視角下的相似度矩陣圖,圖2(d)表示在迭代優(yōu)化后得到的共享相似度矩陣??梢钥闯?,最終的共享相似度矩陣整合了視角間的一致性樣本關(guān)系,學(xué)習(xí)了樣本之間潛在的一致性。因此,WGSC 具備學(xué)習(xí)一致性共享相似度矩陣的能力。
3.3.3 算法收斂性分析
圖3 所示為WGSC 在以上5 個(gè)數(shù)據(jù)集中的收斂情況。從圖3 可以看出,WGSC 在每個(gè)數(shù)據(jù)集上都表現(xiàn)出穩(wěn)定的收斂性,且每次迭代都確保了目標(biāo)函數(shù)值的減少。目標(biāo)函數(shù)收斂到正數(shù)或負(fù)數(shù),其中負(fù)數(shù)函數(shù)值是因?yàn)樘卣髑度雽W(xué)習(xí)中存在負(fù)數(shù)項(xiàng),尤其是原始樣本數(shù)據(jù)相比于其他的項(xiàng)的值更大,所以目標(biāo)函數(shù)值為負(fù)數(shù)是正常的。一般在30 次之后達(dá)到收斂效果,獲得了該算法的局部最優(yōu)值,從而驗(yàn)證了該算法具有良好的收斂性。
圖3 WGSC 在3-Sources、MRSCV1、Yale、ORL 和COIL20 數(shù)據(jù)集上的收斂圖Fig.3 The converge drawing of WGSC on 3-Sources,MRSCV1,Yale,ORL and COIL20 datasets
3.3.4 參數(shù)分析
本文算法中需要調(diào)試的參數(shù)有μ、λ、β3 個(gè)。首先3 個(gè)參數(shù)的取值范圍均設(shè)置為{10-4,10-3,10-2,10-1,100,101,102,103},然后對(duì)其中2 個(gè)取上述范圍,另一個(gè)設(shè)為0.1,最終得到在3-Sources 數(shù)據(jù)集的正確率[見(jiàn) 圖4(a)~圖4(c)]、NMI[見(jiàn) 圖4(e)~圖4(f)]和Purity[見(jiàn)圖4(g)~圖4(i)]評(píng)估指標(biāo)的實(shí)驗(yàn)結(jié)果。從圖4 可以看出,β在{10-2,10-1,100}下有較為穩(wěn)定的性能,λ在{10-3,10-2,10-1,100}下表現(xiàn)出可靠的性能。相對(duì)于上述2個(gè)參數(shù),μ在該算法中的表現(xiàn)相對(duì)敏感。
圖4 β、μ、λ 在3-Sources 數(shù)據(jù)集下的參數(shù)分析Fig.4 Parameter analysis of β,μ,λ in 3-Sources dataset
本文對(duì)譜聚類(lèi)的相似度矩陣和樣本嵌入重點(diǎn)優(yōu)化,提出一個(gè)基于一致性圖的權(quán)重自適應(yīng)多視角譜聚類(lèi)(WGSC)算法。WGSC 基于自適應(yīng)的視角權(quán)重,學(xué)習(xí)一個(gè)一致的共享相似度矩陣,自適應(yīng)改變每個(gè)視角的相似度矩陣對(duì)應(yīng)權(quán)重,提高共享相似度矩陣的一致性。通過(guò)構(gòu)建樣本點(diǎn)和樣本特征二部圖,學(xué)習(xí)每個(gè)視角中的特征信息,獲得不同視角的多樣性信息,以此提高樣本嵌入一致性。本文算法建立樣本嵌入、共享相似度矩陣與特征嵌入的關(guān)系,實(shí)現(xiàn)三者間的信息轉(zhuǎn)化,獲得最優(yōu)的樣本嵌入。實(shí)驗(yàn)結(jié)果表明,本文算法能自適應(yīng)學(xué)習(xí)權(quán)重參數(shù)及最優(yōu)的相似矩陣,遷移特征嵌入中的信息至樣本嵌入,有效提升樣本嵌入的一致性和多樣性,進(jìn)而提高聚類(lèi)結(jié)果的準(zhǔn)確率。本文算法在大規(guī)模樣本數(shù)據(jù)下的性能有較大提升空間,對(duì)部分參數(shù)較為敏感,下一步將挖掘參數(shù)與樣本之間的關(guān)聯(lián),構(gòu)建無(wú)參數(shù)聚類(lèi)模型并優(yōu)化相似度矩陣學(xué)習(xí),將模型運(yùn)用于大規(guī)模數(shù)據(jù),避免參數(shù)對(duì)準(zhǔn)確率的影響。