劉瑞秀,高艷麗,鄧趙紅+,王士同
1.江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無(wú)錫 214122
2.江南計(jì)算技術(shù)研究所,江蘇 無(wú)錫 214083
聚類是一種基于相似性信息,將對(duì)象或數(shù)據(jù)樣本劃分為若干組或類的方法。聚類是一種無(wú)監(jiān)督學(xué)習(xí)技術(shù),它作為一種重要的數(shù)據(jù)處理方法,在數(shù)據(jù)挖掘、圖像處理、模式識(shí)別等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)的聚類分析方法主要有K-means[1-3]、FCM(fuzzy C-means)[4-6]、MEC(maximum entropy clustering algorithm)[7-8]、PCM(possibilistic C-means algorithm)[9-10]、譜聚類[11-12]等。這些方法具有計(jì)算簡(jiǎn)單、速度快等特點(diǎn),并且有著廣泛的應(yīng)用領(lǐng)域。但是,隨著現(xiàn)代技術(shù)的發(fā)展,所采集數(shù)據(jù)的大小、屬性等越來越復(fù)雜。許多數(shù)據(jù)集都可以用不同的屬性集描述,即多視角數(shù)據(jù)。例如一個(gè)文檔可以被翻譯成英語(yǔ)、漢語(yǔ)兩種語(yǔ)言;一個(gè)網(wǎng)頁(yè)可以用兩個(gè)視角描述,一個(gè)是網(wǎng)頁(yè)上出現(xiàn)的文本,另一個(gè)是指向該網(wǎng)頁(yè)的超鏈接上的文本。不同的視角之間通常提供兼容和互補(bǔ)的信息。由于傳統(tǒng)的聚類分析方法只使用數(shù)據(jù)樣本的一個(gè)特征集或一個(gè)視角,其在處理多視角數(shù)據(jù)集時(shí),不能充分利用視角與視角間的關(guān)聯(lián)性。因此,如何從多視角數(shù)據(jù)中整合信息,以獲得更好的聚類性能已成為機(jī)器學(xué)習(xí)中的一個(gè)重要的課題。
近年來,為了提高多視角聚類算法的性能,已經(jīng)開發(fā)了許多多視角聚類方法。文獻(xiàn)[13]基于期望最大化提出了協(xié)同聚類算法Co-EM(collaborative expectationmaximization algorithm)算法;同樣基于協(xié)同的思想,文獻(xiàn)[14]提出了一種雙視角譜聚類的算法。文獻(xiàn)[15]提出了多視角譜聚類算法,這些都是早期基于協(xié)同思想的多視角聚類算法?;诮?jīng)典的K-means算法,文獻(xiàn)[16]提出了雙層變量自動(dòng)加權(quán)聚類算法TW-Kmeans。通過在經(jīng)典的模糊C-均值(FCM)中引入?yún)f(xié)同的思想,文獻(xiàn)[17]提出了一種協(xié)同聚類算法Co-FC(collaborative fuzzy clustering)算法。文獻(xiàn)[18]基于FCM算法提出多視角模糊聚類算法Co-FKM(collaborative fuzzyK-means),該算法通過在目標(biāo)函數(shù)中引入一個(gè)懲罰項(xiàng),減少了不同視角之間劃分的不一致性。文獻(xiàn)[19]以經(jīng)典的FCM 算法為框架,提出了多視角模糊聚類Co-FCM算法,然后為了識(shí)別每個(gè)視角的重要性程度,文獻(xiàn)[19]基于香農(nóng)熵又提出了其增強(qiáng)版本多視角加權(quán)協(xié)同模糊聚類算法WV-Co-FCM。文獻(xiàn)[20]在經(jīng)典的FCM 算法中引入了最小最大優(yōu)化項(xiàng),提出了多視角模糊聚類算法MinimaxFCM。
另一方面,一些文獻(xiàn)提出通過不同的方法將多視角數(shù)據(jù)從不同的特征空間轉(zhuǎn)換到一個(gè)共同的低維特征空間。這個(gè)低維空間的數(shù)據(jù)就是嵌入在多視角數(shù)據(jù)的隱性信息。例如文獻(xiàn)[21]提出了一種基于聯(lián)合非負(fù)矩陣分解的多視角聚類算法,該算法首先通過聯(lián)合非負(fù)矩陣分解方法將從每個(gè)視角學(xué)習(xí)的系數(shù)矩陣規(guī)范化成一個(gè)共同的一致性矩陣,然后直接應(yīng)用K-means或其他聚類算法對(duì)一致性矩陣聚類。文獻(xiàn)[22]基于核典范相關(guān)分析提出了相關(guān)譜聚類算法,該算法首先將多視角數(shù)據(jù)從多個(gè)特征空間映射到一個(gè)共同的低維子空間,然后應(yīng)用K-means等聚類算法對(duì)低維空間的數(shù)據(jù)進(jìn)行聚類。文獻(xiàn)[23]基于無(wú)向潛在的空間馬爾可夫網(wǎng)絡(luò),通過提出一個(gè)通用的大邊緣學(xué)習(xí)框架來發(fā)現(xiàn)由多個(gè)視角共享的預(yù)測(cè)潛在子空間表示。
盡管上述文獻(xiàn)提出的多視角聚類方法為解決多視角聚類問題提出了可行的方案,并且也都取得了很好的聚類性能,但是有兩個(gè)主要的缺點(diǎn)。第一,一些多視角聚類算法[16-19]主要運(yùn)用多視角數(shù)據(jù)集的原始特征聚類,而沒有深入挖掘各視角間存在的隱性信息,這些隱性信息往往對(duì)聚類效果起重要的作用。第二,一些多視角聚類算法[21-23]試圖發(fā)現(xiàn)嵌入在多視角數(shù)據(jù)中的隱性信息并基于隱性信息進(jìn)行聚類,但此類算法會(huì)不同程度地丟失原始特征的信息。這是由于原始的各視角數(shù)據(jù)更多地反映了個(gè)性化信息,僅用隱性信息會(huì)過多地偏重于共性信息,而對(duì)個(gè)性化信息沒能有效使用。多視角學(xué)習(xí)的關(guān)鍵是如何綜合利用各視角間個(gè)性化信息和共性信息。在多視角聚類中,如何將個(gè)性化信息和共性信息有效融合起來,是一個(gè)具有挑戰(zhàn)性的課題。
針對(duì)上述挑戰(zhàn),本文提出了融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。該算法首先通過求解一個(gè)多視角稀疏隱信息學(xué)習(xí)模型得到多視角數(shù)據(jù)共享的稀疏表示系數(shù)矩陣,即隱性信息。該隱性信息在一定程度上描述了不同數(shù)據(jù)點(diǎn)之間的共性信息,并且具有稀疏性。然后,采用協(xié)同學(xué)習(xí)的方式同時(shí)對(duì)原始特征集和隱性信息聚類,同時(shí)引入香農(nóng)熵策略自適應(yīng)地調(diào)整不同原視角的權(quán)重。將上述策略應(yīng)用到經(jīng)典的FCM 聚類框架,得到融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。
傳統(tǒng)的單視角聚類算法處理多視角數(shù)據(jù)的框架如圖1所示。在處理多視角數(shù)據(jù)時(shí),傳統(tǒng)的聚類方法通常獨(dú)立地考慮每個(gè)視角,并將每個(gè)視角視為獨(dú)立的聚類任務(wù),分別對(duì)每個(gè)視角進(jìn)行聚類獲得每個(gè)視角下的劃分矩陣,然后使用簡(jiǎn)單加權(quán)或集成學(xué)習(xí)機(jī)制[24-25]獲得全局的劃分矩陣。這種方式雖然為單視角算法處理多視角數(shù)據(jù)提供了一種可行的方法,但是簡(jiǎn)單地進(jìn)行加權(quán)整合沒有考慮到視角與視角間的關(guān)聯(lián)性,這在一定程度上會(huì)造成聚類效果不佳。與此不同的是,多視角聚類充分利用來自不同視角的信息,通過運(yùn)用不同視角之間的相關(guān)性和協(xié)作來訓(xùn)練模型?,F(xiàn)有的多視角聚類算法大致可以分為三類。第一類算法在聚類過程中實(shí)現(xiàn)視角間的協(xié)同學(xué)習(xí)[16-20]。第二類算法試圖發(fā)現(xiàn)嵌入在多視角數(shù)據(jù)中共同低維子空間的表示,然后再用某種單視角聚類算法對(duì)這個(gè)數(shù)據(jù)進(jìn)行聚類[21-23]。第三類就是后期融合[26-27],也就是分別處理每個(gè)視角的數(shù)據(jù),最終的聚類結(jié)果來自每個(gè)單獨(dú)的視角聚類結(jié)果的整合。例如文獻(xiàn)[26]通過引入映射函數(shù),使得來自不同視角的集群具有可比性,同時(shí)從多個(gè)視角的多個(gè)集群中學(xué)習(xí)最佳的集群;文獻(xiàn)[27]基于在單個(gè)數(shù)據(jù)集上計(jì)算不同的相似矩陣,并且聚合形成組合相似度矩陣,然后將其用于獲得最終聚類結(jié)果。
Fig.1 Classical framework of single view clustering algorithms for multi-view data圖1 經(jīng)典的單視角聚類算法處理多視角的框架
近年來,稀疏表示[28-29](sparse representation,SR)在模式識(shí)別、圖像處理等研究領(lǐng)域受到了廣泛的關(guān)注和研究,其目的就是在給定的字典中,用盡可能少的原子的線性組合來表示數(shù)據(jù),由此獲取數(shù)據(jù)樣本之間的聯(lián)系。最簡(jiǎn)單的稀疏表示模型是:
其中,||c||0是l0范數(shù),用來計(jì)算c中非零元素的個(gè)數(shù);y∈Rd是數(shù)據(jù)樣本,D∈Rd×K是字典矩陣,x∈RK是系數(shù)向量。由于式(1)是NP難問題,因此通常用l1范數(shù)來代替l0范數(shù)。字典的選取是至關(guān)重要的,許多稀疏表示模型都用數(shù)據(jù)集本身作為字典,即稀疏自表示。許多算法都采用數(shù)據(jù)集本身作為字典,例如文獻(xiàn)[28]使用數(shù)據(jù)集本身作為字典,提出了一種稀疏子空間聚類算法(sparse subspace clustering,SSC);文獻(xiàn)[29]提出了一種低秩表示的子空間聚類方法(low rank representation,LRR)。通過SSC、LRR 等算法得到的稀疏表示系數(shù)矩陣能很好地反映數(shù)據(jù)集的潛在的群結(jié)構(gòu)信息,并且具有稀疏性,從中能夠很好地發(fā)現(xiàn)數(shù)據(jù)樣本間的關(guān)系。這促使把稀疏表示方法應(yīng)用到多視角聚類中。
給定一個(gè)多視角數(shù)據(jù)集X={X(1)X(2),…,X(K)},共K個(gè)視角,第k個(gè)視角的樣本集用矩陣表示為,1 ≤k≤K。其中N表示樣本個(gè)數(shù),dk表示第k個(gè)視角的特征數(shù)。通過解決如下優(yōu)化問題得到多視角數(shù)據(jù)的稀疏隱視角信息:
其中,Z∈RN×N是多視角數(shù)據(jù)共享的稀疏表示系數(shù)矩陣,即隱視角。||.||F是Frobenius范數(shù),||.||1是l1范數(shù),diag(Z) 是隱視角Z的對(duì)角線元素,并且約束條件diag(Z)=0可避免平凡解,即避免每個(gè)樣本用自身表示。
在式(2)中,每一項(xiàng)的描述如下:
(2)第二項(xiàng)||Z||1是l1正則化項(xiàng),該項(xiàng)的目的是使隱視角盡可能地稀疏。
(3)第三項(xiàng)是流形正則化項(xiàng),該項(xiàng)是為了維持每個(gè)視角中的原始特征的流形結(jié)構(gòu)。對(duì)于第k個(gè)視角,如果兩個(gè)數(shù)據(jù)點(diǎn)在原始的特征空間中彼此接近,那么在隱視角中,這兩個(gè)數(shù)據(jù)點(diǎn)也應(yīng)該是彼此接近。第k個(gè)視角的相似度矩陣為S(k),讓,則有:
其中,L(k)=D(k)-S(k)是圖拉普拉斯矩陣。
(4)λ和η是正則化參數(shù),分別平衡相應(yīng)項(xiàng)的影響。
為了求解式(2),首先引入一個(gè)輔助變量C,則式(2)被轉(zhuǎn)換為:
采用交替方向乘子法(alternating direction method of multipliers,ADMM)[30]求解式(4)。由此可獲得式(4)的增廣拉格朗日形式為:
(1)固定Z和Q,優(yōu)化C。
其中,cj、zj、qj和分別是C、Z、Q和的第j列,j=1,2,…,N。可以使用文獻(xiàn)[31-32]中的策略求解式(7),式(7)有閉式解。由此可得C的更新規(guī)則如下:
(2)固定C和Q,優(yōu)化Z。
對(duì)上式Z求偏導(dǎo)數(shù)并使其導(dǎo)數(shù)為0,可得:
因此可以通過求解下式得到Z的更新公式:
(3)固定Z和C,更新乘子Q。
乘子Q可以簡(jiǎn)單地按照以下規(guī)則更新:
因此,通過ADMM方法求解式(4)的完整的算法描述如算法1所示。
算法1ADMM方法求解式(4)
輸入:給定一個(gè)多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)},共K個(gè)視角,第k個(gè)視角的樣本集為1 ≤k≤K,參數(shù)λ、η。
1.初始化Q=0,Z=C=0,ρ=1.1,迭代閾值ε=10-6;
2.根據(jù)式(8)更新C;
3.通過求解式(12)更新隱視角Z;
4.根據(jù)式(13)更新Q;
5.更新μ=μρ;
6.如果||Z-C||∞<ε,則算法停止迭代循環(huán),否則返回步驟2;
輸出:稀疏隱視角Z。
給定一個(gè)多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)},共K個(gè)視角,第k個(gè)視角的樣本集為通過算法1,可以獲得多視角數(shù)據(jù)共享的稀疏隱視角數(shù)據(jù)。該隱視角數(shù)據(jù)在一定程度上反映了多視角數(shù)據(jù)的全局結(jié)構(gòu)信息,并且具有稀疏性。因此,基于原始的特征集和隱視角數(shù)據(jù),本文提出了一種新的多視角聚類算法,即融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法,其目標(biāo)函數(shù)為:
其中,Z=[z1,z2,…,zN]∈RN×N是隱視角數(shù)據(jù);U是C×N的模糊劃分矩陣;V={V(1),V(2),…,V(K)}是K個(gè)原視角的聚類中心的集合,是第k個(gè)原視角的聚類中心矩陣,表示第k個(gè)原視角的聚類i的類中心;是隱視角的聚類中心矩陣,表示隱視角的聚類i的類中心;向量w=[w1,w2,…,wK]是原視角劃分權(quán)重的集合,wk是分配給第k個(gè)原視角的權(quán)重;模糊指數(shù)m>1;α是正則化參數(shù)。
為了自適應(yīng)調(diào)整各原視角的權(quán)重,式(14)引入了香農(nóng)熵正則化項(xiàng)。讓,且wk≥0,將各原視角權(quán)重看作概率分布,則其香農(nóng)熵表示為。最小化負(fù)香農(nóng)熵趨向于使得各個(gè)視角具有相等的重要性。β是正則化參數(shù),用來控制香農(nóng)熵正則化項(xiàng)的影響。
對(duì)于式(14),這里給出如下的進(jìn)一步說明:一方面,如果聚類目標(biāo)函數(shù)僅考慮在聚類數(shù)據(jù)上各視角的聚類緊度,即文中式(14)的第一項(xiàng),則最小化該項(xiàng)則趨向于讓類內(nèi)緊度最小的視角占有很大重要性,而其他視角的作用完全被忽略;一方面,最大化各視角權(quán)重對(duì)應(yīng)的香農(nóng)熵,即最小化負(fù)香農(nóng)熵趨向于使得各個(gè)視角具有相等的重要性,這在沒有任何先驗(yàn)信息作指導(dǎo)時(shí)是合理的。上述兩種情況都走上了極端,因此通過引入正則化參數(shù)β來平衡兩項(xiàng)的作用是一種較好的處理方式,通過調(diào)節(jié)參數(shù),可得到最佳的聚類效果。
通過迭代求解如下4個(gè)子問題最小化式(14):
問題1固定和,并解決子問題
問題2固定并解決子問題
問題3固定并解決子問題
問題4固定并解決子問題
(1)問題1的解決方案由定理1給出。
定理1當(dāng)最小化時(shí)的必要條件為:
證明利用給定的模糊劃分矩陣、隱視角的類中心矩陣和權(quán)重向量,對(duì)目標(biāo)函數(shù)求偏導(dǎo),并令,可得:
由此定理1得證。 □
(2)問題2的解決方案由定理2給出。
定理2當(dāng)最小化時(shí)的必要條件為:
證明利用給定的模糊劃分矩陣、原視角的類中心矩陣和權(quán)重向量,對(duì)目標(biāo)函數(shù)求偏導(dǎo),并令,可得:
由此定理2得證。 □
(3)問題3的解決方案由定理3給出。
定理3當(dāng)最小化時(shí)的必要條件為:
證明對(duì)于目標(biāo)函數(shù)(14),由于有一個(gè)約束條件,uij∈[0,1],1 ≤j≤N,則可以建立如下的拉格朗日函數(shù):
上式分別對(duì)uij、γ1求導(dǎo),并使得導(dǎo)數(shù)為0,得到:
進(jìn)而得到:
由此定理3得證。 □
(4)問題4的解決方案由定理4給出。
定理4當(dāng)最小化時(shí)的必要條件為:
證明對(duì)于目標(biāo)函數(shù)(14),由于有一個(gè)約束條件則可以建立如下的拉格朗日函數(shù):
上式分別對(duì)wk、γ2求導(dǎo),并使得導(dǎo)數(shù)為0,得到:
進(jìn)而得到:
由此定理4得證。 □
根據(jù)3.3節(jié)推導(dǎo)的參數(shù)學(xué)習(xí)規(guī)則,下面給出所提算法的具體過程,如算法2所示。
算法2融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法
輸入:多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)},共K個(gè)視角,第k個(gè)視角的樣本集為參數(shù)α、β,模糊指數(shù)m,迭代閾值ε,當(dāng)前迭代次數(shù)t,聚類數(shù)目n。
1.由算法1得到隱視角數(shù)據(jù)Z;
2.初始化隨機(jī)產(chǎn)生歸一化的隸屬度uij,隨機(jī)產(chǎn)生歸一化的原視角權(quán)重wk;
5.根據(jù)式(19)更新uij;
6.根據(jù)式(24)更新各原視角的權(quán)重wk;
7.如果||Jt+1-Jt||<ε,則算法停止迭代循環(huán),否則返回步驟3。
輸出:模糊劃分矩陣U,原視角聚類中心點(diǎn)隱視角聚類中心點(diǎn),各原視角權(quán)重wk。
為了驗(yàn)證本文所提算法的聚類有效性,本文選擇了5個(gè)多視角數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),這些數(shù)據(jù)集分別是Multiple Features 數(shù)據(jù)集、Image Segmentation 數(shù) 據(jù)集、Dermatology數(shù)據(jù)集、3-Sources數(shù)據(jù)集[33]和WebKB數(shù)據(jù)集。這些數(shù)據(jù)集的信息統(tǒng)計(jì)如表1所示。
Table1 Statistics of multi-view datasets表1 多視角數(shù)據(jù)集統(tǒng)計(jì)
(1)Multiple Features 數(shù)據(jù)集來自于UCI 數(shù)據(jù)集庫(kù)。數(shù)據(jù)集由2 000個(gè)樣本組成,其中視角1是傅里葉系數(shù)視角,該視角描述字符形狀的傅里葉系數(shù),視角2是Zernike矩視角,描述字符形狀的Zernike矩。
(2)Image Segmentation 數(shù)據(jù)集來自于UCI 數(shù)據(jù)集庫(kù),由2 310個(gè)樣本組成,包含兩個(gè)視角,分別是形狀視角和RGB視角。
(3)Dermatology數(shù)據(jù)集來自于UCI數(shù)據(jù)集庫(kù),由366個(gè)樣本組成,其中視角1是組織病理學(xué)視角,視角2是臨床視角。
(4)3-Sources數(shù)據(jù)集是從3個(gè)在線新聞來源收集的,選擇所有3個(gè)來源報(bào)道的169個(gè)新聞故事,這些故事被手工分成6類,每個(gè)來源看作一個(gè)故事的視角。
(5)WebKB數(shù)據(jù)集由4個(gè)大學(xué)的網(wǎng)頁(yè)組成,每個(gè)網(wǎng)頁(yè)由3個(gè)視角組成:網(wǎng)頁(yè)上的文本、指向它的超鏈接上的錨文本以及標(biāo)題中的文本。選擇其中1個(gè)大學(xué)的網(wǎng)頁(yè)作為本文實(shí)驗(yàn)的數(shù)據(jù)集。
為了驗(yàn)證本文所提算法的聚類性能,本文選擇了5個(gè)聚類算法作對(duì)比。通過比較5個(gè)多視角數(shù)據(jù)集在本文所提算法和對(duì)比算法上的實(shí)驗(yàn)結(jié)果來驗(yàn)證本文所提算法的聚類性能。實(shí)驗(yàn)中采用的對(duì)比算法有基于多任務(wù)的組合K-means 算法(CombKM)[34]、基于樣本與特征空間協(xié)同聚類的Co-clustering 算法[35]、多視角模糊聚類算法Co-FKM[18]、多視角雙層變量自動(dòng)加權(quán)聚類算法TW-K-means[16]、基于聯(lián)合非負(fù)矩陣分解的多視角聚類算法MultiNMF[21]。
本文采用歸一化互信息(normalized mutual information,NMI)36-37]、芮氏指標(biāo)(rand index,RI)[37-38]、精度(Precision)[39]3種評(píng)價(jià)指標(biāo)評(píng)估各聚類算法的聚類性能。3種評(píng)價(jià)指標(biāo)的取值范圍均為[0,1],取值越高,表示算法的聚類性能越好。
(1)歸一化互信息(NMI)
(2)芮氏指標(biāo)(RI)
(3)精度(Precision)
其中,ni,j表示類i中的樣本被分到第j個(gè)聚類的數(shù)據(jù)樣本量;ni表示類i所包含的數(shù)據(jù)樣本量;nj表示第j個(gè)聚類所包含的數(shù)據(jù)樣本量;f00表示數(shù)據(jù)點(diǎn)具有不同的類標(biāo)簽并且屬于不同類的配對(duì)點(diǎn)數(shù)目;f11則表示數(shù)據(jù)點(diǎn)具有相同的類標(biāo)簽并且屬于同一類的配對(duì)點(diǎn)數(shù)目;N表示整個(gè)數(shù)據(jù)樣本的總量大小。
在本文實(shí)驗(yàn)部分,采用網(wǎng)格搜索策略確定每個(gè)算法的最優(yōu)參數(shù),采用的尋優(yōu)范圍具體見表2。實(shí)驗(yàn)結(jié)果均由相關(guān)算法在最優(yōu)參數(shù)下運(yùn)行10次得到的均值及方差所組成。
表3至表7分別顯示了在5個(gè)多視角數(shù)據(jù)集上,本文所提算法和其他5個(gè)對(duì)比算法在3個(gè)評(píng)價(jià)指標(biāo)上的實(shí)驗(yàn)結(jié)果。為了直觀地比較各個(gè)算法的聚類性能,圖2、圖3和圖4分別繪制了在所有數(shù)據(jù)集上每種算法的平均NMI、RI和Precision的值。
通過觀察表3至表7的實(shí)驗(yàn)結(jié)果,可以得到如下的結(jié)論。
和其他聚類算法相比,本文算法在5個(gè)多視角數(shù)據(jù)集上的聚類結(jié)果都是最高的。
本文所提算法明顯優(yōu)于多任務(wù)的組合K-means算法CombKM。從多視角數(shù)據(jù)集在CombKM算法上的聚類結(jié)果可以看出,簡(jiǎn)單地將多視角數(shù)據(jù)樣本進(jìn)行融合并不能取得較好的聚類性能。
通過觀察5個(gè)數(shù)據(jù)集在多視角聚類算法TW-Kmeans、Co-FKM上的結(jié)果可以看出,本文所提算法體現(xiàn)了一定的聚類優(yōu)勢(shì)。原始的多視角數(shù)據(jù)更多地反映了各視角間個(gè)性化信息。TW-K-means和Co-FKM算法在聚類過程中均只利用原始的特征集進(jìn)行聚類,而忽略了共性信息對(duì)聚類效果的影響。但是,本文所提算法通過引入隱性信息使得共性信息得到有效的利用,實(shí)現(xiàn)了個(gè)性化信息和共性信息的協(xié)同學(xué)習(xí),這在一定程度上提高了算法的聚類性能。
MultiNMF 算法采用非負(fù)矩陣分解策略進(jìn)一步挖掘了多視角數(shù)據(jù)之間的隱性信息,提高了算法的聚類性能。但是,MultiNMF 算法僅利用隱性信息會(huì)過多地偏重于共性信息,而未能有效利用個(gè)性化信息。與MultiNMF算法不同,本文所提算法不僅挖掘多視角數(shù)據(jù)的隱性信息,而且在聚類過程實(shí)現(xiàn)了隱性信息和原始特征集的協(xié)同學(xué)習(xí),大大提高了算法的聚類性能。
通過觀察圖2、圖3和圖4,可以直觀地看出本文算法優(yōu)于其他算法。多視角聚類算法Multi-NMF、Co-FKM和TW-K-means也都取得了良好的聚類性能。
Table 2 Parameter setting of algorithms表2 算法參數(shù)設(shè)置
Table 3 Performance of algorithms on Multiple Features dataset表3 各算法在Multiple Features數(shù)據(jù)集上的性能
Table 4 Performance of algorithms on Image Segmentation dataset表4 各算法在Image Segmentation數(shù)據(jù)集上的性能
Table 5 Performance of algorithms on Dermatology dataset表5 各算法在Dermatology數(shù)據(jù)集上的性能
Table 6 Performance of algorithms on 3-Sources dataset表6 各算法在3-Sources數(shù)據(jù)集上的性能
Table 7 Performance of algorithms on WebKB dataset表7 各算法在WebKB數(shù)據(jù)集上的性能
Fig.2 Mean NMI of each algorithm on all datasets圖2 所有數(shù)據(jù)集上每種算法的平均NMI
Fig.4 Mean Precision of each algorithm on all datasets圖4 所有數(shù)據(jù)集上每種算法的平均Precision
綜上所述,在對(duì)多視角數(shù)據(jù)進(jìn)行聚類時(shí),本文所提算法的聚類性能優(yōu)于其他聚類算法。
多視角學(xué)習(xí)的關(guān)鍵是如何綜合利用各視角間個(gè)性化信息和共性信息,原始的各視角數(shù)據(jù)更多地反映了個(gè)性化信息,隱性信息的引入使得共性信息也得到了較充分的應(yīng)用。這也是本文所提算法依據(jù)的核心思想。
為了驗(yàn)證將隱性信息引入到本文算法中的優(yōu)勢(shì),本節(jié)對(duì)隱性信息對(duì)多視角聚類性能的影響進(jìn)行了實(shí)驗(yàn)分析。分別在有隱性信息和無(wú)隱性信息情況下,對(duì)本文算法的聚類結(jié)果進(jìn)行了比較。由于空間限制,只給出NMI指標(biāo)值,具體結(jié)果見表8,另外兩個(gè)評(píng)價(jià)指標(biāo)與NMI有類似的結(jié)果。通過觀察表8的聚類結(jié)果可以看出,隱性信息的引入有助于提高大多數(shù)數(shù)據(jù)集的聚類性能。
Table 8 Performance of algorithm with and without hidden information表8 有無(wú)隱性信息的算法性能
正則化參數(shù)β控制香農(nóng)熵正則化項(xiàng)的影響,為了驗(yàn)證該參數(shù)對(duì)本文算法性能的影響,本節(jié)針對(duì)正則化參數(shù)β進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)中,將參數(shù)m和α固定,并逐漸改變參數(shù)β的值,其中β的取值范圍為{2-6,2-5,…,25,26}。由于文章篇幅限制,只顯示在Multiple Features 和Image Segmentation 兩個(gè)多視角數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖5和圖6分別繪制了基于NMI、RI和Precision的聚類性能,其中橫坐標(biāo)表示{2-6,2-5,…,25,26}從左至右的順序序號(hào)。從圖5和圖6中可以看出,在2-6到26范圍內(nèi),當(dāng)選擇一個(gè)合適的β值,可得到最好的聚類結(jié)果。
Fig.5 Performance curve with varying β on Multiple Features圖5 Multiple Features上算法性能隨β 變化的曲線
Fig.6 Performance curve with varying β on Image Segmentation圖6 Image Segmentation上算法性能隨β 變化的曲線
本文提出了一種新的多視角聚類算法,即融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。為了從多視角數(shù)據(jù)中學(xué)習(xí)更有效的稀疏隱視角信息,本文首先提出了一種多視角稀疏隱信息學(xué)習(xí)模型,然后在聚類過程中實(shí)現(xiàn)原始特征集與稀疏隱視角信息的協(xié)同學(xué)習(xí)。實(shí)驗(yàn)研究表明,在UCI數(shù)據(jù)集和真實(shí)的多視角數(shù)據(jù)集上,所提算法在處理多視角聚類問題時(shí)相比其他聚類算法有更好的聚類性能。
雖然本文所提算法在處理多視角數(shù)據(jù)時(shí)已經(jīng)取得較好的效果,但是還有很大的改進(jìn)空間,比如針對(duì)高維多視角數(shù)據(jù),引入軟子空間聚類策略[36,40]來實(shí)現(xiàn)顯隱信息的協(xié)同學(xué)習(xí)有望取得更好的聚類效果。此外,在實(shí)際應(yīng)用中如何確定最優(yōu)的參數(shù),也是將來研究的重點(diǎn)。