亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法*

2019-12-19 17:25:02劉瑞秀高艷麗鄧趙紅王士同

計(jì)算機(jī)與生活 2019年12期

關(guān)鍵詞：集上隱性聚類

劉瑞秀，高艷麗，鄧趙紅+，王士同

1.江南大學(xué) 數(shù)字媒體學(xué)院，江蘇無(wú)錫 214122

2.江南計(jì)算技術(shù)研究所，江蘇無(wú)錫 214083

1 引言

聚類是一種基于相似性信息，將對(duì)象或數(shù)據(jù)樣本劃分為若干組或類的方法。聚類是一種無(wú)監(jiān)督學(xué)習(xí)技術(shù)，它作為一種重要的數(shù)據(jù)處理方法，在數(shù)據(jù)挖掘、圖像處理、模式識(shí)別等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)的聚類分析方法主要有K-means[1-3]、FCM（fuzzy C-means）[4-6]、MEC（maximum entropy clustering algorithm）[7-8]、PCM（possibilistic C-means algorithm）[9-10]、譜聚類[11-12]等。這些方法具有計(jì)算簡(jiǎn)單、速度快等特點(diǎn)，并且有著廣泛的應(yīng)用領(lǐng)域。但是，隨著現(xiàn)代技術(shù)的發(fā)展，所采集數(shù)據(jù)的大小、屬性等越來越復(fù)雜。許多數(shù)據(jù)集都可以用不同的屬性集描述，即多視角數(shù)據(jù)。例如一個(gè)文檔可以被翻譯成英語(yǔ)、漢語(yǔ)兩種語(yǔ)言；一個(gè)網(wǎng)頁(yè)可以用兩個(gè)視角描述，一個(gè)是網(wǎng)頁(yè)上出現(xiàn)的文本，另一個(gè)是指向該網(wǎng)頁(yè)的超鏈接上的文本。不同的視角之間通常提供兼容和互補(bǔ)的信息。由于傳統(tǒng)的聚類分析方法只使用數(shù)據(jù)樣本的一個(gè)特征集或一個(gè)視角，其在處理多視角數(shù)據(jù)集時(shí)，不能充分利用視角與視角間的關(guān)聯(lián)性。因此，如何從多視角數(shù)據(jù)中整合信息，以獲得更好的聚類性能已成為機(jī)器學(xué)習(xí)中的一個(gè)重要的課題。

近年來，為了提高多視角聚類算法的性能，已經(jīng)開發(fā)了許多多視角聚類方法。文獻(xiàn)[13]基于期望最大化提出了協(xié)同聚類算法Co-EM（collaborative expectationmaximization algorithm）算法；同樣基于協(xié)同的思想，文獻(xiàn)[14]提出了一種雙視角譜聚類的算法。文獻(xiàn)[15]提出了多視角譜聚類算法，這些都是早期基于協(xié)同思想的多視角聚類算法?；诮?jīng)典的K-means算法，文獻(xiàn)[16]提出了雙層變量自動(dòng)加權(quán)聚類算法TW-Kmeans。通過在經(jīng)典的模糊C-均值（FCM）中引入?yún)f(xié)同的思想，文獻(xiàn)[17]提出了一種協(xié)同聚類算法Co-FC（collaborative fuzzy clustering）算法。文獻(xiàn)[18]基于FCM算法提出多視角模糊聚類算法Co-FKM（collaborative fuzzyK-means），該算法通過在目標(biāo)函數(shù)中引入一個(gè)懲罰項(xiàng)，減少了不同視角之間劃分的不一致性。文獻(xiàn)[19]以經(jīng)典的FCM 算法為框架，提出了多視角模糊聚類Co-FCM算法，然后為了識(shí)別每個(gè)視角的重要性程度，文獻(xiàn)[19]基于香農(nóng)熵又提出了其增強(qiáng)版本多視角加權(quán)協(xié)同模糊聚類算法WV-Co-FCM。文獻(xiàn)[20]在經(jīng)典的FCM 算法中引入了最小最大優(yōu)化項(xiàng)，提出了多視角模糊聚類算法MinimaxFCM。

另一方面，一些文獻(xiàn)提出通過不同的方法將多視角數(shù)據(jù)從不同的特征空間轉(zhuǎn)換到一個(gè)共同的低維特征空間。這個(gè)低維空間的數(shù)據(jù)就是嵌入在多視角數(shù)據(jù)的隱性信息。例如文獻(xiàn)[21]提出了一種基于聯(lián)合非負(fù)矩陣分解的多視角聚類算法，該算法首先通過聯(lián)合非負(fù)矩陣分解方法將從每個(gè)視角學(xué)習(xí)的系數(shù)矩陣規(guī)范化成一個(gè)共同的一致性矩陣，然后直接應(yīng)用K-means或其他聚類算法對(duì)一致性矩陣聚類。文獻(xiàn)[22]基于核典范相關(guān)分析提出了相關(guān)譜聚類算法，該算法首先將多視角數(shù)據(jù)從多個(gè)特征空間映射到一個(gè)共同的低維子空間，然后應(yīng)用K-means等聚類算法對(duì)低維空間的數(shù)據(jù)進(jìn)行聚類。文獻(xiàn)[23]基于無(wú)向潛在的空間馬爾可夫網(wǎng)絡(luò)，通過提出一個(gè)通用的大邊緣學(xué)習(xí)框架來發(fā)現(xiàn)由多個(gè)視角共享的預(yù)測(cè)潛在子空間表示。

盡管上述文獻(xiàn)提出的多視角聚類方法為解決多視角聚類問題提出了可行的方案，并且也都取得了很好的聚類性能，但是有兩個(gè)主要的缺點(diǎn)。第一，一些多視角聚類算法[16-19]主要運(yùn)用多視角數(shù)據(jù)集的原始特征聚類，而沒有深入挖掘各視角間存在的隱性信息，這些隱性信息往往對(duì)聚類效果起重要的作用。第二，一些多視角聚類算法[21-23]試圖發(fā)現(xiàn)嵌入在多視角數(shù)據(jù)中的隱性信息并基于隱性信息進(jìn)行聚類，但此類算法會(huì)不同程度地丟失原始特征的信息。這是由于原始的各視角數(shù)據(jù)更多地反映了個(gè)性化信息，僅用隱性信息會(huì)過多地偏重于共性信息，而對(duì)個(gè)性化信息沒能有效使用。多視角學(xué)習(xí)的關(guān)鍵是如何綜合利用各視角間個(gè)性化信息和共性信息。在多視角聚類中，如何將個(gè)性化信息和共性信息有效融合起來，是一個(gè)具有挑戰(zhàn)性的課題。

針對(duì)上述挑戰(zhàn)，本文提出了融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。該算法首先通過求解一個(gè)多視角稀疏隱信息學(xué)習(xí)模型得到多視角數(shù)據(jù)共享的稀疏表示系數(shù)矩陣，即隱性信息。該隱性信息在一定程度上描述了不同數(shù)據(jù)點(diǎn)之間的共性信息，并且具有稀疏性。然后，采用協(xié)同學(xué)習(xí)的方式同時(shí)對(duì)原始特征集和隱性信息聚類，同時(shí)引入香農(nóng)熵策略自適應(yīng)地調(diào)整不同原視角的權(quán)重。將上述策略應(yīng)用到經(jīng)典的FCM 聚類框架，得到融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。

2 相關(guān)工作

2.1 多視角聚類

傳統(tǒng)的單視角聚類算法處理多視角數(shù)據(jù)的框架如圖1所示。在處理多視角數(shù)據(jù)時(shí)，傳統(tǒng)的聚類方法通常獨(dú)立地考慮每個(gè)視角，并將每個(gè)視角視為獨(dú)立的聚類任務(wù)，分別對(duì)每個(gè)視角進(jìn)行聚類獲得每個(gè)視角下的劃分矩陣，然后使用簡(jiǎn)單加權(quán)或集成學(xué)習(xí)機(jī)制[24-25]獲得全局的劃分矩陣。這種方式雖然為單視角算法處理多視角數(shù)據(jù)提供了一種可行的方法，但是簡(jiǎn)單地進(jìn)行加權(quán)整合沒有考慮到視角與視角間的關(guān)聯(lián)性，這在一定程度上會(huì)造成聚類效果不佳。與此不同的是，多視角聚類充分利用來自不同視角的信息，通過運(yùn)用不同視角之間的相關(guān)性和協(xié)作來訓(xùn)練模型?，F(xiàn)有的多視角聚類算法大致可以分為三類。第一類算法在聚類過程中實(shí)現(xiàn)視角間的協(xié)同學(xué)習(xí)[16-20]。第二類算法試圖發(fā)現(xiàn)嵌入在多視角數(shù)據(jù)中共同低維子空間的表示，然后再用某種單視角聚類算法對(duì)這個(gè)數(shù)據(jù)進(jìn)行聚類[21-23]。第三類就是后期融合[26-27]，也就是分別處理每個(gè)視角的數(shù)據(jù)，最終的聚類結(jié)果來自每個(gè)單獨(dú)的視角聚類結(jié)果的整合。例如文獻(xiàn)[26]通過引入映射函數(shù)，使得來自不同視角的集群具有可比性，同時(shí)從多個(gè)視角的多個(gè)集群中學(xué)習(xí)最佳的集群；文獻(xiàn)[27]基于在單個(gè)數(shù)據(jù)集上計(jì)算不同的相似矩陣，并且聚合形成組合相似度矩陣，然后將其用于獲得最終聚類結(jié)果。

Fig.1 Classical framework of single view clustering algorithms for multi-view data圖1 經(jīng)典的單視角聚類算法處理多視角的框架

2.2 稀疏表示

近年來，稀疏表示[28-29]（sparse representation，SR）在模式識(shí)別、圖像處理等研究領(lǐng)域受到了廣泛的關(guān)注和研究，其目的就是在給定的字典中，用盡可能少的原子的線性組合來表示數(shù)據(jù)，由此獲取數(shù)據(jù)樣本之間的聯(lián)系。最簡(jiǎn)單的稀疏表示模型是：

其中，||c||0是l0范數(shù)，用來計(jì)算c中非零元素的個(gè)數(shù)；y∈Rd是數(shù)據(jù)樣本，D∈Rd×K是字典矩陣，x∈RK是系數(shù)向量。由于式（1）是NP難問題，因此通常用l1范數(shù)來代替l0范數(shù)。字典的選取是至關(guān)重要的，許多稀疏表示模型都用數(shù)據(jù)集本身作為字典，即稀疏自表示。許多算法都采用數(shù)據(jù)集本身作為字典，例如文獻(xiàn)[28]使用數(shù)據(jù)集本身作為字典，提出了一種稀疏子空間聚類算法（sparse subspace clustering，SSC）；文獻(xiàn)[29]提出了一種低秩表示的子空間聚類方法（low rank representation，LRR）。通過SSC、LRR 等算法得到的稀疏表示系數(shù)矩陣能很好地反映數(shù)據(jù)集的潛在的群結(jié)構(gòu)信息，并且具有稀疏性，從中能夠很好地發(fā)現(xiàn)數(shù)據(jù)樣本間的關(guān)系。這促使把稀疏表示方法應(yīng)用到多視角聚類中。

3 融合稀疏隱視角信息學(xué)習(xí)的多視角聚類

3.1 多視角稀疏隱信息抽取

給定一個(gè)多視角數(shù)據(jù)集X={X(1)X(2),…,X(K)}，共K個(gè)視角，第k個(gè)視角的樣本集用矩陣表示為，1 ≤k≤K。其中N表示樣本個(gè)數(shù)，dk表示第k個(gè)視角的特征數(shù)。通過解決如下優(yōu)化問題得到多視角數(shù)據(jù)的稀疏隱視角信息：

其中，Z∈RN×N是多視角數(shù)據(jù)共享的稀疏表示系數(shù)矩陣，即隱視角。||.||F是Frobenius范數(shù)，||.||1是l1范數(shù)，diag(Z) 是隱視角Z的對(duì)角線元素，并且約束條件diag(Z)=0可避免平凡解，即避免每個(gè)樣本用自身表示。

在式（2）中，每一項(xiàng)的描述如下：

（2）第二項(xiàng)||Z||1是l1正則化項(xiàng)，該項(xiàng)的目的是使隱視角盡可能地稀疏。

（3）第三項(xiàng)是流形正則化項(xiàng)，該項(xiàng)是為了維持每個(gè)視角中的原始特征的流形結(jié)構(gòu)。對(duì)于第k個(gè)視角，如果兩個(gè)數(shù)據(jù)點(diǎn)在原始的特征空間中彼此接近，那么在隱視角中，這兩個(gè)數(shù)據(jù)點(diǎn)也應(yīng)該是彼此接近。第k個(gè)視角的相似度矩陣為S(k)，讓，則有：

其中，L(k)=D(k)-S(k)是圖拉普拉斯矩陣。

（4）λ和η是正則化參數(shù)，分別平衡相應(yīng)項(xiàng)的影響。

為了求解式（2），首先引入一個(gè)輔助變量C，則式（2）被轉(zhuǎn)換為：

采用交替方向乘子法（alternating direction method of multipliers，ADMM）[30]求解式（4）。由此可獲得式（4）的增廣拉格朗日形式為：

（1）固定Z和Q，優(yōu)化C。

其中，cj、zj、qj和分別是C、Z、Q和的第j列，j=1,2,…,N。可以使用文獻(xiàn)[31-32]中的策略求解式（7），式（7）有閉式解。由此可得C的更新規(guī)則如下：

（2）固定C和Q，優(yōu)化Z。

對(duì)上式Z求偏導(dǎo)數(shù)并使其導(dǎo)數(shù)為0，可得：

因此可以通過求解下式得到Z的更新公式：

（3）固定Z和C，更新乘子Q。

乘子Q可以簡(jiǎn)單地按照以下規(guī)則更新：

因此，通過ADMM方法求解式（4）的完整的算法描述如算法1所示。

算法1ADMM方法求解式（4）

輸入：給定一個(gè)多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)}，共K個(gè)視角，第k個(gè)視角的樣本集為1 ≤k≤K，參數(shù)λ、η。

1.初始化Q=0，Z=C=0，ρ=1.1，迭代閾值ε=10-6；

2.根據(jù)式（8）更新C；

3.通過求解式（12）更新隱視角Z；

4.根據(jù)式（13）更新Q；

5.更新μ=μρ；

6.如果||Z-C||∞＜ε，則算法停止迭代循環(huán)，否則返回步驟2；

輸出：稀疏隱視角Z。

3.2 融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法

給定一個(gè)多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)}，共K個(gè)視角，第k個(gè)視角的樣本集為通過算法1，可以獲得多視角數(shù)據(jù)共享的稀疏隱視角數(shù)據(jù)。該隱視角數(shù)據(jù)在一定程度上反映了多視角數(shù)據(jù)的全局結(jié)構(gòu)信息，并且具有稀疏性。因此，基于原始的特征集和隱視角數(shù)據(jù)，本文提出了一種新的多視角聚類算法，即融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法，其目標(biāo)函數(shù)為：

其中，Z=[z1,z2,…,zN]∈RN×N是隱視角數(shù)據(jù)；U是C×N的模糊劃分矩陣；V={V(1)，V(2)，…，V(K)}是K個(gè)原視角的聚類中心的集合，是第k個(gè)原視角的聚類中心矩陣，表示第k個(gè)原視角的聚類i的類中心；是隱視角的聚類中心矩陣，表示隱視角的聚類i的類中心；向量w=[w1,w2,…,wK]是原視角劃分權(quán)重的集合，wk是分配給第k個(gè)原視角的權(quán)重；模糊指數(shù)m＞1；α是正則化參數(shù)。

為了自適應(yīng)調(diào)整各原視角的權(quán)重，式（14）引入了香農(nóng)熵正則化項(xiàng)。讓，且wk≥0，將各原視角權(quán)重看作概率分布，則其香農(nóng)熵表示為。最小化負(fù)香農(nóng)熵趨向于使得各個(gè)視角具有相等的重要性。β是正則化參數(shù)，用來控制香農(nóng)熵正則化項(xiàng)的影響。

對(duì)于式（14），這里給出如下的進(jìn)一步說明：一方面，如果聚類目標(biāo)函數(shù)僅考慮在聚類數(shù)據(jù)上各視角的聚類緊度，即文中式（14）的第一項(xiàng)，則最小化該項(xiàng)則趨向于讓類內(nèi)緊度最小的視角占有很大重要性，而其他視角的作用完全被忽略；一方面，最大化各視角權(quán)重對(duì)應(yīng)的香農(nóng)熵，即最小化負(fù)香農(nóng)熵趨向于使得各個(gè)視角具有相等的重要性，這在沒有任何先驗(yàn)信息作指導(dǎo)時(shí)是合理的。上述兩種情況都走上了極端，因此通過引入正則化參數(shù)β來平衡兩項(xiàng)的作用是一種較好的處理方式，通過調(diào)節(jié)參數(shù)，可得到最佳的聚類效果。

3.3 目標(biāo)函數(shù)的優(yōu)化

通過迭代求解如下4個(gè)子問題最小化式（14）：

問題1固定和，并解決子問題

問題2固定并解決子問題

問題3固定并解決子問題

問題4固定并解決子問題

（1）問題1的解決方案由定理1給出。

定理1當(dāng)最小化時(shí)的必要條件為：

證明利用給定的模糊劃分矩陣、隱視角的類中心矩陣和權(quán)重向量，對(duì)目標(biāo)函數(shù)求偏導(dǎo)，并令，可得：

由此定理1得證。 □

（2）問題2的解決方案由定理2給出。

定理2當(dāng)最小化時(shí)的必要條件為：

證明利用給定的模糊劃分矩陣、原視角的類中心矩陣和權(quán)重向量，對(duì)目標(biāo)函數(shù)求偏導(dǎo)，并令，可得：

由此定理2得證。 □

（3）問題3的解決方案由定理3給出。

定理3當(dāng)最小化時(shí)的必要條件為：

證明對(duì)于目標(biāo)函數(shù)（14），由于有一個(gè)約束條件,uij∈[0,1],1 ≤j≤N，則可以建立如下的拉格朗日函數(shù)：

上式分別對(duì)uij、γ1求導(dǎo)，并使得導(dǎo)數(shù)為0，得到：

進(jìn)而得到：

由此定理3得證。 □

（4）問題4的解決方案由定理4給出。

定理4當(dāng)最小化時(shí)的必要條件為：

證明對(duì)于目標(biāo)函數(shù)（14），由于有一個(gè)約束條件則可以建立如下的拉格朗日函數(shù)：

上式分別對(duì)wk、γ2求導(dǎo)，并使得導(dǎo)數(shù)為0，得到：

進(jìn)而得到：

由此定理4得證。 □

3.4 算法描述

根據(jù)3.3節(jié)推導(dǎo)的參數(shù)學(xué)習(xí)規(guī)則，下面給出所提算法的具體過程，如算法2所示。

算法2融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法

輸入：多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)}，共K個(gè)視角，第k個(gè)視角的樣本集為參數(shù)α、β，模糊指數(shù)m，迭代閾值ε，當(dāng)前迭代次數(shù)t，聚類數(shù)目n。

1.由算法1得到隱視角數(shù)據(jù)Z；

2.初始化隨機(jī)產(chǎn)生歸一化的隸屬度uij，隨機(jī)產(chǎn)生歸一化的原視角權(quán)重wk；

5.根據(jù)式（19）更新uij；

6.根據(jù)式（24）更新各原視角的權(quán)重wk；

7.如果||Jt+1-Jt||＜ε，則算法停止迭代循環(huán)，否則返回步驟3。

輸出：模糊劃分矩陣U，原視角聚類中心點(diǎn)隱視角聚類中心點(diǎn)，各原視角權(quán)重wk。

4 實(shí)驗(yàn)研究

4.1 數(shù)據(jù)集

為了驗(yàn)證本文所提算法的聚類有效性，本文選擇了5個(gè)多視角數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，這些數(shù)據(jù)集分別是Multiple Features 數(shù)據(jù)集、Image Segmentation 數(shù) 據(jù)集、Dermatology數(shù)據(jù)集、3-Sources數(shù)據(jù)集[33]和WebKB數(shù)據(jù)集。這些數(shù)據(jù)集的信息統(tǒng)計(jì)如表1所示。

Table1 Statistics of multi-view datasets表1 多視角數(shù)據(jù)集統(tǒng)計(jì)

（1）Multiple Features 數(shù)據(jù)集來自于UCI 數(shù)據(jù)集庫(kù)。數(shù)據(jù)集由2 000個(gè)樣本組成，其中視角1是傅里葉系數(shù)視角，該視角描述字符形狀的傅里葉系數(shù)，視角2是Zernike矩視角，描述字符形狀的Zernike矩。

（2）Image Segmentation 數(shù)據(jù)集來自于UCI 數(shù)據(jù)集庫(kù)，由2 310個(gè)樣本組成，包含兩個(gè)視角，分別是形狀視角和RGB視角。

（3）Dermatology數(shù)據(jù)集來自于UCI數(shù)據(jù)集庫(kù)，由366個(gè)樣本組成，其中視角1是組織病理學(xué)視角，視角2是臨床視角。

（4）3-Sources數(shù)據(jù)集是從3個(gè)在線新聞來源收集的，選擇所有3個(gè)來源報(bào)道的169個(gè)新聞故事，這些故事被手工分成6類，每個(gè)來源看作一個(gè)故事的視角。

（5）WebKB數(shù)據(jù)集由4個(gè)大學(xué)的網(wǎng)頁(yè)組成，每個(gè)網(wǎng)頁(yè)由3個(gè)視角組成：網(wǎng)頁(yè)上的文本、指向它的超鏈接上的錨文本以及標(biāo)題中的文本。選擇其中1個(gè)大學(xué)的網(wǎng)頁(yè)作為本文實(shí)驗(yàn)的數(shù)據(jù)集。

4.2 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證本文所提算法的聚類性能，本文選擇了5個(gè)聚類算法作對(duì)比。通過比較5個(gè)多視角數(shù)據(jù)集在本文所提算法和對(duì)比算法上的實(shí)驗(yàn)結(jié)果來驗(yàn)證本文所提算法的聚類性能。實(shí)驗(yàn)中采用的對(duì)比算法有基于多任務(wù)的組合K-means 算法（CombKM）[34]、基于樣本與特征空間協(xié)同聚類的Co-clustering 算法[35]、多視角模糊聚類算法Co-FKM[18]、多視角雙層變量自動(dòng)加權(quán)聚類算法TW-K-means[16]、基于聯(lián)合非負(fù)矩陣分解的多視角聚類算法MultiNMF[21]。

本文采用歸一化互信息（normalized mutual information，NMI）36-37]、芮氏指標(biāo)（rand index，RI）[37-38]、精度（Precision）[39]3種評(píng)價(jià)指標(biāo)評(píng)估各聚類算法的聚類性能。3種評(píng)價(jià)指標(biāo)的取值范圍均為[0，1]，取值越高，表示算法的聚類性能越好。

（1）歸一化互信息（NMI）

（2）芮氏指標(biāo)（RI）

（3）精度（Precision）

其中，ni,j表示類i中的樣本被分到第j個(gè)聚類的數(shù)據(jù)樣本量；ni表示類i所包含的數(shù)據(jù)樣本量；nj表示第j個(gè)聚類所包含的數(shù)據(jù)樣本量；f00表示數(shù)據(jù)點(diǎn)具有不同的類標(biāo)簽并且屬于不同類的配對(duì)點(diǎn)數(shù)目；f11則表示數(shù)據(jù)點(diǎn)具有相同的類標(biāo)簽并且屬于同一類的配對(duì)點(diǎn)數(shù)目；N表示整個(gè)數(shù)據(jù)樣本的總量大小。

在本文實(shí)驗(yàn)部分，采用網(wǎng)格搜索策略確定每個(gè)算法的最優(yōu)參數(shù)，采用的尋優(yōu)范圍具體見表2。實(shí)驗(yàn)結(jié)果均由相關(guān)算法在最優(yōu)參數(shù)下運(yùn)行10次得到的均值及方差所組成。

4.3 實(shí)驗(yàn)分析

表3至表7分別顯示了在5個(gè)多視角數(shù)據(jù)集上，本文所提算法和其他5個(gè)對(duì)比算法在3個(gè)評(píng)價(jià)指標(biāo)上的實(shí)驗(yàn)結(jié)果。為了直觀地比較各個(gè)算法的聚類性能，圖2、圖3和圖4分別繪制了在所有數(shù)據(jù)集上每種算法的平均NMI、RI和Precision的值。

通過觀察表3至表7的實(shí)驗(yàn)結(jié)果，可以得到如下的結(jié)論。

和其他聚類算法相比，本文算法在5個(gè)多視角數(shù)據(jù)集上的聚類結(jié)果都是最高的。

本文所提算法明顯優(yōu)于多任務(wù)的組合K-means算法CombKM。從多視角數(shù)據(jù)集在CombKM算法上的聚類結(jié)果可以看出，簡(jiǎn)單地將多視角數(shù)據(jù)樣本進(jìn)行融合并不能取得較好的聚類性能。

通過觀察5個(gè)數(shù)據(jù)集在多視角聚類算法TW-Kmeans、Co-FKM上的結(jié)果可以看出，本文所提算法體現(xiàn)了一定的聚類優(yōu)勢(shì)。原始的多視角數(shù)據(jù)更多地反映了各視角間個(gè)性化信息。TW-K-means和Co-FKM算法在聚類過程中均只利用原始的特征集進(jìn)行聚類，而忽略了共性信息對(duì)聚類效果的影響。但是，本文所提算法通過引入隱性信息使得共性信息得到有效的利用，實(shí)現(xiàn)了個(gè)性化信息和共性信息的協(xié)同學(xué)習(xí)，這在一定程度上提高了算法的聚類性能。

MultiNMF 算法采用非負(fù)矩陣分解策略進(jìn)一步挖掘了多視角數(shù)據(jù)之間的隱性信息，提高了算法的聚類性能。但是，MultiNMF 算法僅利用隱性信息會(huì)過多地偏重于共性信息，而未能有效利用個(gè)性化信息。與MultiNMF算法不同，本文所提算法不僅挖掘多視角數(shù)據(jù)的隱性信息，而且在聚類過程實(shí)現(xiàn)了隱性信息和原始特征集的協(xié)同學(xué)習(xí)，大大提高了算法的聚類性能。

通過觀察圖2、圖3和圖4，可以直觀地看出本文算法優(yōu)于其他算法。多視角聚類算法Multi-NMF、Co-FKM和TW-K-means也都取得了良好的聚類性能。

Table 2 Parameter setting of algorithms表2 算法參數(shù)設(shè)置

Table 3 Performance of algorithms on Multiple Features dataset表3 各算法在Multiple Features數(shù)據(jù)集上的性能

Table 4 Performance of algorithms on Image Segmentation dataset表4 各算法在Image Segmentation數(shù)據(jù)集上的性能

Table 5 Performance of algorithms on Dermatology dataset表5 各算法在Dermatology數(shù)據(jù)集上的性能

Table 6 Performance of algorithms on 3-Sources dataset表6 各算法在3-Sources數(shù)據(jù)集上的性能

Table 7 Performance of algorithms on WebKB dataset表7 各算法在WebKB數(shù)據(jù)集上的性能

Fig.2 Mean NMI of each algorithm on all datasets圖2 所有數(shù)據(jù)集上每種算法的平均NMI

Fig.4 Mean Precision of each algorithm on all datasets圖4 所有數(shù)據(jù)集上每種算法的平均Precision

綜上所述，在對(duì)多視角數(shù)據(jù)進(jìn)行聚類時(shí)，本文所提算法的聚類性能優(yōu)于其他聚類算法。

4.4 隱性信息的影響及分析

多視角學(xué)習(xí)的關(guān)鍵是如何綜合利用各視角間個(gè)性化信息和共性信息，原始的各視角數(shù)據(jù)更多地反映了個(gè)性化信息，隱性信息的引入使得共性信息也得到了較充分的應(yīng)用。這也是本文所提算法依據(jù)的核心思想。

為了驗(yàn)證將隱性信息引入到本文算法中的優(yōu)勢(shì)，本節(jié)對(duì)隱性信息對(duì)多視角聚類性能的影響進(jìn)行了實(shí)驗(yàn)分析。分別在有隱性信息和無(wú)隱性信息情況下，對(duì)本文算法的聚類結(jié)果進(jìn)行了比較。由于空間限制，只給出NMI指標(biāo)值，具體結(jié)果見表8，另外兩個(gè)評(píng)價(jià)指標(biāo)與NMI有類似的結(jié)果。通過觀察表8的聚類結(jié)果可以看出，隱性信息的引入有助于提高大多數(shù)數(shù)據(jù)集的聚類性能。

Table 8 Performance of algorithm with and without hidden information表8 有無(wú)隱性信息的算法性能

4.5 參數(shù)分析

正則化參數(shù)β控制香農(nóng)熵正則化項(xiàng)的影響，為了驗(yàn)證該參數(shù)對(duì)本文算法性能的影響，本節(jié)針對(duì)正則化參數(shù)β進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)中，將參數(shù)m和α固定，并逐漸改變參數(shù)β的值，其中β的取值范圍為{2-6,2-5,…,25,26}。由于文章篇幅限制，只顯示在Multiple Features 和Image Segmentation 兩個(gè)多視角數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖5和圖6分別繪制了基于NMI、RI和Precision的聚類性能，其中橫坐標(biāo)表示{2-6,2-5,…,25,26}從左至右的順序序號(hào)。從圖5和圖6中可以看出，在2-6到26范圍內(nèi)，當(dāng)選擇一個(gè)合適的β值，可得到最好的聚類結(jié)果。

Fig.5 Performance curve with varying β on Multiple Features圖5 Multiple Features上算法性能隨β 變化的曲線

Fig.6 Performance curve with varying β on Image Segmentation圖6 Image Segmentation上算法性能隨β 變化的曲線

5 結(jié)束語(yǔ)

本文提出了一種新的多視角聚類算法，即融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。為了從多視角數(shù)據(jù)中學(xué)習(xí)更有效的稀疏隱視角信息，本文首先提出了一種多視角稀疏隱信息學(xué)習(xí)模型，然后在聚類過程中實(shí)現(xiàn)原始特征集與稀疏隱視角信息的協(xié)同學(xué)習(xí)。實(shí)驗(yàn)研究表明，在UCI數(shù)據(jù)集和真實(shí)的多視角數(shù)據(jù)集上，所提算法在處理多視角聚類問題時(shí)相比其他聚類算法有更好的聚類性能。

雖然本文所提算法在處理多視角數(shù)據(jù)時(shí)已經(jīng)取得較好的效果，但是還有很大的改進(jìn)空間，比如針對(duì)高維多視角數(shù)據(jù)，引入軟子空間聚類策略[36，40]來實(shí)現(xiàn)顯隱信息的協(xié)同學(xué)習(xí)有望取得更好的聚類效果。此外，在實(shí)際應(yīng)用中如何確定最優(yōu)的參數(shù)，也是將來研究的重點(diǎn)。