亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法*

        2019-12-19 17:25:02劉瑞秀高艷麗鄧趙紅王士同
        計(jì)算機(jī)與生活 2019年12期
        關(guān)鍵詞:集上隱性聚類

        劉瑞秀,高艷麗,鄧趙紅+,王士同

        1.江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無(wú)錫 214122

        2.江南計(jì)算技術(shù)研究所,江蘇 無(wú)錫 214083

        1 引言

        聚類是一種基于相似性信息,將對(duì)象或數(shù)據(jù)樣本劃分為若干組或類的方法。聚類是一種無(wú)監(jiān)督學(xué)習(xí)技術(shù),它作為一種重要的數(shù)據(jù)處理方法,在數(shù)據(jù)挖掘、圖像處理、模式識(shí)別等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)的聚類分析方法主要有K-means[1-3]、FCM(fuzzy C-means)[4-6]、MEC(maximum entropy clustering algorithm)[7-8]、PCM(possibilistic C-means algorithm)[9-10]、譜聚類[11-12]等。這些方法具有計(jì)算簡(jiǎn)單、速度快等特點(diǎn),并且有著廣泛的應(yīng)用領(lǐng)域。但是,隨著現(xiàn)代技術(shù)的發(fā)展,所采集數(shù)據(jù)的大小、屬性等越來越復(fù)雜。許多數(shù)據(jù)集都可以用不同的屬性集描述,即多視角數(shù)據(jù)。例如一個(gè)文檔可以被翻譯成英語(yǔ)、漢語(yǔ)兩種語(yǔ)言;一個(gè)網(wǎng)頁(yè)可以用兩個(gè)視角描述,一個(gè)是網(wǎng)頁(yè)上出現(xiàn)的文本,另一個(gè)是指向該網(wǎng)頁(yè)的超鏈接上的文本。不同的視角之間通常提供兼容和互補(bǔ)的信息。由于傳統(tǒng)的聚類分析方法只使用數(shù)據(jù)樣本的一個(gè)特征集或一個(gè)視角,其在處理多視角數(shù)據(jù)集時(shí),不能充分利用視角與視角間的關(guān)聯(lián)性。因此,如何從多視角數(shù)據(jù)中整合信息,以獲得更好的聚類性能已成為機(jī)器學(xué)習(xí)中的一個(gè)重要的課題。

        近年來,為了提高多視角聚類算法的性能,已經(jīng)開發(fā)了許多多視角聚類方法。文獻(xiàn)[13]基于期望最大化提出了協(xié)同聚類算法Co-EM(collaborative expectationmaximization algorithm)算法;同樣基于協(xié)同的思想,文獻(xiàn)[14]提出了一種雙視角譜聚類的算法。文獻(xiàn)[15]提出了多視角譜聚類算法,這些都是早期基于協(xié)同思想的多視角聚類算法?;诮?jīng)典的K-means算法,文獻(xiàn)[16]提出了雙層變量自動(dòng)加權(quán)聚類算法TW-Kmeans。通過在經(jīng)典的模糊C-均值(FCM)中引入?yún)f(xié)同的思想,文獻(xiàn)[17]提出了一種協(xié)同聚類算法Co-FC(collaborative fuzzy clustering)算法。文獻(xiàn)[18]基于FCM算法提出多視角模糊聚類算法Co-FKM(collaborative fuzzyK-means),該算法通過在目標(biāo)函數(shù)中引入一個(gè)懲罰項(xiàng),減少了不同視角之間劃分的不一致性。文獻(xiàn)[19]以經(jīng)典的FCM 算法為框架,提出了多視角模糊聚類Co-FCM算法,然后為了識(shí)別每個(gè)視角的重要性程度,文獻(xiàn)[19]基于香農(nóng)熵又提出了其增強(qiáng)版本多視角加權(quán)協(xié)同模糊聚類算法WV-Co-FCM。文獻(xiàn)[20]在經(jīng)典的FCM 算法中引入了最小最大優(yōu)化項(xiàng),提出了多視角模糊聚類算法MinimaxFCM。

        另一方面,一些文獻(xiàn)提出通過不同的方法將多視角數(shù)據(jù)從不同的特征空間轉(zhuǎn)換到一個(gè)共同的低維特征空間。這個(gè)低維空間的數(shù)據(jù)就是嵌入在多視角數(shù)據(jù)的隱性信息。例如文獻(xiàn)[21]提出了一種基于聯(lián)合非負(fù)矩陣分解的多視角聚類算法,該算法首先通過聯(lián)合非負(fù)矩陣分解方法將從每個(gè)視角學(xué)習(xí)的系數(shù)矩陣規(guī)范化成一個(gè)共同的一致性矩陣,然后直接應(yīng)用K-means或其他聚類算法對(duì)一致性矩陣聚類。文獻(xiàn)[22]基于核典范相關(guān)分析提出了相關(guān)譜聚類算法,該算法首先將多視角數(shù)據(jù)從多個(gè)特征空間映射到一個(gè)共同的低維子空間,然后應(yīng)用K-means等聚類算法對(duì)低維空間的數(shù)據(jù)進(jìn)行聚類。文獻(xiàn)[23]基于無(wú)向潛在的空間馬爾可夫網(wǎng)絡(luò),通過提出一個(gè)通用的大邊緣學(xué)習(xí)框架來發(fā)現(xiàn)由多個(gè)視角共享的預(yù)測(cè)潛在子空間表示。

        盡管上述文獻(xiàn)提出的多視角聚類方法為解決多視角聚類問題提出了可行的方案,并且也都取得了很好的聚類性能,但是有兩個(gè)主要的缺點(diǎn)。第一,一些多視角聚類算法[16-19]主要運(yùn)用多視角數(shù)據(jù)集的原始特征聚類,而沒有深入挖掘各視角間存在的隱性信息,這些隱性信息往往對(duì)聚類效果起重要的作用。第二,一些多視角聚類算法[21-23]試圖發(fā)現(xiàn)嵌入在多視角數(shù)據(jù)中的隱性信息并基于隱性信息進(jìn)行聚類,但此類算法會(huì)不同程度地丟失原始特征的信息。這是由于原始的各視角數(shù)據(jù)更多地反映了個(gè)性化信息,僅用隱性信息會(huì)過多地偏重于共性信息,而對(duì)個(gè)性化信息沒能有效使用。多視角學(xué)習(xí)的關(guān)鍵是如何綜合利用各視角間個(gè)性化信息和共性信息。在多視角聚類中,如何將個(gè)性化信息和共性信息有效融合起來,是一個(gè)具有挑戰(zhàn)性的課題。

        針對(duì)上述挑戰(zhàn),本文提出了融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。該算法首先通過求解一個(gè)多視角稀疏隱信息學(xué)習(xí)模型得到多視角數(shù)據(jù)共享的稀疏表示系數(shù)矩陣,即隱性信息。該隱性信息在一定程度上描述了不同數(shù)據(jù)點(diǎn)之間的共性信息,并且具有稀疏性。然后,采用協(xié)同學(xué)習(xí)的方式同時(shí)對(duì)原始特征集和隱性信息聚類,同時(shí)引入香農(nóng)熵策略自適應(yīng)地調(diào)整不同原視角的權(quán)重。將上述策略應(yīng)用到經(jīng)典的FCM 聚類框架,得到融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。

        2 相關(guān)工作

        2.1 多視角聚類

        傳統(tǒng)的單視角聚類算法處理多視角數(shù)據(jù)的框架如圖1所示。在處理多視角數(shù)據(jù)時(shí),傳統(tǒng)的聚類方法通常獨(dú)立地考慮每個(gè)視角,并將每個(gè)視角視為獨(dú)立的聚類任務(wù),分別對(duì)每個(gè)視角進(jìn)行聚類獲得每個(gè)視角下的劃分矩陣,然后使用簡(jiǎn)單加權(quán)或集成學(xué)習(xí)機(jī)制[24-25]獲得全局的劃分矩陣。這種方式雖然為單視角算法處理多視角數(shù)據(jù)提供了一種可行的方法,但是簡(jiǎn)單地進(jìn)行加權(quán)整合沒有考慮到視角與視角間的關(guān)聯(lián)性,這在一定程度上會(huì)造成聚類效果不佳。與此不同的是,多視角聚類充分利用來自不同視角的信息,通過運(yùn)用不同視角之間的相關(guān)性和協(xié)作來訓(xùn)練模型?,F(xiàn)有的多視角聚類算法大致可以分為三類。第一類算法在聚類過程中實(shí)現(xiàn)視角間的協(xié)同學(xué)習(xí)[16-20]。第二類算法試圖發(fā)現(xiàn)嵌入在多視角數(shù)據(jù)中共同低維子空間的表示,然后再用某種單視角聚類算法對(duì)這個(gè)數(shù)據(jù)進(jìn)行聚類[21-23]。第三類就是后期融合[26-27],也就是分別處理每個(gè)視角的數(shù)據(jù),最終的聚類結(jié)果來自每個(gè)單獨(dú)的視角聚類結(jié)果的整合。例如文獻(xiàn)[26]通過引入映射函數(shù),使得來自不同視角的集群具有可比性,同時(shí)從多個(gè)視角的多個(gè)集群中學(xué)習(xí)最佳的集群;文獻(xiàn)[27]基于在單個(gè)數(shù)據(jù)集上計(jì)算不同的相似矩陣,并且聚合形成組合相似度矩陣,然后將其用于獲得最終聚類結(jié)果。

        Fig.1 Classical framework of single view clustering algorithms for multi-view data圖1 經(jīng)典的單視角聚類算法處理多視角的框架

        2.2 稀疏表示

        近年來,稀疏表示[28-29](sparse representation,SR)在模式識(shí)別、圖像處理等研究領(lǐng)域受到了廣泛的關(guān)注和研究,其目的就是在給定的字典中,用盡可能少的原子的線性組合來表示數(shù)據(jù),由此獲取數(shù)據(jù)樣本之間的聯(lián)系。最簡(jiǎn)單的稀疏表示模型是:

        其中,||c||0是l0范數(shù),用來計(jì)算c中非零元素的個(gè)數(shù);y∈Rd是數(shù)據(jù)樣本,D∈Rd×K是字典矩陣,x∈RK是系數(shù)向量。由于式(1)是NP難問題,因此通常用l1范數(shù)來代替l0范數(shù)。字典的選取是至關(guān)重要的,許多稀疏表示模型都用數(shù)據(jù)集本身作為字典,即稀疏自表示。許多算法都采用數(shù)據(jù)集本身作為字典,例如文獻(xiàn)[28]使用數(shù)據(jù)集本身作為字典,提出了一種稀疏子空間聚類算法(sparse subspace clustering,SSC);文獻(xiàn)[29]提出了一種低秩表示的子空間聚類方法(low rank representation,LRR)。通過SSC、LRR 等算法得到的稀疏表示系數(shù)矩陣能很好地反映數(shù)據(jù)集的潛在的群結(jié)構(gòu)信息,并且具有稀疏性,從中能夠很好地發(fā)現(xiàn)數(shù)據(jù)樣本間的關(guān)系。這促使把稀疏表示方法應(yīng)用到多視角聚類中。

        3 融合稀疏隱視角信息學(xué)習(xí)的多視角聚類

        3.1 多視角稀疏隱信息抽取

        給定一個(gè)多視角數(shù)據(jù)集X={X(1)X(2),…,X(K)},共K個(gè)視角,第k個(gè)視角的樣本集用矩陣表示為,1 ≤k≤K。其中N表示樣本個(gè)數(shù),dk表示第k個(gè)視角的特征數(shù)。通過解決如下優(yōu)化問題得到多視角數(shù)據(jù)的稀疏隱視角信息:

        其中,Z∈RN×N是多視角數(shù)據(jù)共享的稀疏表示系數(shù)矩陣,即隱視角。||.||F是Frobenius范數(shù),||.||1是l1范數(shù),diag(Z) 是隱視角Z的對(duì)角線元素,并且約束條件diag(Z)=0可避免平凡解,即避免每個(gè)樣本用自身表示。

        在式(2)中,每一項(xiàng)的描述如下:

        (2)第二項(xiàng)||Z||1是l1正則化項(xiàng),該項(xiàng)的目的是使隱視角盡可能地稀疏。

        (3)第三項(xiàng)是流形正則化項(xiàng),該項(xiàng)是為了維持每個(gè)視角中的原始特征的流形結(jié)構(gòu)。對(duì)于第k個(gè)視角,如果兩個(gè)數(shù)據(jù)點(diǎn)在原始的特征空間中彼此接近,那么在隱視角中,這兩個(gè)數(shù)據(jù)點(diǎn)也應(yīng)該是彼此接近。第k個(gè)視角的相似度矩陣為S(k),讓,則有:

        其中,L(k)=D(k)-S(k)是圖拉普拉斯矩陣。

        (4)λ和η是正則化參數(shù),分別平衡相應(yīng)項(xiàng)的影響。

        為了求解式(2),首先引入一個(gè)輔助變量C,則式(2)被轉(zhuǎn)換為:

        采用交替方向乘子法(alternating direction method of multipliers,ADMM)[30]求解式(4)。由此可獲得式(4)的增廣拉格朗日形式為:

        (1)固定Z和Q,優(yōu)化C。

        其中,cj、zj、qj和分別是C、Z、Q和的第j列,j=1,2,…,N。可以使用文獻(xiàn)[31-32]中的策略求解式(7),式(7)有閉式解。由此可得C的更新規(guī)則如下:

        (2)固定C和Q,優(yōu)化Z。

        對(duì)上式Z求偏導(dǎo)數(shù)并使其導(dǎo)數(shù)為0,可得:

        因此可以通過求解下式得到Z的更新公式:

        (3)固定Z和C,更新乘子Q。

        乘子Q可以簡(jiǎn)單地按照以下規(guī)則更新:

        因此,通過ADMM方法求解式(4)的完整的算法描述如算法1所示。

        算法1ADMM方法求解式(4)

        輸入:給定一個(gè)多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)},共K個(gè)視角,第k個(gè)視角的樣本集為1 ≤k≤K,參數(shù)λ、η。

        1.初始化Q=0,Z=C=0,ρ=1.1,迭代閾值ε=10-6;

        2.根據(jù)式(8)更新C;

        3.通過求解式(12)更新隱視角Z;

        4.根據(jù)式(13)更新Q;

        5.更新μ=μρ;

        6.如果||Z-C||∞<ε,則算法停止迭代循環(huán),否則返回步驟2;

        輸出:稀疏隱視角Z。

        3.2 融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法

        給定一個(gè)多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)},共K個(gè)視角,第k個(gè)視角的樣本集為通過算法1,可以獲得多視角數(shù)據(jù)共享的稀疏隱視角數(shù)據(jù)。該隱視角數(shù)據(jù)在一定程度上反映了多視角數(shù)據(jù)的全局結(jié)構(gòu)信息,并且具有稀疏性。因此,基于原始的特征集和隱視角數(shù)據(jù),本文提出了一種新的多視角聚類算法,即融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法,其目標(biāo)函數(shù)為:

        其中,Z=[z1,z2,…,zN]∈RN×N是隱視角數(shù)據(jù);U是C×N的模糊劃分矩陣;V={V(1),V(2),…,V(K)}是K個(gè)原視角的聚類中心的集合,是第k個(gè)原視角的聚類中心矩陣,表示第k個(gè)原視角的聚類i的類中心;是隱視角的聚類中心矩陣,表示隱視角的聚類i的類中心;向量w=[w1,w2,…,wK]是原視角劃分權(quán)重的集合,wk是分配給第k個(gè)原視角的權(quán)重;模糊指數(shù)m>1;α是正則化參數(shù)。

        為了自適應(yīng)調(diào)整各原視角的權(quán)重,式(14)引入了香農(nóng)熵正則化項(xiàng)。讓,且wk≥0,將各原視角權(quán)重看作概率分布,則其香農(nóng)熵表示為。最小化負(fù)香農(nóng)熵趨向于使得各個(gè)視角具有相等的重要性。β是正則化參數(shù),用來控制香農(nóng)熵正則化項(xiàng)的影響。

        對(duì)于式(14),這里給出如下的進(jìn)一步說明:一方面,如果聚類目標(biāo)函數(shù)僅考慮在聚類數(shù)據(jù)上各視角的聚類緊度,即文中式(14)的第一項(xiàng),則最小化該項(xiàng)則趨向于讓類內(nèi)緊度最小的視角占有很大重要性,而其他視角的作用完全被忽略;一方面,最大化各視角權(quán)重對(duì)應(yīng)的香農(nóng)熵,即最小化負(fù)香農(nóng)熵趨向于使得各個(gè)視角具有相等的重要性,這在沒有任何先驗(yàn)信息作指導(dǎo)時(shí)是合理的。上述兩種情況都走上了極端,因此通過引入正則化參數(shù)β來平衡兩項(xiàng)的作用是一種較好的處理方式,通過調(diào)節(jié)參數(shù),可得到最佳的聚類效果。

        3.3 目標(biāo)函數(shù)的優(yōu)化

        通過迭代求解如下4個(gè)子問題最小化式(14):

        問題1固定和,并解決子問題

        問題2固定并解決子問題

        問題3固定并解決子問題

        問題4固定并解決子問題

        (1)問題1的解決方案由定理1給出。

        定理1當(dāng)最小化時(shí)的必要條件為:

        證明利用給定的模糊劃分矩陣、隱視角的類中心矩陣和權(quán)重向量,對(duì)目標(biāo)函數(shù)求偏導(dǎo),并令,可得:

        由此定理1得證。 □

        (2)問題2的解決方案由定理2給出。

        定理2當(dāng)最小化時(shí)的必要條件為:

        證明利用給定的模糊劃分矩陣、原視角的類中心矩陣和權(quán)重向量,對(duì)目標(biāo)函數(shù)求偏導(dǎo),并令,可得:

        由此定理2得證。 □

        (3)問題3的解決方案由定理3給出。

        定理3當(dāng)最小化時(shí)的必要條件為:

        證明對(duì)于目標(biāo)函數(shù)(14),由于有一個(gè)約束條件,uij∈[0,1],1 ≤j≤N,則可以建立如下的拉格朗日函數(shù):

        上式分別對(duì)uij、γ1求導(dǎo),并使得導(dǎo)數(shù)為0,得到:

        進(jìn)而得到:

        由此定理3得證。 □

        (4)問題4的解決方案由定理4給出。

        定理4當(dāng)最小化時(shí)的必要條件為:

        證明對(duì)于目標(biāo)函數(shù)(14),由于有一個(gè)約束條件則可以建立如下的拉格朗日函數(shù):

        上式分別對(duì)wk、γ2求導(dǎo),并使得導(dǎo)數(shù)為0,得到:

        進(jìn)而得到:

        由此定理4得證。 □

        3.4 算法描述

        根據(jù)3.3節(jié)推導(dǎo)的參數(shù)學(xué)習(xí)規(guī)則,下面給出所提算法的具體過程,如算法2所示。

        算法2融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法

        輸入:多視角數(shù)據(jù)集X={X(1),X(2),…,X(K)},共K個(gè)視角,第k個(gè)視角的樣本集為參數(shù)α、β,模糊指數(shù)m,迭代閾值ε,當(dāng)前迭代次數(shù)t,聚類數(shù)目n。

        1.由算法1得到隱視角數(shù)據(jù)Z;

        2.初始化隨機(jī)產(chǎn)生歸一化的隸屬度uij,隨機(jī)產(chǎn)生歸一化的原視角權(quán)重wk;

        5.根據(jù)式(19)更新uij;

        6.根據(jù)式(24)更新各原視角的權(quán)重wk;

        7.如果||Jt+1-Jt||<ε,則算法停止迭代循環(huán),否則返回步驟3。

        輸出:模糊劃分矩陣U,原視角聚類中心點(diǎn)隱視角聚類中心點(diǎn),各原視角權(quán)重wk。

        4 實(shí)驗(yàn)研究

        4.1 數(shù)據(jù)集

        為了驗(yàn)證本文所提算法的聚類有效性,本文選擇了5個(gè)多視角數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),這些數(shù)據(jù)集分別是Multiple Features 數(shù)據(jù)集、Image Segmentation 數(shù) 據(jù)集、Dermatology數(shù)據(jù)集、3-Sources數(shù)據(jù)集[33]和WebKB數(shù)據(jù)集。這些數(shù)據(jù)集的信息統(tǒng)計(jì)如表1所示。

        Table1 Statistics of multi-view datasets表1 多視角數(shù)據(jù)集統(tǒng)計(jì)

        (1)Multiple Features 數(shù)據(jù)集來自于UCI 數(shù)據(jù)集庫(kù)。數(shù)據(jù)集由2 000個(gè)樣本組成,其中視角1是傅里葉系數(shù)視角,該視角描述字符形狀的傅里葉系數(shù),視角2是Zernike矩視角,描述字符形狀的Zernike矩。

        (2)Image Segmentation 數(shù)據(jù)集來自于UCI 數(shù)據(jù)集庫(kù),由2 310個(gè)樣本組成,包含兩個(gè)視角,分別是形狀視角和RGB視角。

        (3)Dermatology數(shù)據(jù)集來自于UCI數(shù)據(jù)集庫(kù),由366個(gè)樣本組成,其中視角1是組織病理學(xué)視角,視角2是臨床視角。

        (4)3-Sources數(shù)據(jù)集是從3個(gè)在線新聞來源收集的,選擇所有3個(gè)來源報(bào)道的169個(gè)新聞故事,這些故事被手工分成6類,每個(gè)來源看作一個(gè)故事的視角。

        (5)WebKB數(shù)據(jù)集由4個(gè)大學(xué)的網(wǎng)頁(yè)組成,每個(gè)網(wǎng)頁(yè)由3個(gè)視角組成:網(wǎng)頁(yè)上的文本、指向它的超鏈接上的錨文本以及標(biāo)題中的文本。選擇其中1個(gè)大學(xué)的網(wǎng)頁(yè)作為本文實(shí)驗(yàn)的數(shù)據(jù)集。

        4.2 實(shí)驗(yàn)設(shè)置

        為了驗(yàn)證本文所提算法的聚類性能,本文選擇了5個(gè)聚類算法作對(duì)比。通過比較5個(gè)多視角數(shù)據(jù)集在本文所提算法和對(duì)比算法上的實(shí)驗(yàn)結(jié)果來驗(yàn)證本文所提算法的聚類性能。實(shí)驗(yàn)中采用的對(duì)比算法有基于多任務(wù)的組合K-means 算法(CombKM)[34]、基于樣本與特征空間協(xié)同聚類的Co-clustering 算法[35]、多視角模糊聚類算法Co-FKM[18]、多視角雙層變量自動(dòng)加權(quán)聚類算法TW-K-means[16]、基于聯(lián)合非負(fù)矩陣分解的多視角聚類算法MultiNMF[21]。

        本文采用歸一化互信息(normalized mutual information,NMI)36-37]、芮氏指標(biāo)(rand index,RI)[37-38]、精度(Precision)[39]3種評(píng)價(jià)指標(biāo)評(píng)估各聚類算法的聚類性能。3種評(píng)價(jià)指標(biāo)的取值范圍均為[0,1],取值越高,表示算法的聚類性能越好。

        (1)歸一化互信息(NMI)

        (2)芮氏指標(biāo)(RI)

        (3)精度(Precision)

        其中,ni,j表示類i中的樣本被分到第j個(gè)聚類的數(shù)據(jù)樣本量;ni表示類i所包含的數(shù)據(jù)樣本量;nj表示第j個(gè)聚類所包含的數(shù)據(jù)樣本量;f00表示數(shù)據(jù)點(diǎn)具有不同的類標(biāo)簽并且屬于不同類的配對(duì)點(diǎn)數(shù)目;f11則表示數(shù)據(jù)點(diǎn)具有相同的類標(biāo)簽并且屬于同一類的配對(duì)點(diǎn)數(shù)目;N表示整個(gè)數(shù)據(jù)樣本的總量大小。

        在本文實(shí)驗(yàn)部分,采用網(wǎng)格搜索策略確定每個(gè)算法的最優(yōu)參數(shù),采用的尋優(yōu)范圍具體見表2。實(shí)驗(yàn)結(jié)果均由相關(guān)算法在最優(yōu)參數(shù)下運(yùn)行10次得到的均值及方差所組成。

        4.3 實(shí)驗(yàn)分析

        表3至表7分別顯示了在5個(gè)多視角數(shù)據(jù)集上,本文所提算法和其他5個(gè)對(duì)比算法在3個(gè)評(píng)價(jià)指標(biāo)上的實(shí)驗(yàn)結(jié)果。為了直觀地比較各個(gè)算法的聚類性能,圖2、圖3和圖4分別繪制了在所有數(shù)據(jù)集上每種算法的平均NMI、RI和Precision的值。

        通過觀察表3至表7的實(shí)驗(yàn)結(jié)果,可以得到如下的結(jié)論。

        和其他聚類算法相比,本文算法在5個(gè)多視角數(shù)據(jù)集上的聚類結(jié)果都是最高的。

        本文所提算法明顯優(yōu)于多任務(wù)的組合K-means算法CombKM。從多視角數(shù)據(jù)集在CombKM算法上的聚類結(jié)果可以看出,簡(jiǎn)單地將多視角數(shù)據(jù)樣本進(jìn)行融合并不能取得較好的聚類性能。

        通過觀察5個(gè)數(shù)據(jù)集在多視角聚類算法TW-Kmeans、Co-FKM上的結(jié)果可以看出,本文所提算法體現(xiàn)了一定的聚類優(yōu)勢(shì)。原始的多視角數(shù)據(jù)更多地反映了各視角間個(gè)性化信息。TW-K-means和Co-FKM算法在聚類過程中均只利用原始的特征集進(jìn)行聚類,而忽略了共性信息對(duì)聚類效果的影響。但是,本文所提算法通過引入隱性信息使得共性信息得到有效的利用,實(shí)現(xiàn)了個(gè)性化信息和共性信息的協(xié)同學(xué)習(xí),這在一定程度上提高了算法的聚類性能。

        MultiNMF 算法采用非負(fù)矩陣分解策略進(jìn)一步挖掘了多視角數(shù)據(jù)之間的隱性信息,提高了算法的聚類性能。但是,MultiNMF 算法僅利用隱性信息會(huì)過多地偏重于共性信息,而未能有效利用個(gè)性化信息。與MultiNMF算法不同,本文所提算法不僅挖掘多視角數(shù)據(jù)的隱性信息,而且在聚類過程實(shí)現(xiàn)了隱性信息和原始特征集的協(xié)同學(xué)習(xí),大大提高了算法的聚類性能。

        通過觀察圖2、圖3和圖4,可以直觀地看出本文算法優(yōu)于其他算法。多視角聚類算法Multi-NMF、Co-FKM和TW-K-means也都取得了良好的聚類性能。

        Table 2 Parameter setting of algorithms表2 算法參數(shù)設(shè)置

        Table 3 Performance of algorithms on Multiple Features dataset表3 各算法在Multiple Features數(shù)據(jù)集上的性能

        Table 4 Performance of algorithms on Image Segmentation dataset表4 各算法在Image Segmentation數(shù)據(jù)集上的性能

        Table 5 Performance of algorithms on Dermatology dataset表5 各算法在Dermatology數(shù)據(jù)集上的性能

        Table 6 Performance of algorithms on 3-Sources dataset表6 各算法在3-Sources數(shù)據(jù)集上的性能

        Table 7 Performance of algorithms on WebKB dataset表7 各算法在WebKB數(shù)據(jù)集上的性能

        Fig.2 Mean NMI of each algorithm on all datasets圖2 所有數(shù)據(jù)集上每種算法的平均NMI

        Fig.4 Mean Precision of each algorithm on all datasets圖4 所有數(shù)據(jù)集上每種算法的平均Precision

        綜上所述,在對(duì)多視角數(shù)據(jù)進(jìn)行聚類時(shí),本文所提算法的聚類性能優(yōu)于其他聚類算法。

        4.4 隱性信息的影響及分析

        多視角學(xué)習(xí)的關(guān)鍵是如何綜合利用各視角間個(gè)性化信息和共性信息,原始的各視角數(shù)據(jù)更多地反映了個(gè)性化信息,隱性信息的引入使得共性信息也得到了較充分的應(yīng)用。這也是本文所提算法依據(jù)的核心思想。

        為了驗(yàn)證將隱性信息引入到本文算法中的優(yōu)勢(shì),本節(jié)對(duì)隱性信息對(duì)多視角聚類性能的影響進(jìn)行了實(shí)驗(yàn)分析。分別在有隱性信息和無(wú)隱性信息情況下,對(duì)本文算法的聚類結(jié)果進(jìn)行了比較。由于空間限制,只給出NMI指標(biāo)值,具體結(jié)果見表8,另外兩個(gè)評(píng)價(jià)指標(biāo)與NMI有類似的結(jié)果。通過觀察表8的聚類結(jié)果可以看出,隱性信息的引入有助于提高大多數(shù)數(shù)據(jù)集的聚類性能。

        Table 8 Performance of algorithm with and without hidden information表8 有無(wú)隱性信息的算法性能

        4.5 參數(shù)分析

        正則化參數(shù)β控制香農(nóng)熵正則化項(xiàng)的影響,為了驗(yàn)證該參數(shù)對(duì)本文算法性能的影響,本節(jié)針對(duì)正則化參數(shù)β進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)中,將參數(shù)m和α固定,并逐漸改變參數(shù)β的值,其中β的取值范圍為{2-6,2-5,…,25,26}。由于文章篇幅限制,只顯示在Multiple Features 和Image Segmentation 兩個(gè)多視角數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖5和圖6分別繪制了基于NMI、RI和Precision的聚類性能,其中橫坐標(biāo)表示{2-6,2-5,…,25,26}從左至右的順序序號(hào)。從圖5和圖6中可以看出,在2-6到26范圍內(nèi),當(dāng)選擇一個(gè)合適的β值,可得到最好的聚類結(jié)果。

        Fig.5 Performance curve with varying β on Multiple Features圖5 Multiple Features上算法性能隨β 變化的曲線

        Fig.6 Performance curve with varying β on Image Segmentation圖6 Image Segmentation上算法性能隨β 變化的曲線

        5 結(jié)束語(yǔ)

        本文提出了一種新的多視角聚類算法,即融合稀疏隱視角信息學(xué)習(xí)的多視角聚類算法。為了從多視角數(shù)據(jù)中學(xué)習(xí)更有效的稀疏隱視角信息,本文首先提出了一種多視角稀疏隱信息學(xué)習(xí)模型,然后在聚類過程中實(shí)現(xiàn)原始特征集與稀疏隱視角信息的協(xié)同學(xué)習(xí)。實(shí)驗(yàn)研究表明,在UCI數(shù)據(jù)集和真實(shí)的多視角數(shù)據(jù)集上,所提算法在處理多視角聚類問題時(shí)相比其他聚類算法有更好的聚類性能。

        雖然本文所提算法在處理多視角數(shù)據(jù)時(shí)已經(jīng)取得較好的效果,但是還有很大的改進(jìn)空間,比如針對(duì)高維多視角數(shù)據(jù),引入軟子空間聚類策略[36,40]來實(shí)現(xiàn)顯隱信息的協(xié)同學(xué)習(xí)有望取得更好的聚類效果。此外,在實(shí)際應(yīng)用中如何確定最優(yōu)的參數(shù),也是將來研究的重點(diǎn)。

        猜你喜歡
        集上隱性聚類
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        隱性就業(yè)歧視的司法認(rèn)定
        基于DBSACN聚類算法的XML文檔聚類
        復(fù)扇形指標(biāo)集上的分布混沌
        基于改進(jìn)的遺傳算法的模糊聚類算法
        芻議隱性采訪
        新聞傳播(2015年14期)2015-07-18 11:14:05
        新聞報(bào)道隱性失實(shí)的四種表現(xiàn)
        新聞傳播(2015年8期)2015-07-18 11:08:25
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        隱性但可預(yù)防的危險(xiǎn)
        午夜亚洲www湿好大| 蜜桃18禁成人午夜免费网站| 亚洲sm另类一区二区三区| 无码人妻丰满熟妇片毛片 | 熟女人妻丰满熟妇啪啪| 亚洲av一区二区三区网站| 精品女同一区二区三区| 欧美性色黄大片手机版| 亚洲V日韩V精品v无码专区小说| 亚洲不卡av不卡一区二区| 人妖国产视频一区二区| 色视频综合无码一区二区三区| 中文无码精品一区二区三区| 亚欧免费无码AⅤ在线观看| 午夜男女靠比视频免费| 国产内射爽爽大片视频社区在线 | 国产成人无码一区二区在线播放| 欧美视频第一页| 少妇一级内射精品免费| 人人妻人人澡人人爽欧美一区 | 亚洲av无码成人精品国产| 色哟哟网站在线观看| 久久99精品久久久66| 亚洲av网一区二区三区成人| 国产成人综合美国十次| 综合三区后入内射国产馆| 人妻av午夜综合福利视频| 久久国产精品婷婷激情| 国产精品久久久久久久妇| 毛片毛片免费看| 精品国产麻豆免费人成网站| 日本一本免费一二区| 爱情岛永久地址www成人| 精品一区二区三区影片| 人妻少妇av中文字幕乱码| 欧美日韩国产精品自在自线| 亚洲精品国产字幕久久vr| 最新国内视频免费自拍一区| 亚洲 日本 欧美 中文幕| 亚洲 欧美 激情 小说 另类| 精品人妻免费看一区二区三区|