亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類

        2022-01-05 02:31:08潘振君張化祥
        計算機應(yīng)用 2021年12期
        關(guān)鍵詞:集上視圖聚類

        潘振君,梁 成,張化祥

        (山東師范大學(xué)信息科學(xué)與工程學(xué)院,濟南 250358)

        (?通信作者電子郵箱ALCS417@sdnu.edu.cn)

        0 引言

        聚類是機器學(xué)習(xí)中最熱門的討論話題之一,廣泛應(yīng)用于數(shù)據(jù)挖掘、機器學(xué)習(xí)等多個領(lǐng)域。隨著數(shù)據(jù)分析技術(shù)的日益成熟,多視圖聚類成為人們關(guān)注的焦點。由于數(shù)據(jù)的異構(gòu)性,傳統(tǒng)的單視圖聚類算法難以適用于某些特定場景。多媒體數(shù)據(jù)來源廣泛且表示形式多樣,例如,在一個新聞事件的報道中,報道的內(nèi)容可能來自多個不同的新聞媒體機構(gòu),對該新聞的報道可能采用文字、圖片或視頻等形式[1-4]。不同的信息獲取方式和表示方式構(gòu)成了多視圖數(shù)據(jù)。多視圖數(shù)據(jù)學(xué)習(xí)已經(jīng)成為數(shù)據(jù)挖掘、多媒體計算等領(lǐng)域中尤為重要的一部分,越來越多的聚類算法被提出。在此之前,處理多視圖數(shù)據(jù)的方式是直接將多個視圖的特征進行拼接來構(gòu)造一個新的特征矩陣,再對其應(yīng)用單視圖聚類算法得到聚類的結(jié)果;但是這種方法有明顯的缺陷,它沒有考慮每個視圖之間的內(nèi)部聯(lián)系,聚類性能也難以提高。因此學(xué)者們提出了多視圖聚類算法(Multi-View Clustering,MVC)。多視圖數(shù)據(jù)利用不同的視圖來描述事物的不同特征,但本質(zhì)上是對同一事物的描述。與單視圖聚類算法相比,多視圖聚類算法彌補了單視圖聚類算法使用單一數(shù)據(jù)類型,不能考慮數(shù)據(jù)的多樣性和不同視圖之間的一致性等缺點。不同的視圖不僅包含了所有視圖共享的數(shù)據(jù)信息,還包含了彼此不同的特定信息,這就是多視圖數(shù)據(jù)的多樣性。對數(shù)據(jù)中的異構(gòu)特征進行良好的融合,可以有效提高算法的魯棒性。

        近年來,學(xué)者們提出了很多先進的多視圖聚類算法,根據(jù)處理和使用多視圖數(shù)據(jù)方式的不同,這些算法可以大致分為以下幾類:多視圖協(xié)同訓(xùn)練算法、多視圖多核學(xué)習(xí)算法、多視圖圖學(xué)習(xí)聚類算法、多視圖子空間聚類算法。協(xié)同訓(xùn)練最初是為解決半監(jiān)督學(xué)習(xí)問題而提出的。在半監(jiān)督學(xué)習(xí)中,數(shù)據(jù)由有標簽數(shù)據(jù)和無標簽數(shù)據(jù)組成,算法考慮利用多視圖數(shù)據(jù)和無標簽數(shù)據(jù)的信息來輔助傳統(tǒng)的監(jiān)督學(xué)習(xí),協(xié)同訓(xùn)練算法的核心思想是利用多視圖數(shù)據(jù)和無標簽數(shù)據(jù)的信息來輔助傳統(tǒng)的監(jiān)督學(xué)習(xí),在多視圖數(shù)據(jù)上利用有標簽數(shù)據(jù)分別訓(xùn)練多個分類器。在訓(xùn)練過程中,每個分類器對無標簽數(shù)據(jù)中置信度較高的數(shù)據(jù)進行標記,并將標記后的數(shù)據(jù)加入到分類器的有標簽數(shù)據(jù)中,利用新標記不斷進行更新。最具代表性的算法為Blum 等[5]提出的協(xié)同訓(xùn)練算法。文獻[6]中提出了一種結(jié)合K-means 聚類和線性判別分析的協(xié)同訓(xùn)練算法,該算法利用一個視圖中的無監(jiān)督聚類結(jié)果來學(xué)習(xí)另一個視圖中的判別子空間。多核學(xué)習(xí)(Multiple Kernel Learning,MKL)[7]算法是一類比單個核函數(shù)更具靈活性的基于內(nèi)核的學(xué)習(xí)算法,多核學(xué)習(xí)的內(nèi)核對應(yīng)不同的視圖,因此多核學(xué)習(xí)在處理多視圖數(shù)據(jù)方面得到了廣泛的應(yīng)用。在多核框架下,樣本在特征空間中的表示問題轉(zhuǎn)化為核與權(quán)系數(shù)的選擇問題。多核學(xué)習(xí)中的一個關(guān)鍵步驟是根據(jù)每個內(nèi)核的重要性為其分配一個合理的權(quán)重。文獻[8]中提出了一種改進的算法,該算法通過學(xué)習(xí)低秩核矩陣來獲得相似度,并在核的鄰域內(nèi)找到最優(yōu)核。文獻[9]中提出了聚類加權(quán)核K均值算法,為不同視圖的內(nèi)部簇分配權(quán)重,并應(yīng)用核K均值,學(xué)習(xí)不同視圖共同的聚類指標矩陣。由于圖是表示各種類型對象之間關(guān)系的重要數(shù)據(jù)結(jié)構(gòu),因此基于圖學(xué)習(xí)的聚類方法也被廣泛地用于聚類任務(wù)。圖中的每個節(jié)點對應(yīng)一個對象,每條邊表示兩個對象之間的關(guān)系,用權(quán)重衡量相鄰樣本點之間的相似度。

        權(quán)值越大相似度越高,被劃分到同一類的概率越大。文獻[10]中提出了一種基于三階段圖的多視圖聚類算法,該算法結(jié)合子空間的圖表示和層次聚類方法,但未考慮不同視圖的權(quán)重;文獻[11]中則進行了基于加權(quán)多視圖的聚類研究。這兩種算法首先為每個視圖生成一個相似度圖,然后對每個圖進行加權(quán)來構(gòu)建統(tǒng)一表示,從而生成最終的聚類結(jié)果。

        本文主要研究多視圖子空間聚類算法。子空間分割聚類算法是近年來學(xué)者廣泛研究的重點,涉及機器學(xué)習(xí)、計算機視覺和模式識別等多個領(lǐng)域。子空間聚類算法是將原始數(shù)據(jù)集映射到其子空間表示,然后構(gòu)造低秩的相似矩陣。該方法保留了原始數(shù)據(jù)集的相關(guān)性,能更好地揭示數(shù)據(jù)的子空間結(jié)構(gòu)。近年來,基于子空間的多視圖聚類算法由于其有效性而得到發(fā)展[12-15]。這些算法旨在發(fā)現(xiàn)嵌入在原始數(shù)據(jù)中的底層子空間,從而得到更加準確的聚類結(jié)果。為了有效地整合來自不同視圖的特征,設(shè)計了各種多視圖子空間聚類算法,并取得了顯著的效果。這些算法的主要區(qū)別在于對表示系數(shù)矩陣進行正則化。如文獻[16]中的稀疏子空間聚類(Sparse Subspace Clustering,SSC)算法對數(shù)據(jù)表示使用?0范數(shù)正則化;但問題是非凸的,不能直接求解,因此作者使用相應(yīng)的凸代替?1范數(shù)獲得問題的最優(yōu)解。文獻[17]中提出的魯棒低秩表示分割算法通過最小化數(shù)據(jù)表示的秩得到一個低秩表示矩陣,并采用交替方向最小化的增廣拉格朗日乘子方法(Augmented Lagrange Multiplier Method with Alternate Direction Minimization,ALM-ADM)求得最優(yōu)解。

        現(xiàn)有的多視圖聚類算法已經(jīng)取得了許多優(yōu)異的成果,但目前多視圖下的聚類任務(wù)仍存在一些亟待解決的問題:

        1)原始數(shù)據(jù)集中通常存在誤差、離群值等噪聲的干擾,直接在原始數(shù)據(jù)集上學(xué)習(xí)相似度矩陣,會對聚類結(jié)果產(chǎn)生影響;

        2)一些算法中沒有考慮不同視圖之間差異,不同的視圖對聚類結(jié)果有不同的重要性,一般通過引入?yún)?shù)來解決這個問題,但這會使算法更加復(fù)雜;

        3)許多方法需要引入額外的聚類步驟才能得到最終的聚類結(jié)果。

        為了解決上述問題,本文提出一種基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類(Robust Multi-view subspace clustering based on Consistency Graph Learning,RMCGL)算法。該算法首先學(xué)習(xí)原始數(shù)據(jù)在低秩子空間的潛在魯棒表示,然后根據(jù)該表示學(xué)習(xí)不同視圖下的相似度矩陣??紤]到不同視圖之間的多樣性,根據(jù)相似度矩陣聯(lián)合學(xué)習(xí)一個一致圖,并通過自適應(yīng)的方式自動調(diào)整不同視圖的權(quán)重。為了有效求解目標函數(shù),算法采用交替方向極小化的拉格朗日乘子優(yōu)化算法。與傳統(tǒng)的多視圖子空間聚類算法相比,RMCGL 算法在仿真數(shù)據(jù)集及真實數(shù)據(jù)集上均表現(xiàn)出較好的性能。圖1 給出了RMCGL算法的流程。

        圖1 RMCGL算法流程Fig.1 Flowchart of RMCGL algorithm

        1 相關(guān)工作

        本章將簡要介紹與本文密切相關(guān)的兩個已有研究工作:基于低秩表示(Low-Rank Representation,LRR)的魯棒子空間分割[18]和基于多視圖聚類與自適應(yīng)鄰居(Multi-view Learning with Adaptive Neighbours,MLAN)的半監(jiān)督分類[29]。其中,LRR是單視圖聚類算法,MLAN為多視圖聚類的算法。

        1.1 LRR

        LRR 是一種基于低秩表示的聚類算法,該算法與SSC 非常相似,但其目標是在所有候選向量中尋找一種低秩表示而非稀疏表示。給定一組向量X=[x1,x2,…,xn],假設(shè)這些向量來自k個獨立子空間的并集,算法的目標是在d維歐氏空間中,將所有數(shù)據(jù)向量分割到它們各自所屬的子空間中。因此,LRR算法通過求解下面的凸優(yōu)化問題找到D:

        1.2 MLAN

        MLAN 是一種基于自適應(yīng)鄰居節(jié)點的多視圖聚類算法。該算法從數(shù)據(jù)點的角度將每個視圖的特征融合,求出一個統(tǒng)一的相似度圖U。MLAN 是對基于自適應(yīng)鄰居聚類(Clustering with Adaptive Neighbors,CAN)[20]的擴展,可以同時進行多視圖聚類和局部流形結(jié)構(gòu)學(xué)習(xí)。該算法如下所示:

        2 基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類

        本章將詳細介紹本文所提出的RMCGL 算法以及其求解和優(yōu)化過程。首先介紹一些基本符號的含義。矩陣和向量分別寫成加粗斜體大寫字母和加粗斜體小寫字母;Frobenius 范數(shù)的符號為‖ ? ‖F(xiàn),?2范數(shù)的符號為‖ ? ‖2;其他本文常用的符號定義見表1。

        表1 常用符號及其定義Tab.1 Common symbols and their definitions

        2.1 RMCGL算法

        給定V個視圖X1,X2,…,XV為各個視圖對應(yīng)的數(shù)據(jù)矩陣,其中第v個視圖表示為Xv={Xv1,Xv2,…,Xvn}∈Rdv×n。對于任一視圖Xv中的數(shù)據(jù),其通常是存在于一個潛在的低維空間中而非均勻分布于整個空間,因此,所有的數(shù)據(jù)都可在低維子空間中進行表示。基于此,首先將LRR 算法擴展到多視圖學(xué)習(xí)中,即有:

        其中:Av和Ev的定義如表1 所示。通過式(1)可以獲得各視圖下數(shù)據(jù)的子空間表示矩陣,并且能夠有效消除原始數(shù)據(jù)中噪聲或異常值的影響。該過程對噪聲具有魯棒性,可得到不同視圖的潛在魯棒表示;但式(1)中沒有考慮不同視圖間的聯(lián)系,也無法直接獲得有效的相似度矩陣進行聚類。一個可行的解決方法是將Av作為各個視圖下的相似度矩陣,然后通過目標函數(shù)學(xué)習(xí)一個統(tǒng)一的相似度矩陣A。然而,盡管該方案可行,但Av作為相似度矩陣所代表的含義與其本質(zhì)的定義并不相同。為了解決該問題,本文利用Av作為樣本的潛在特征表示,為各個視圖學(xué)習(xí)一個新的相似度矩陣Sv,目標函數(shù)如下:

        其中:λA、λS、λE是三個非負參數(shù),用來平衡各項;wv={w1,w2,…,wv} 用來衡量不同視圖之間的權(quán)重。在LLR 算法中表示學(xué)習(xí)和誤差項分別采用核范數(shù)和?2,1范數(shù),但是為了使后續(xù)優(yōu)化問題方便求解,本文中表示學(xué)習(xí)和誤差項均采用F范數(shù)。公式中的前兩項用來學(xué)習(xí)每個視圖的潛在魯棒表示,即圖1 中①、②過程,不同于直接在原始數(shù)據(jù)上學(xué)習(xí)相似度矩陣,該過程考慮了原始數(shù)據(jù)噪聲的干擾。為了獲得更好的聚類結(jié)果,三、四兩項(圖1 過程③)根據(jù)得到的魯棒表示,學(xué)習(xí)不同視圖的相似度矩陣。最后一項的目的是利用多個相似度圖,學(xué)得一個一致圖,如圖1 過程④所示,該過程充分考慮了視圖間的多樣性。引入權(quán)值參數(shù)w(圖1 過程⑤)為不同視圖分配合適的權(quán)值。本文RMCGL算法采用自加權(quán)方式,其更新規(guī)則將在下一節(jié)中詳細介紹。此外,為了直接通過一致圖G得到最終的聚類結(jié)果而不借助于其他的聚類算法,本文對圖G的拉普拉斯矩陣施加一個秩約束rank(LG)=n -c,使得一致圖G中連通分量的個數(shù)恰好等于聚類的個數(shù)c,由此得到如下結(jié)果:

        由于秩約束的存在導(dǎo)致上式求解困難,因此,采用秩約束的等價形式。令σc(LG)為LG第c小的特征值,LG是半正定的,有σc(LG)≥0。根據(jù)圖拉普拉斯矩陣的性質(zhì),特征值為0 的重數(shù)c等于圖G中連通分量的個數(shù)。即LG應(yīng)有c個0 特征值,此時滿足秩約束條件。根據(jù)Ky Fan’s 定理[21],有

        其中:F為標簽矩陣。因此,式(4)中的秩約束可由式(5)表示,將式(4)和(5)結(jié)合得到最終的目標函數(shù)如下所示:

        2.2 算法求解

        本節(jié)對提出的RMCGL算法進行詳細的求解。由式(6)可以看出,該算法在一個統(tǒng)一的優(yōu)化框架中學(xué)習(xí)與數(shù)據(jù)表示相關(guān)的親和圖。算法中有五個變量需要求解,考慮到式(6)同時關(guān)于所有的求解變量是非凸的,但當其中一個變量固定時,對其他變量的優(yōu)化都是凸的,因此本文采用交替方向最小化(Alternating Direction Minimizing,ADM)策略[22]的增廣拉格朗日乘子(Augmented Lagrangian Multiplier,ALM)對目標函數(shù)進行求解。首先引入一個輔助變量C來代替目標函數(shù)第三項中的A,以分離變量。算法的增廣拉格朗日函數(shù)如下:

        其中:M1和M2是拉格朗日乘子,定義,其中μ>0是懲罰參數(shù)。

        1)更新E。

        當固定其他變量時,只保留增廣拉格朗日函數(shù)中包含E的項,對其求偏導(dǎo)后置0,可得如下結(jié)果:

        2)更新A。

        只保留與A相關(guān)的項,然后對A求導(dǎo)并置0,得到如下結(jié)果:

        3)更新C。

        與求E和A的方法類似,C的更新規(guī)則如下:

        根據(jù)拉普拉斯矩陣的定義,很容易得到

        因此Cv的解如下:

        4)更新S。

        對于S的求解,可以將其看作是在求解以下優(yōu)化問題:

        該問題可同樣根據(jù)約束條件利用拉格朗日函數(shù)進行求解,最終求得S的解如下:

        其中si有k個非零項。

        5)更新G。

        值得注意的是,問題(15)對于每個不同的i是獨立的,可單獨求解。因此可將式(15)進一步轉(zhuǎn)化為:

        該步驟的詳細求解過程可參考文獻[23]。

        6)更新F。

        F可以通過最小化以下公式求得:

        F的最優(yōu)解由LG的c個最小特征值對應(yīng)的c個特征向量構(gòu)成。

        7)更新權(quán)重wv。

        8)更新拉格朗日乘子M1和M2。

        除了上述變量的更新外,還有兩個拉格朗日乘子需要更新,更新規(guī)則如下:

        綜上所述,目標函數(shù)(6)的詳細求解過程如算法1。

        算法1 RMCGL算法

        2.3 時間復(fù)雜度分析

        本文提出的RMCGL算法求解時采用的是迭代求解方式,可將算法分為多個子問題單獨計算,因此,該算法的時間復(fù)雜度可以通過計算每個子問題的時間復(fù)雜度獲得。每個子問題的時間復(fù)雜度如下:式(14)更新每個視圖的相似度矩陣Sv,其時間復(fù)雜度為O(Vnk);此外對相似度矩陣初始化所用時間復(fù)雜度為O(Vnkd);式(18)更新學(xué)習(xí)到的一致圖G,其時間復(fù)雜度為O(cn),其中c是聚類的個數(shù);式(19)更新F,需要計算拉普拉斯矩陣的特征向量,其時間復(fù)雜度為O(cn2);式(20)更新自加權(quán)系數(shù)w,其時間復(fù)雜度為O(Vn2)。假設(shè)該算法迭代次數(shù) 為t,則該算法的時間復(fù)雜度為O(t(Vnk+cn+cn2+Vn2)+Vnkd)。

        3 實驗設(shè)計與結(jié)果分析

        為了驗證RMCGL算法的有效性,利用三個常用評價指標在2 個仿真數(shù)據(jù)集、6 個真實數(shù)據(jù)集以及4 個癌癥數(shù)據(jù)集上與其他算法進行了比較。此外,還設(shè)計了多個實驗來進一步對所提出的算法進行分析,包括:收斂性實驗、參數(shù)分析實驗、消融實驗和魯棒性實驗。

        3.1 數(shù)據(jù)集描述

        3.1.1 仿真數(shù)據(jù)集

        本文使用兩個合成的仿真數(shù)據(jù)集來衡量RMCGL 算法的聚類效果。

        synthetic 數(shù)據(jù)集[24]涉及三個基因組數(shù)據(jù)集,分別為RNA表達、DNA 甲基化和miRNA 表達。首先,對三個基因組數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理,分別隨機抽取200 個缺失率低于20%的樣本,采用k近鄰算法,將200 個完整樣本的非空鄰居的均值賦值給缺失部分,得到第一種類型的數(shù)據(jù)矩陣,對其進行奇異值分解得到。隨后構(gòu)造三個由多個簇組成的數(shù)據(jù)矩陣Yi=Bi+θ,其中Bi從{0,2,4,6}中隨機抽樣得到,代表不同簇的偽生物表達水平,θ~N(0,1)為隨機偏差,由此得到第二種類型的數(shù)據(jù)矩陣。最后,將這兩種類型的數(shù)據(jù)矩陣進行重構(gòu),得到最終的仿真數(shù)據(jù)集。

        two Gaussian 數(shù)據(jù)集[25]是一個隨機生成的高斯數(shù)據(jù)集,在這個數(shù)據(jù)集中有兩組服從高斯分布的數(shù)據(jù),共200 個樣本。第一個視圖的均值為,協(xié)方差為。第二個視圖的均值為,協(xié)方差為。

        3.1.2 真實數(shù)據(jù)集

        6 個數(shù)據(jù)集分別為100leaves、BBC、NGs、Caltech101-20、COIL-20 和MSRC,詳細情況如下(總結(jié)見表2,其中v1~v6表示不同視圖的特征數(shù))。

        表2 六個真實數(shù)據(jù)集的詳細描述Tab.2 Detailed description of six real-world datasets

        1)100leaves 數(shù)據(jù)集。該數(shù)據(jù)集由100 種植物的1 600 個樣本組成,每個樣本特征包含形狀描述、細尺度邊緣和紋理直方圖。

        2)BBC 數(shù)據(jù)集。該數(shù)據(jù)集由BBC 新聞網(wǎng)站的685 份文檔組成,這些文檔對應(yīng)五個領(lǐng)域,分別為商業(yè)、娛樂、政治、體育和科技。

        3)新聞組數(shù)據(jù)集(NGs)。該數(shù)據(jù)集包含20個子集的新聞組數(shù)據(jù)集,由500 個新聞組文檔組成。每個原始文檔都用三種不同的方法進行預(yù)處理(有監(jiān)督互信息預(yù)處理、無監(jiān)督互信息預(yù)處理和分區(qū)預(yù)處理),構(gòu)成三個視圖,并使用五種主題標簽中的一種進行注釋。每個新聞組對應(yīng)一個不同的主題。

        4)Caltech101-20 數(shù)據(jù)集。該數(shù)據(jù)集包含20 類2 386 幅圖像,每幅圖像都有6 個特征,分別為:Gabor 特征、小波矩(Wavelet moments)特征、統(tǒng)計轉(zhuǎn)換直方圖(CENsus Transform HISTogram,CENTRIST)特征、方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征、通用搜索樹(Generalized Search Trees,GiST)特征和局部二值模式(Local Binary Pattern,LBP)特征。

        5)COIL-20 數(shù)據(jù)集。該數(shù)據(jù)集包含20 個對象,將每個對象水平旋轉(zhuǎn)360°,每隔5°拍攝一張照片。每個對象有72張圖像,圖像像素大小為64×64,灰度圖像共計1 440張圖像。

        6)MSRC 數(shù)據(jù)集。該數(shù)據(jù)集有5 個視圖,包含7 種類別(樹、建筑、飛機、牛、臉、汽車和自行車)的210張圖像。

        3.1.3 癌癥數(shù)據(jù)集

        機器學(xué)習(xí)算法在生物醫(yī)學(xué)領(lǐng)域應(yīng)用廣泛,為了驗證該算法在癌癥亞型分類上的效果,從人類癌癥數(shù)據(jù)庫TCGA 中挑選了4個數(shù)據(jù)集,分別為Breast、Colon、GBM 和Melanoma,每個數(shù)據(jù)集包含三個組學(xué)數(shù)據(jù):基因表達、DNA 甲基化和miRNA表達數(shù)據(jù)。

        3.2 實驗方案

        參數(shù)設(shè)置:目標函數(shù)中有四個參數(shù)λE、λA、λC、λF,λE、λA、λC的取值范圍為[0.01,0.1,1,10,100]。在聚類過程中對λF采用自動更新的方式,初值設(shè)為1,在每次迭代中,當一致圖G的連通分量分別小于或大于聚類的簇數(shù)時增大或減小λF(λF=λF*2,λF=λF/2)。最近鄰個數(shù)為15,對于每個方法和數(shù)據(jù)集,重復(fù)運行30次記錄平均結(jié)果。

        為了評估該算法的性能,本文將該算法與現(xiàn)有的多種聚類算法進行了對比。典型的單視圖對比算法有:非負矩陣分解(Nonnegative Matrix Factorization,NMF)[26]和自適應(yīng)鄰居節(jié)點聚類CAN。多視圖對比方法包括基于圖的多視圖聚類系統(tǒng)GBS(Braph-Based System)[27]、多視圖非負矩陣分解(Multiview Nonnegative Matrix Factorization,MultiNMF)[28]、共正則化譜聚類(Co-regularized multi-view Spectral Clustering,CoregSC)[29]、協(xié)同訓(xùn)練譜聚類Co-train[30]、基于一致圖的多視圖聚類(Graph-based Multi-View Clustering,GMC)以及自適應(yīng)鄰居多視圖聚類(MLAN)。在表3 中對比了本文算法與上述多視圖聚類算法的時間復(fù)雜度。

        表3 時間復(fù)雜度對比Tab.3 Time complexity comparison

        為了評估該算法的性能,本文采用三個常見的評價指標:精度(Accuracy,ACC)、歸一化互信息(Normalized Mutual Information,NMI))和純度(Purity)來衡量實驗效果。此外,為了評估各個算法在癌癥數(shù)據(jù)集上的效果,本文采用了經(jīng)驗p值衡量癌癥樣本分組后的生存差異[31],p值越低,表示不同組間的生存差異越顯著。

        3.3 實驗結(jié)果分析

        表4~6 分別列出了本文算法與其他聚類算法在仿真數(shù)據(jù)集及6 個真實數(shù)據(jù)集上的ACC、NMI、Purity 結(jié)果。觀察表4~6可知,對于評價指標ACC,本文算法在每個數(shù)據(jù)集上都取得了最好的結(jié)果。

        表4 不同聚類算法在不同數(shù)據(jù)集上的ACC值 單位:%Tab.4 ACC values of different clustering algorithms on different datasets unit:%

        表5 不同聚類算法在不同數(shù)據(jù)集上的NMI值 單位:%Tab.5 NMI values of different clustering algorithms on different datasets unit:%

        表6 不同聚類算法在不同數(shù)據(jù)集上的Purity值 單位:%Tab.6 Purity values of different clustering algorithms on different datasets unit:%

        表7 給出了各對比算法在4 個癌癥數(shù)據(jù)集上經(jīng)驗p值的實驗結(jié)果,同時圖2 給出了RMCGL 算法在GBM 與Melanoma數(shù)據(jù)集上的生存分析曲線。與上述多視圖聚類算法相比,RMCGL 算法在所有的癌癥數(shù)據(jù)集上都得到了顯著的p值(p?value<0.05),并且在四組癌癥數(shù)據(jù)集上的結(jié)果都是最顯著的。這些結(jié)果充分驗證了本文算法的有效性及良好的泛化能力。

        表7 四個癌癥數(shù)據(jù)集上經(jīng)驗p值比較Tab.7 Comparison of empirical p-values on four cancer datasets

        圖2 RMCGL算法在GBM與Melanoma數(shù)據(jù)集上的生存分析曲線Fig.2 Survival analysis curve of RMCGL algorithm on GBM and Melanoma datasets

        圖3 為RMCGL 在NGs 和two Gaussian 數(shù)據(jù)集上學(xué)習(xí)得到的一致圖G對應(yīng)的熱圖,從圖中可以清晰地看到一致圖的塊對角結(jié)構(gòu),這說明算法能學(xué)習(xí)一個高質(zhì)量的相似度圖結(jié)構(gòu)。

        圖3 RMCGL學(xué)習(xí)得到的一致圖G在NGs和two Gaussian 數(shù)據(jù)集上的熱圖Fig.3 Heat maps of the consistency graph G learned by RMCGL on NGs and two Gaussian datasets

        3.4 消融實驗分析

        本文RMCGL 算法中創(chuàng)新性地引入了秩約束和魯棒表示學(xué)習(xí),為了驗證算法各部分對實驗結(jié)果的影響,設(shè)計了對應(yīng)步驟的消融實驗。取表4 中4 個數(shù)據(jù)集的ACC 值所對應(yīng)的參數(shù)進行消融實驗的對比分析,主要驗證秩約束、相似度矩陣學(xué)習(xí)和魯棒表示學(xué)習(xí)對算法結(jié)果的影響。將去掉秩約束時的過程稱為RC;直接從不同視圖的魯棒表示學(xué)習(xí)中學(xué)習(xí)一個一致圖的過程為RL。此外去掉魯棒表示學(xué)習(xí)時,該算法即為GMC算法,本文算法與前者的區(qū)別在于,前者從原始數(shù)據(jù)集中學(xué)習(xí)不同視圖的相似度矩陣,而RMCGL預(yù)先學(xué)習(xí)原始數(shù)據(jù)的魯棒表示作為相似度學(xué)習(xí)的輸入。結(jié)果如表8 所示,從表中可以看出,在分別去掉秩約束、表示學(xué)習(xí)和相似度學(xué)習(xí)后的實驗結(jié)果明顯差于RMCGL 的結(jié)果,尤其在NGs 數(shù)據(jù)集中,添加秩約束后的結(jié)果提升了超過30個百分點;在MSRC數(shù)據(jù)集中,根據(jù)表示矩陣學(xué)習(xí)一致圖時的結(jié)果比該算法結(jié)果低20 個百分點左右。去掉表示學(xué)習(xí)時的結(jié)果見表4。由此可見,對學(xué)習(xí)到的一致圖施加秩約束、子空間魯棒表示學(xué)習(xí)以及根據(jù)魯棒表示矩陣學(xué)習(xí)不同視圖的相似度矩陣進而得到一致圖的過程對實驗結(jié)果都做出了貢獻。

        表8 消融實驗ACC結(jié)果 單位:%Tab.8 ACC results of ablation experiments unit:%

        3.5 魯棒性性能評估

        為了驗證RMCGL算法對實驗結(jié)果的魯棒性,設(shè)計了以下實驗:將誤差正則化項部分去掉,得到如圖4 所示結(jié)果。從圖4 中可以看出,在固定參數(shù)的情況下,去掉誤差正則化項部分后的4 個數(shù)據(jù)集的ACC 結(jié)果都有一定程度的下降,但整體下降幅度偏小,這表明RMCGL算法對數(shù)據(jù)具有較好的魯棒性。

        圖4 去掉誤差正則化項后在固定參數(shù)時各數(shù)據(jù)集的ACC結(jié)果Fig.4 ACC results of different datasets at fixed parameters after removing error regularization term

        3.6 收斂性分析

        本節(jié)分析了RMCGL 算法的收斂性,如圖5所示,圖中的x軸和y軸分別表示迭代次數(shù)和目標函數(shù)的值。從圖5 中可以看出,本文經(jīng)過少量迭代后就可以達到穩(wěn)定的收斂狀態(tài)。

        圖5 RMCGL算法在100leaves和BBC數(shù)據(jù)集上的收斂曲線Fig.5 Convergence curves of RMCGL algorithm on 100leaves and BBC datasets

        3.7 參數(shù)敏感性分析

        RMCGL算法中共有三個參數(shù)λE、λA和λC。為了分析這三個參數(shù)對算法性能的影響,將其中一個參數(shù)固定后分析另外兩個參數(shù)變化對NMI 值的影響,見表9~10。三個參數(shù)在所有數(shù)據(jù)集上的取值范圍均為[0.01,0.1,1,10,100]。

        表9 NGs數(shù)據(jù)集NMI值隨參數(shù)變化分析Tab.9 Analysis of NMI value of NGs dataset with parameter variation

        表10 COIL20數(shù)據(jù)集NMI值隨參數(shù)變化分析Tab.10 Analysis of NMI value of COIL20 dataset with parameter variation

        圖6 展示了λE在兩個數(shù)據(jù)集上的參數(shù)分析結(jié)果。在NGs數(shù)據(jù)集中,當λA和λC的值?。?.01,0.01)時,固定這兩個參數(shù),得到NMI相對于λE這個參數(shù)時的取值范圍:當λE取1時的效果最好,NMI的值為93.40%;而在取0.01時最小,NMI的值為86.73%。在COIL20 數(shù)據(jù)集中,λA和λC?。?,1)時固定,λE為0.01 時NMI 的最大值93.55%,而隨著參數(shù)值的增大,NMI的取值范圍變化平穩(wěn)。從圖中可以看出,算法對于參數(shù)的變化相對較為魯棒。

        圖6 RMCGL算法在NGs和COIL20數(shù)據(jù)集上的參數(shù)分析Fig.6 Parameter analysis of RMCGL algorithm on NGs and COIL20 datasets

        4 結(jié)語

        近年來,多視圖聚類在許多領(lǐng)域得到了應(yīng)用。多視圖數(shù)據(jù)比傳統(tǒng)的單視圖數(shù)據(jù)提供了更豐富的信息來揭示內(nèi)部結(jié)構(gòu),并能獲得更好的聚類效果。本文首先簡要回顧了多視圖聚類算法,然后提出了一種新的基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類算法RMCGL。該算法通過學(xué)習(xí)數(shù)據(jù)的子空間表示來避免原始數(shù)據(jù)集中噪聲的干擾,并基于該表示構(gòu)建不同視圖下的相似度矩陣;同時引入自加權(quán)策略,根據(jù)不同視圖的重要性合理分配視圖權(quán)重,并構(gòu)造一個統(tǒng)一的一致圖;通過對一致圖的拉普拉斯矩陣施加秩約束直接獲得聚類結(jié)果,而不需要引入額外的聚類步驟。在多個數(shù)據(jù)集上的實驗結(jié)果驗證了RMCGL算法的有效性,相比其他多視圖聚類算法有明顯優(yōu)勢。

        猜你喜歡
        集上視圖聚類
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        復(fù)扇形指標集上的分布混沌
        5.3 視圖與投影
        視圖
        Y—20重型運輸機多視圖
        SA2型76毫米車載高炮多視圖
        基于改進的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        国产免费又色又爽又黄软件 | 不卡国产视频| 天天插天天干天天操| 国产白浆大屁股精品视频拍 | 国产精品亚洲а∨无码播放不卡| 久久aⅴ人妻少妇嫩草影院| 女人夜夜春高潮爽a∨片传媒| 久久免费大片| 日本伦理美乳中文字幕| 一区二区三区av在线| 国内精品久久久久影院薰衣草| 久久国产精品精品国产色婷婷| 女同久久精品国产99国产精品| 国内精品一区视频在线播放| 国产成人福利av一区二区三区| 91偷拍与自偷拍亚洲精品86 | 亚洲人妻御姐中文字幕| 女人av天堂国产在线| 在线播放免费人成毛片乱码| 波多野吉衣av无码| 国产亚洲精品性爱视频| 国产精品亚洲av一区二区三区| 老熟妇乱子伦牲交视频| 亚洲精品无码久久久| 亚洲国产精品特色大片观看完整版 | 99精品国产在热久久无码 | 日本午夜艺术一区二区| 精品香蕉99久久久久网站| 亚洲综合激情五月丁香六月| 国产精品免费久久久久影院| 久天啪天天久久99久孕妇| 亚洲av成人波多野一区二区 | 一边吃奶一边摸做爽视频| 日日摸夜夜添夜夜添无码免费视频 | 亚洲AV秘 无码二区在线| 亚洲AV无码一区二区一二区教师| 国产精品毛片极品久久| 特级做a爰片毛片免费看| 国产97在线 | 中文| 美女爽好多水快进来视频 | 狂猛欧美激情性xxxx大豆行情|