亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類

2020-11-10 07:10:12陳曉紅吳卿源李舜酩

計算機工程與應(yīng)用 2020年21期

關(guān)鍵詞：實驗

朱丹，陳曉紅，吳卿源，李舜酩

1.南京航空航天大學(xué) 理學(xué)院，南京 211106

2.南京航空航天大學(xué) 能源與動力學(xué)院，南京 211106

1 引言

在機器學(xué)習(xí)領(lǐng)域，子空間聚類受到廣泛關(guān)注，可用于人臉聚類[1-2]、運動分割[3-4]等。子空間聚類方法是將特征選擇技術(shù)和聚類技術(shù)相結(jié)合，在維度空間或數(shù)據(jù)空間中搜索可能存在的子空間，從而得到相應(yīng)的子空間和聚類產(chǎn)生的簇[5]。具體而言，給定一組來自k個線性子空間{S1,S2,…,Sk} 的數(shù)據(jù)集X，X=[X1,X2,…,Xk]=[x1,x2,…,xn] ，其中Xi是子空間Si中樣本構(gòu)成的集合，子空間聚類的目標(biāo)是將數(shù)據(jù)集X分成k個不同的簇，每一簇對應(yīng)一個子空間。

迄今為止，人們提出了多種子空間聚類的方法，按照其原理大致可分為五種：矩陣分解法[6]、代數(shù)方法[7]、迭代方法[8]、統(tǒng)計方法[9-10]和基于譜聚類的方法[2-3]。本文基于譜聚類的方法進(jìn)行研究。首先，利用給定的數(shù)據(jù)集X，構(gòu)造關(guān)聯(lián)矩陣Z，Z中的每個元素zij衡量了樣本點xi和xj之間的相似性。數(shù)據(jù)集中的每一個樣本點能用其他的樣本點的線性組合表示出來，因此可以使用樣本自表示來衡量兩個樣本點的相似性[11]，然后根據(jù)關(guān)聯(lián)矩陣Z進(jìn)行譜聚類。譜聚類是基于譜圖理論的聚類算法，關(guān)聯(lián)矩陣Z可以被看作圖，數(shù)據(jù)聚類問題轉(zhuǎn)變?yōu)閳D最優(yōu)切割問題。由于塊對角圖能夠更準(zhǔn)確地描述數(shù)據(jù)聚類結(jié)果，因此通常期望關(guān)聯(lián)矩陣Z具有塊對角稀疏性。

以下幾種算法都是基于譜聚類的方法，但是其關(guān)聯(lián)矩陣有所不同。稀疏子空間聚類（Sparse Subspace Clustering，SSC）[3]通過對關(guān)聯(lián)矩陣Z采用稀疏約束得到了稀疏的塊對角陣。文獻(xiàn)[12]指出如果一組樣本點間的兩兩相關(guān)性很高，稀疏表示往往隨機選擇其中一對樣本點。因此，SSC不能夠很好地捕獲同一子空間的數(shù)據(jù)結(jié)構(gòu)關(guān)系，可能會將同一類簇的點分到不同類簇，得到錯誤的聚類結(jié)果。由此可見，SSC雖然獲得了簇間的稀疏性，但是同時也會導(dǎo)致簇內(nèi)稀疏，從而使得聚類結(jié)果并不理想。為了彌補SSC 的不足，Liu 等人[13]提出用低秩表示（Low Rank Representation，LRR）來代替稀疏表示。低秩表示在構(gòu)造關(guān)聯(lián)矩陣時加入了低秩約束，目的是考慮數(shù)據(jù)的全局結(jié)構(gòu)，找到數(shù)據(jù)的低秩表示，根據(jù)這種表示可把來自同一子空間的樣本點聚到一起。低秩約束可以有效降低噪聲數(shù)據(jù)的影響，因此LRR對噪聲和異常值具有較好的魯棒性。文獻(xiàn)[1]中的Example-1表明了當(dāng)子空間正交時，LRR模型并不能保證得到一個塊對角陣，因此低秩表示不能保證得到正確的聚類結(jié)果。為了得到塊對角陣，Lu等人[1]提出了最小二乘回歸（Least Square Regression，LSR），通過分組效應(yīng)，即一組相關(guān)數(shù)據(jù)的系數(shù)近似相等，將高度相關(guān)的數(shù)據(jù)聚集到了一起。當(dāng)子空間正交或者子空間獨立、樣本數(shù)據(jù)充足時，LSR 能夠得到塊對角矩陣，但是由于LSR 沒有考慮數(shù)據(jù)間的局部相關(guān)性，導(dǎo)致塊對角陣過于稠密。

以上方法均是在單視圖數(shù)據(jù)上展開的，而文獻(xiàn)[14]認(rèn)為多視圖學(xué)習(xí)比單視圖學(xué)習(xí)方法有更好的泛化性，將單視圖數(shù)據(jù)多視圖化可提高學(xué)習(xí)效果。首先將單視圖數(shù)據(jù)多視圖化[15]，得到多視圖數(shù)據(jù)。這些多視圖數(shù)據(jù)的不同視圖間的信息具有一致性和互補性[16]。而協(xié)同訓(xùn)練算法正是利用了不同視圖數(shù)據(jù)的信息互補，提高了算法性能，受此啟發(fā)，本文提出了一種自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類算法（Subspace Clustering induced by Adaptive Graph Learning，SCAGL）。首先，通過多視圖化的方法對原本的數(shù)據(jù)集進(jìn)行特征分割，得到多視圖數(shù)據(jù)集。然后，受到多視圖譜聚類協(xié)同訓(xùn)練的啟發(fā)[17]，將多視圖數(shù)據(jù)子空間聚類與協(xié)同訓(xùn)練的思想相結(jié)合。通過建立引入圖正則化項的最小二乘回歸模型，對多個視圖進(jìn)行子空間聚類，基于協(xié)同訓(xùn)練的思想，使視圖間的圖信息可以互相利用，對多個視圖的圖正則化項進(jìn)行優(yōu)化，能夠得到聚類性能更好的塊對角關(guān)聯(lián)矩陣。最后，對每個視圖學(xué)習(xí)到的關(guān)聯(lián)矩陣進(jìn)行集成得到一個公共的關(guān)聯(lián)矩陣，并以此進(jìn)行譜聚類。本文的貢獻(xiàn)在于：受協(xié)同訓(xùn)練的啟發(fā)，有效地利用不同視圖間的聚類信息，自適應(yīng)地迭代更新每個視圖的相似矩陣，從而得到更能反映聚類效果的塊對角圖，即塊對角關(guān)聯(lián)矩陣，它能更準(zhǔn)確地描述數(shù)據(jù)聚類結(jié)果。雖然該方法是針對單視圖數(shù)據(jù)提出的，它也可應(yīng)用于多視圖數(shù)據(jù)。

2 相關(guān)工作

2.1 最小二乘回歸

假設(shè)樣本數(shù)據(jù)充足且子空間獨立，Lu 等人提出了基于最小二乘回歸（LSR）的子空間聚類[1]。數(shù)據(jù)集X=[x1,x2,…,xn] ∈Rd×n，d是特征維數(shù)，n是樣本個數(shù)，數(shù)據(jù)集中的每一個樣本點能用其他的樣本點的線性組合表示出來即X=XZ，為避免平凡解，規(guī)定diag(Z)=0 。Z∈Rn×n為自表示系數(shù)矩陣。LSR 的目標(biāo)方程如下：

‖Z‖F(xiàn)是Z的F 范數(shù)，該范數(shù)約束使得自表示系數(shù)矩陣Z塊對角化，去除Z中較小的系數(shù)[18]。

由于真實數(shù)據(jù)中通常包含噪聲，為了減少噪聲對聚類效果的影響，LSR 引入誤差項E∈Rd×n，即X=XZ+E。LSR對誤差項實行F范數(shù)約束，該方法可處理高斯噪聲。文獻(xiàn)[18]已證對誤差項E實行L2,1范數(shù)可以探測異常值，得到如下的目標(biāo)函數(shù)：

其中，λ為誤差項的參數(shù)。當(dāng)子空間正交或數(shù)據(jù)集充足，子空間獨立時，F(xiàn) 范數(shù)約束使得Z具有好的塊對角性，自表示系數(shù)矩陣Z能夠表示樣本間的相似性。但是，優(yōu)化如上目標(biāo)函數(shù)得到的Z是稠密的，為了提高Z的稀疏性，通常引入圖正則化項。

2.2 引入圖正則化項

LSR 在一定程度上提高了Z的塊對角性質(zhì)，但其只揭示了樣本的全局信息，并沒有考慮到數(shù)據(jù)點的局部內(nèi)在相關(guān)信息，從而導(dǎo)致自表示系數(shù)矩陣Z過于稠密。已有的研究表明[19-21]引入圖正則化項有利于保留數(shù)據(jù)的局部內(nèi)在信息，對Z的非對角塊部分進(jìn)行稀疏約束，使得聚類效果更好。

首先由數(shù)據(jù)集X構(gòu)造圖G=(V,E)，V:={1,2,…,n}是頂點集，是邊緣權(quán)重的集合，wij是頂點對(i,j)的邊緣權(quán)重，權(quán)重矩陣W=(wij)n×n，本文主要使用k近鄰來構(gòu)造兩個樣本點間的權(quán)重。由于G是無向圖，W=WT。度量矩陣D=diag(d1,d2,…,dn)，，圖G的拉普拉斯矩陣L=D-W，從而得到目標(biāo)函數(shù)：

其中，β是圖正則化項參數(shù)。圖正則化項tr(ZLZT)目的是希望同一類簇的樣本之間的系數(shù)盡可能的一致。由于，目標(biāo)方程也可寫為：

2.3 多視圖化的子空間聚類

文獻(xiàn)[15]提出了將單視圖數(shù)據(jù)多視圖化的方法，即，對數(shù)據(jù)集X∈Rd×n進(jìn)行分割率為α(0＜α ＜1) 的分割，得到s個新的子特征數(shù)據(jù)集，這s個子特征數(shù)據(jù)集可看做樣本數(shù)據(jù)集的s個不同的視圖。對這s個視圖的數(shù)據(jù)，基于圖正則化的最小二乘回歸進(jìn)行聚類，可得到s個對應(yīng)的塊對角系數(shù)矩陣，這可表示為：

如此得到各個視圖對應(yīng)的自表示系數(shù)矩陣Zi，由于每個視圖的數(shù)據(jù)信息具有一致性和互補性，由式（5）得到的Zi包含著許多公共信息。文獻(xiàn)[22]提出了最優(yōu)自表示系數(shù)矩陣Z*，與Z*相比，每個視圖的自表示系數(shù)矩陣Zi包含著各種噪聲，Z*滿足下式：

不難解得：

3 自適應(yīng)圖學(xué)習(xí)

3.1 協(xié)同訓(xùn)練算法

協(xié)同訓(xùn)練算法是由Blum A和Mitchell T提出的一種半監(jiān)督學(xué)習(xí)算法[23]，協(xié)同訓(xùn)練算法適用于其特征可以自然分割為幾個不相交特征集的數(shù)據(jù)集，在每個特征集上學(xué)習(xí)分類器，并通過結(jié)合這些分類器的預(yù)測結(jié)果，提高分類的正確率。文獻(xiàn)[24]發(fā)現(xiàn)當(dāng)特征集非常大且包含大量冗余特征時，把特征集劃分為多視圖數(shù)據(jù)集，協(xié)同訓(xùn)練算法可取得很好的效果。該文通過單視圖數(shù)據(jù)多視圖化，得到s個不同的視圖X1,X2,…,Xs，利用標(biāo)記樣本訓(xùn)練出s個分類器h1,h2,…,hs，分類器hi從未標(biāo)記樣本中挑選若干個標(biāo)記置信度高的樣本進(jìn)行標(biāo)記，把這些由hi標(biāo)記過的樣本加入另外s-1 個分類器的訓(xùn)練集中，以便其他分類器利用這些新增的有標(biāo)記的樣本進(jìn)行更新。這個過程不斷迭代下去，直到s個分類器不再發(fā)生變化。

協(xié)同訓(xùn)練算法的成功實現(xiàn)需要滿足三個前提：（1）每個視圖能夠單獨地進(jìn)行學(xué)習(xí)，即單視圖能夠?qū)W習(xí)出一個較好的分類器。（2）協(xié)同訓(xùn)練算法要求目標(biāo)函數(shù)在每個視圖上的學(xué)習(xí)結(jié)果相似度高。如果在某個視圖內(nèi)，分類器判斷兩個樣本點屬于同一類簇，那么在其他視圖上也應(yīng)該屬于同一類簇，若兩個樣本屬于不同類簇，其他視圖上也應(yīng)該屬于不同類簇。（3）對于類別標(biāo)記而言，不同視圖是條件獨立的。

3.2 基于協(xié)同訓(xùn)練優(yōu)化圖結(jié)構(gòu)

受協(xié)同訓(xùn)練的啟發(fā)，將其用于子空間聚類。每個視圖上構(gòu)造出的權(quán)重矩陣Wi包含該視圖內(nèi)樣本之間的信息，每一列向量win表示第n個樣本與其他樣本間的相似度。根據(jù)相似矩陣Wi構(gòu)造Laplacian圖，由譜聚類算法[25]可知，圖Laplacian 矩陣Li的前c個特征向量組成特征矩陣Ui，Ui中的每個列向量代表一個簇，對Ui進(jìn)行k-means聚類。如果矩陣Ui的第n行分配給第k類簇，樣本點xn就被聚到第k簇。因此Ui中的每個列向量是c個類簇的指示向量，包含了c個類簇的判別信息。受協(xié)同訓(xùn)練思想的啟發(fā)，文獻(xiàn)[17]提出用其他視圖的聚類信息來迭代更新每個視圖的相似矩陣，再對該視圖的圖結(jié)構(gòu)進(jìn)行優(yōu)化。包含了各視圖對聚類的判別性信息，將相似向量投影到這些特征向量的方向上，以保留聚類所需要的信息，并去除影響聚類結(jié)果的簇內(nèi)信息。然后將其反投影到原始的向量空間中，獲得優(yōu)化后的圖結(jié)構(gòu)，即相似度矩陣進(jìn)一步，在雙視圖情況下舉例驗證了優(yōu)化后的相似矩陣顯示同一類簇內(nèi)樣本間的相似度會逐步趨于一致，這有助于將不同類簇分開。文獻(xiàn)[22]中提出了使用本視圖的信息來迭代更新相似矩陣的方法，即得到了較好的聚類結(jié)果。這說明本視圖的信息有利于提高聚類的效果，結(jié)合以上兩種思想，本文提出同時把本視圖和其他視圖的信息融入聚類過程，迭代更新相似矩陣由于不同視圖的近鄰信息具有一致性，使用所有視圖的類簇信息來更新相似矩陣，這種新的方法使視圖間的信息相互傳遞，由此得到的相似矩陣包含更準(zhǔn)確的聚類信息。

3.3 模型建立與算法流程

在式（5）基礎(chǔ)上引入圖結(jié)構(gòu)優(yōu)化，得到目標(biāo)方程：

利用增廣拉格朗日乘子法[26-27]對目標(biāo)方程（8）進(jìn)行求解，其增廣拉格朗日方程為：

其中，μ ＞0 為懲罰系數(shù)，Yi為拉格朗日乘子，· 為矩陣的內(nèi)積。分別對變量Zi,Li,Ei迭代優(yōu)化求解。

（1）求解Zi

對數(shù)據(jù)集Xi構(gòu)造權(quán)重矩陣Wi，并計算圖Laplacian矩陣Li，由Li的前c個最小的特征值對應(yīng)的特征向量組成特征矩陣Ui，進(jìn)而得到基于協(xié)同訓(xùn)練算法優(yōu)化后的相似度矩陣，對稱化后得。

（3）求解Ei：

這可由收縮算子方法[28]求解。

本文提出自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類算法（SCAGL），輸入包含n個樣本的數(shù)據(jù)集X與目標(biāo)類簇數(shù)c，通過該算法可將n個樣本聚到c個不同類簇，具體流程見如下算法。

算法1自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類（SCAGL）

輸入：數(shù)據(jù)集X，分割率α，誤差項參數(shù)λ，圖正則化參數(shù)β，聚類數(shù)c

輸出：c個類簇

1.對X的特征維進(jìn)行分割率為α的多視圖化，得到s(s≥2 )個子特征數(shù)據(jù)集；

5.repeat

7.求得經(jīng)過協(xié)同訓(xùn)練優(yōu)化后的圖Laplacian矩陣

9.更新各個視圖的乘子矩陣Yi=Yi+μ(Xi-XiZi-Ei)；

10.更新參數(shù)μ=min(ρμ,μmax)；

11.until max‖Xi-XiZi-Ei‖＜ε或達(dá)到最大迭代次數(shù)

13.計算關(guān)聯(lián)矩陣A=(Z*+Z*T)2；

14.對關(guān)聯(lián)矩陣A進(jìn)行譜聚類，將數(shù)據(jù)分割到c個類簇中。

4 實驗結(jié)果與分析

4.1 數(shù)據(jù)集的選取

本文選取了4個不同數(shù)據(jù)集來進(jìn)行實驗，人臉圖像數(shù)據(jù)集ORL、語音字母識別數(shù)據(jù)集Isolet、手寫數(shù)字?jǐn)?shù)據(jù)集 USPS 和 mfeat。在這些數(shù)據(jù)集中，ORL、Isolet 和USPS是單視圖數(shù)據(jù)集，mfeat是多視圖數(shù)據(jù)集。

ORL 數(shù)據(jù)集包含了40 個不同人的人臉圖像，每個人在不同光照條件、拍攝場景和面部表情的情況下采集10張照片，將每張照片的大小修正為像素32×32。選取其中10 個人的照片生成一個100 個樣本的數(shù)據(jù)集進(jìn)行實驗。

Isolet數(shù)據(jù)集是機器學(xué)習(xí)中用于聚類和分類的一種常用數(shù)據(jù)集。這個數(shù)據(jù)集的生成過程如下：150名試驗者將字母表中的每個字母讀兩遍，每個受試者有52 個訓(xùn)練例子。數(shù)據(jù)集的特征維數(shù)是617，特征包括光譜系數(shù)、輪廓特征、聲波特征等。選取前30個人的訓(xùn)練例子組成一個1 560個樣本的數(shù)據(jù)集進(jìn)行實驗。

USPS 數(shù)據(jù)集是包含了數(shù)字0～9 的手寫數(shù)據(jù)集，數(shù)據(jù)集的特征維數(shù)是256，每個數(shù)字包含了1 100 個樣本。在 0～9 這 10 個數(shù)字中，手寫時 3、5、8 三個數(shù)字容易混淆。因此，在本實驗中選取3、5、8三個數(shù)字的樣本進(jìn)行實驗。

mfeat 數(shù)據(jù)集是多視圖手寫數(shù)據(jù)集，是UCI 機器學(xué)習(xí)數(shù)據(jù)庫的一個重要組成部分，其中包含了6個不同的視圖 mfeat-fac、mfeat-fou、mfeat-kar、mfeat-mor、mfeatpix和mfeat-zer。每個視圖的特征維數(shù)不等，包含2 000個樣本，其樣本已經(jīng)有標(biāo)簽，即數(shù)字0～9，可用于對聚類算法分出的類簇進(jìn)行評估。

4.2 聚類評價指標(biāo)

4.2.1 歸一化互信息（Normalized Mutual Information，NMI）

互信息用來衡量兩個數(shù)據(jù)分布相關(guān)程度。設(shè)U和V是對n個樣本集合X的兩種不同聚類方法，記X={x1,x2,…,xn},U={U1,U2,…,UR},V={V1,V2,…,VC} ，首先定義互信息（MI）：

4.2.2 聚類準(zhǔn)確率（Accuracy，ACC）

數(shù)據(jù)集X={x1,x2,…,xn} 包含了n個樣本，聚類準(zhǔn)確率指的是正確聚類的樣本數(shù)占總樣本的比例。U是實驗得到的聚類結(jié)果，V為數(shù)據(jù)真實聚類結(jié)果，聚類準(zhǔn)確率公式為：

4.3 基準(zhǔn)算法

本文選取了6種經(jīng)典的聚類算法進(jìn)行對比。（1）k均值聚類算法（k-means clustering algorithm）[29]直接在數(shù)據(jù)集X上進(jìn)行實驗。（2）最小二乘回歸（Least Square Regression，LSR）[1]目標(biāo)是，解析解為低秩表示子空間聚類（Low Rank Representation，LRR）[2]的目標(biāo)是表示系數(shù)矩陣Z的核范數(shù)。（4）稀疏子空間聚類（Sparse Subspace Clustering，SSC）[3]的目標(biāo)是表示系數(shù)矩陣Z的1-范數(shù)。（5）塊約束稀疏圖下的子空間聚類（Block-wise Constrained Sparse Graph，SGB）[18]。（6）塊約束下的集成子空間分割（Ensemble Subspace Segmentation Under Block-wise Constraints，ESSB）[22]。

與SSC、LRR、LSR、SGB 等算法相比，SCAGL 算法通過單視圖數(shù)據(jù)多視圖化將模型推廣到多視圖情形中，該算法不僅適用于單視圖數(shù)據(jù)，也可應(yīng)用于多視圖數(shù)據(jù)。另外，與SGB、ESSB算法一樣，SCAGL算法引入了圖正則化項，利用了視圖內(nèi)的近鄰信息。與ESSB算法相比，本文提出的算法使用所有視圖的聚類信息來更新相似矩陣，使不同視圖間的信息能夠相互傳遞，由此得到的相似矩陣包含更準(zhǔn)確的聚類信息。幾種算法的對比參見表1。

表1 與基準(zhǔn)算法的對比

4.4 實驗結(jié)果與分析

4.4.1 單視圖數(shù)據(jù)集上的實驗

首先選取3 個單視圖數(shù)據(jù)集ORL、Isolet 和USPS，為了計算聚類準(zhǔn)確率和互信息，數(shù)據(jù)集的類簇標(biāo)簽是已知的。

選取6種經(jīng)典聚類算法進(jìn)行對比，自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類（SCAGL）是本文提出的算法，其目標(biāo)方程為式（8），該算法首先對數(shù)據(jù)進(jìn)行多視圖化，將單視圖數(shù)據(jù)分割為多視圖數(shù)據(jù)，由于分割方式不同，多視圖化可分為順序多視圖化與隨機多視圖化。因此自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類（SCAGL）可以根據(jù)分割方式分為 SCAGL-original 和 SCAGL-random 兩種，SCAGL-original表示順序多視圖化后的聚類，SCAGL-random表示隨機多視圖化后的聚類。

對于這幾種不同的算法，在每個數(shù)據(jù)集上單獨執(zhí)行30次實驗，取其均值作為評價指標(biāo)，如表2和表3所示。

表2 在單視圖數(shù)據(jù)集上的聚類準(zhǔn)確率（ACC）

表3 在單視圖數(shù)據(jù)集上的歸一化互信息（NMI）

由表2和表3可見，引入圖正則化項后，算法的聚類性能普遍優(yōu)于沒有圖正則化的算法。而與ESSB實驗結(jié)果相比較，利用所有視圖的聚類信息來迭代更新每個視圖的相似矩陣比僅僅使用本視圖的信息來更新相似矩陣得到的聚類結(jié)果要好。由此可見，不同視圖間的圖信息的共同利用至關(guān)重要。

表4 在mfeat數(shù)據(jù)集上的聚類準(zhǔn)確率（ACC）

表5 在mfeat數(shù)據(jù)集上的歸一化互信息（NMI）

4.4.2 多視圖數(shù)據(jù)集上的實驗

在多視圖數(shù)據(jù)集mfeat 上進(jìn)行實驗分析，該數(shù)據(jù)集包含了6個特征維數(shù)不等的視圖。k-means、SSC、LRR、LSR和SGB這5個算法均是在單視圖數(shù)據(jù)集上展開的，因此可以在該數(shù)據(jù)集的每個視圖上單獨進(jìn)行實驗，然后計算出每個算法在6個視圖上得到的實驗結(jié)果的均值，如表4和表5所示。

SCAGL、ESSB算法在單視圖數(shù)據(jù)集上首先需要對數(shù)據(jù)進(jìn)行多視圖化，將單視圖數(shù)據(jù)集分割為多視圖數(shù)據(jù)集，而mfeat本來就是多視圖數(shù)據(jù)集，因此可以直接在這兩個算法上進(jìn)行實驗，得到的聚類準(zhǔn)確率ACC 與歸一化互信息NMI的結(jié)果如表6所示。

表6 在多視圖數(shù)據(jù)集上的ACC和NMI

只能在單視圖數(shù)據(jù)集上進(jìn)行實驗的算法SSC、LRR、LSR、SGB 和k-means 在 mfeat 數(shù)據(jù)集的每個視圖上進(jìn)行實驗，然后取平均值作為聚類準(zhǔn)確率與歸一化互信息的值；ESSB、SCAGL直接進(jìn)行實驗，實驗結(jié)果如圖1。

由圖1 可知，本文所提出的算法SCAGL 在多視圖數(shù)據(jù)集上比起其他聚類算法具有較好的聚類性能。

4.5 參數(shù)對算法性能的影響

本節(jié)選取ORL 數(shù)據(jù)集來進(jìn)行實驗，研究算法中的不同參數(shù)以及視圖分割方式對聚類結(jié)果產(chǎn)生的影響。選取一個要研究的變量，固定其他參數(shù)不變，每次進(jìn)行30次實驗，取平均值作為評判指標(biāo)的值。本文研究的參數(shù)有分割率α、誤差項參數(shù)λ、圖正則化項參數(shù)β和算法迭代次數(shù)times。

4.5.1 分割率的影響

在本實驗中采用順序分割（Original）和隨機分割（Random）兩種分割方式，對分割率α分別取[0.5，0.25，0.2，0.1，0.05，0.025，0.02，0.01]來進(jìn)行實驗。目的是對比不同的分割方式與不同的分割率對算法性能的影響。該實驗使用的其他參數(shù)一致，誤差項參數(shù)λ=8、圖正則化項參數(shù)β=0.02、算法迭代次數(shù)times=60。實驗結(jié)果為圖2。

由圖2 可知，一般情況下，順序分割的性能比隨機分割的性能好。當(dāng)分割率α=0.05 時，順序分割方法的聚類效果達(dá)到最優(yōu)；當(dāng)分割率α=0.1 時，隨機分割方法的聚類效果達(dá)到最優(yōu)。當(dāng)分割率小于某個臨界值后，聚類準(zhǔn)確率和互信息的值迅速下降，聚類效果越來越差，由此可見，并不是分割的視圖越多越好。

圖1 （a）不同算法的準(zhǔn)確率（ACC）

圖1 （b）不同算法的歸一化互信息（NMI）

圖2 （a）不同分割率對算法性能ACC影響

圖2 （b）不同分割率對算法性能NMI的影響

4.5.2 誤差項與正則化項參數(shù)

在本實驗中采取的分割方式為順序分割，設(shè)置誤差項參數(shù)λ以步長為2 在[2，22]的范圍內(nèi)變化，圖正則化項參數(shù)β以步長為0.02在[0.02，0.1]的范圍內(nèi)變化。目的是研究誤差項參數(shù)λ與正則化項參數(shù)β對算法性能的影響。實驗中其他參數(shù)不變，設(shè)置分割率α=0.2、算法迭代次數(shù)times=50。

由圖3可知，當(dāng)誤差項參數(shù)λ=12，圖正則化項參數(shù)β=0.1 時算法的聚類性能最好，聚類準(zhǔn)確率ACC 與歸一化互信息NMI達(dá)到了最優(yōu)，分別為0.905 3與0.877 6。

圖3 （a）誤差項參數(shù)與正則化項參數(shù)對算法性能ACC影響

圖3 （b）誤差項參數(shù)與正則化項參數(shù)對算法性能NMI影響

4.5.3 迭代次數(shù)的影響

本實驗中采用兩種分割方式順序分割（Original）和隨機分割（Random），對算法的迭代次數(shù)以步長10 在[20，120]的范圍內(nèi)變化。目的是研究迭代次數(shù)對算法性能影響。其他參數(shù)設(shè)置為分割率α=0.2、誤差項參數(shù)λ=7、圖正則化項參數(shù)β=0.01。

由圖4可知當(dāng)?shù)螖?shù)達(dá)到50次時，算法性能比較好且趨于穩(wěn)定，所以為了節(jié)約計算時間與計算成本，可以在實驗中設(shè)置迭代次數(shù)在50次左右。

圖4 （a）迭代次數(shù)對算法性能ACC的影響

圖4 （b）迭代次數(shù)對算法性能NMI的影響

5 結(jié)束語

基于譜分析的子空間聚類首先由數(shù)據(jù)構(gòu)造關(guān)聯(lián)矩陣，再對關(guān)聯(lián)矩陣進(jìn)行譜聚類。因此，聚類的效果依賴關(guān)聯(lián)矩陣的構(gòu)造，本文提出了一種新的自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類算法。首先將單視圖數(shù)據(jù)多視圖化，受多視圖協(xié)同訓(xùn)練思想的啟發(fā)，不同視圖間的信息具有一致性和互補性，因此可以利用不同視圖間的類簇信息，自適應(yīng)地迭代更新每個視圖的圖正則化項，優(yōu)化每個視圖的圖結(jié)構(gòu)，得到聚類性能好的塊對角關(guān)聯(lián)矩陣，然后在關(guān)聯(lián)矩陣上進(jìn)行譜聚類，將樣本聚到不同類簇中。進(jìn)一步將本文算法與已有的聚類算法進(jìn)行對比實驗，實驗結(jié)果顯示了該方法的優(yōu)越性。