江雨燕,邵 金,李 平
(1.安徽工業(yè)大學(xué) 管理科學(xué)與工程學(xué)院,安徽 馬鞍山 243032;2.南京郵電大學(xué) 計算機學(xué)院,南京 210023)
聚類作為一種無監(jiān)督的學(xué)習(xí)方法,廣泛應(yīng)用于機器學(xué)習(xí)[1]、模式識別[2]等技術(shù),其通過將數(shù)據(jù)劃分為多個有意義的簇從而達(dá)到分類的目的。例如,在人臉識別中,提取人臉特征后往往以特征點之間的距離為單位來衡量圖像的相似度,通過聚類分析將數(shù)據(jù)分為多個簇,將相似度高的數(shù)據(jù)劃分到同一簇中,從而挖掘數(shù)據(jù)之間的關(guān)系以得到正確的分類結(jié)果;在圖像分割中,為了更好地區(qū)分目標(biāo)與背景,可以依據(jù)圖像的灰度、顏色、紋理等特征將其分割成幾個區(qū)域,通過度量不同區(qū)域的灰度值將目標(biāo)特征劃分到同一區(qū)域,從而實現(xiàn)圖像分割的目的。
常見的聚類方法包括K-means[3]、層次聚類[4]、譜聚類[5]、子空間聚類[6]等。K-means 算法將數(shù)據(jù)點分配給最近的簇,更新每個簇的中心并重新分配所有數(shù)據(jù)點以達(dá)到聚類的效果,其性能簡單且高效,但是對異常點較為敏感。譜聚類是基于圖論而演化來的聚類方法,其對數(shù)據(jù)分布的適應(yīng)性更強,可以識別非凸分布聚類,但是對輸入的相似圖十分敏感。子空間聚類是目前處理高維數(shù)據(jù)最流行的方法之一,常見的子空間聚類算法包括低秩表示(Low Rank Representation,LRR)算法[7]、低秩子空間聚類(Low Rank Subspace Clustering,LRSC)[8]、稀疏子空間聚類(Sparse Subspace Clustering,SSC)[9]、核化稀疏子空間聚類(Kernel Sparse Subspace Clustering,KSSC)[10]。其中,LRR 尋找字典中最低秩的表示以更好地捕獲數(shù)據(jù)結(jié)構(gòu),該方法在處理損壞數(shù)據(jù)時可以發(fā)揮關(guān)鍵作用;LRSC 提出一個聯(lián)合優(yōu)化框架以求得閉合解,其能解決子空間聚類中噪聲及誤差的問題;SSC 利用稀疏表示方法處理數(shù)據(jù),當(dāng)處理分布在多個子空間上的高維數(shù)據(jù)時,由于其自表示模型的魯棒性而受到廣泛應(yīng)用;KSSC是SSC基于核技巧的拓展,使用核技巧可以得到高維空間中的稀疏表示,使得數(shù)據(jù)線性可分,從而獲得更好的聚類結(jié)果。上述方法面對高維數(shù)據(jù)時取得了較好的聚類效果,但是,聚類精確性高度依賴于所學(xué)習(xí)到的相似圖。因此,改變相似圖學(xué)習(xí)方式能否提升聚類性能成為新的研究熱點。
為了獲得穩(wěn)定且準(zhǔn)確的聚類效果,NIE 等[11]提出一種自適應(yīng)近鄰聚類(Clustering with Adaptive Neighbors,CAN),其設(shè)計新的相似圖學(xué)習(xí)方式,直接在數(shù)據(jù)空間中學(xué)習(xí)相似圖,基于局部距離為每個數(shù)據(jù)自適應(yīng)分配近鄰,同時學(xué)習(xí)數(shù)據(jù)的相似性與聚類結(jié)構(gòu)。此外,針對高維數(shù)據(jù)的處理問題,該文提出基于自適應(yīng)近鄰聚類的投影(Projected Clustering with Adaptive Neighbors,PCAN)方法,這種新的相似圖學(xué)習(xí)方式取得了優(yōu)異的效果并在實際場景中得到廣泛應(yīng)用。但是,該方法在學(xué)習(xí)相似圖時未考慮不同特征的重要性。因此,文獻(xiàn)[12]提出一種自動權(quán)重的自適應(yīng)近鄰聚類(Self-Weighted Clustering with Adaptive Neighbors,SWCAN),其對PCAN 進(jìn)行改進(jìn),通過對每個特征賦予相對應(yīng)的權(quán)重以提升聚類性能。
上述方法均通過CAN 獨特的相似圖學(xué)習(xí)方式獲得了良好的聚類效果,然而,它們依然存在以下問題需要解決:在處理高維非線性數(shù)據(jù)時,最優(yōu)核函數(shù)的選擇依然存在困難;為數(shù)據(jù)分配近鄰的方式考慮到了全局?jǐn)?shù)據(jù)結(jié)構(gòu)但未兼顧局部數(shù)據(jù)結(jié)構(gòu)。
近年來,在無監(jiān)督聚類任務(wù)中,隨著深度學(xué)習(xí)技術(shù)的發(fā)展[13],自編碼器的應(yīng)用日益廣泛。自編碼器具有可壓縮性,可以學(xué)習(xí)到原始數(shù)據(jù)中的重要特征,原始數(shù)據(jù)由編碼層投影到潛在空間獲得低維的潛在表示,再由解碼層重構(gòu)數(shù)據(jù),通過最小化重構(gòu)誤差保留數(shù)據(jù)局部結(jié)構(gòu)信息。JI 等[14]提出一種深度子空間聚類網(wǎng)絡(luò)(Deep Subspace Clustering Network,DSC-Net),其在編碼層與解碼層之間加入自表示層,以模仿子空間聚類中的自表示。XIE 等[15]提出無監(jiān)督深度嵌入聚類(Deep Embedded Clustering,DEC),其通過軟分配方法學(xué)習(xí)數(shù)據(jù)類別,使用深度網(wǎng)絡(luò)同時學(xué)習(xí)數(shù)據(jù)表示與聚類。LI等[16]提出基于自編碼器的自適應(yīng)近鄰聚類,其通過引入自編碼器自適應(yīng)地學(xué)習(xí)數(shù)據(jù)的非線性結(jié)構(gòu),同時更新潛在表示及相似圖。文獻(xiàn)[17]改進(jìn)DSC-Net的自表達(dá)層,使之由參數(shù)化的全連接層變?yōu)橐粋€無需參數(shù)的閉合解。上述算法利用自編碼器的特性能夠保留局部數(shù)據(jù)結(jié)構(gòu),但是它們認(rèn)為所有特征的重要性都一致且未考慮數(shù)據(jù)的全局結(jié)構(gòu)?;谝陨戏治?,為了處理高維非線性數(shù)據(jù)同時提升聚類準(zhǔn)確性及算法泛化能力,在聚類過程中必須兼顧全局與局部數(shù)據(jù)結(jié)構(gòu),并根據(jù)不同特征、不同重要性來對深度聚類方法進(jìn)行設(shè)計與驗證。
本文提出融合自動權(quán)重學(xué)習(xí)與結(jié)構(gòu)化信息的深度子空間聚類(Deep Subspace Clustering Fused with Auto-Weight Learning and Structured Information,DSC-AWSI)算法。對自編碼器進(jìn)行預(yù)訓(xùn)練與微調(diào),利用自編碼器將原始數(shù)據(jù)投影到非線性潛在空間以學(xué)習(xí)數(shù)據(jù)的潛在表示,根據(jù)特征重要性的不同自適應(yīng)地賦予各特征權(quán)重,從而學(xué)習(xí)相似圖并完成聚類。
假設(shè)數(shù)據(jù)矩陣X={x1,x2,…,xn}?Rn×d,其中,n表示樣本數(shù)量,d表示維度。每列數(shù)據(jù)點xi的近鄰可以被定義為k-nearest 個數(shù)據(jù)點,將歐氏距離作為距離度量單位。所有與xi相近的數(shù)據(jù)點都有一個對應(yīng)的近鄰概率aij,若較小,則對應(yīng)的aij往往較大,其目標(biāo)函數(shù)如下:
其中:ai?Rn×1是一個向量;1是所有元素均為1 的向量。式(1)有平凡解,即當(dāng)概率為1 時其他數(shù)據(jù)點無法被分配為xi的近鄰。為解決該問題,加入正則約束,如式(2)所示:
其中:γ為正則化參數(shù)=1;L為拉普拉斯矩陣,表示塊對角的相似圖;DA為相似圖A的度矩陣(對角矩陣),對其添加低秩約束Rank(L)=n-c,n為樣本數(shù)量,c為類別數(shù)量,為了以清晰的結(jié)構(gòu)實現(xiàn)理想的近鄰分配,連接分量必須是準(zhǔn)確的c值。對于每一個數(shù)據(jù)點xi,均可以通過式(2)為其分配近鄰。為了實現(xiàn)理想的近鄰分配使之成為自適應(yīng)的分配過程,概率應(yīng)該被施加約束,目的是無需使用K-means 或其他離散方法也能使連接元素被劃分為c個類別。
自編碼器通過其編碼器與解碼器的特性,在無監(jiān)督的場景下可以將原始數(shù)據(jù)非線性地投影到一個潛在空間,該過程是一種非線性降維。自編碼器的作用是利用編碼層將高維輸入數(shù)據(jù)編碼為低維數(shù)據(jù),然后提取低維數(shù)據(jù)的顯著特征[18],自編碼器本質(zhì)上可以作為特征提取器,再通過解碼層解碼將提取到的特征還原到初始維度,從而得到重構(gòu)數(shù)據(jù)[19]。假設(shè)神經(jīng)網(wǎng)絡(luò)具有m+1 層結(jié)構(gòu),執(zhí)行m層非線性轉(zhuǎn)化,對每個輸入xi都有對應(yīng)的潛在表示和重構(gòu)輸出,X={x1,x2,…,xn}?Rn×d為原始輸入數(shù)據(jù)x,則神經(jīng)網(wǎng)絡(luò)的計算過程為:i
首先,將原始數(shù)據(jù)映射到潛在空間Z={z1,z2,…,zn}?Rl×n,其中,l 現(xiàn)有很多聚類方法對大規(guī)模數(shù)據(jù)及噪聲敏感,在處理高維數(shù)據(jù)時往往需要犧牲聚類質(zhì)量來解決離群樣本及大規(guī)模擴展問題[20]。為此,一些優(yōu)秀的特征選擇方法被引入到聚類任務(wù)中[21-22],該類方法提取感興趣的特征從而提升聚類效果。本文引入自編碼器作為非線性數(shù)據(jù)處理方法,同時結(jié)合文獻(xiàn)[12]中的自動權(quán)重學(xué)習(xí)思想,賦予噪聲特征較低權(quán)重、有效特征較高權(quán)重,根據(jù)特征不同的重要性來為潛在空間中所學(xué)習(xí)到的特征賦予不同的權(quán)重。本文算法流程如圖1 所示。 圖1 本文算法流程Fig.1 Procedure of this algorithm 對于所有數(shù)據(jù)點X={x1,x2,…,xn}?Rn×d,通過自編碼器的編碼層將數(shù)據(jù)轉(zhuǎn)換到潛在空間,得到良好的特征表示Z={z1,z2,…,zn}?Rl×n。解碼層重構(gòu)數(shù)據(jù),表示為則損失函數(shù)?1可以表示為: 其中:第一項通過最小化輸入與輸出之間的重構(gòu)誤差來保留局部數(shù)據(jù)結(jié)構(gòu),相比常見的核方法,該自編碼器具有更好的顯式轉(zhuǎn)換效果及更高的可伸縮性;第二項是正則化項,通過限制神經(jīng)網(wǎng)絡(luò)中權(quán)重與偏執(zhí)的大小來避免模型過擬合。 通過編碼層轉(zhuǎn)換后,學(xué)習(xí)到的特征表示為Z={z1,z2,…,zn}?Rl×n,原始數(shù)據(jù)得到了更好的低維表征。但是,不同特征的重要性不同,在實際應(yīng)用中往往沒有足夠的先驗知識來判斷各個特征的重要性。為了使模型更具魯棒性,需要針對有效特征、噪聲特征設(shè)置不同的權(quán)重,即對潛在空間的數(shù)據(jù)矩陣Z賦予不同的權(quán)重,且這種自動學(xué)習(xí)權(quán)重的方式不會改變數(shù)據(jù)的結(jié)構(gòu)信息。因此,本文受文獻(xiàn)[11-12]方法的啟示,將式(2)改寫為: 其中:c為類別數(shù)量:W表示權(quán)重矩陣,其為一個對角矩陣,每個wi值對應(yīng)一個zi特征,不同的特征自適應(yīng)地學(xué)習(xí)權(quán)重;W=diag(wk),0 ≤wk≤1,k=1,2,…,d。目標(biāo)函數(shù)的第一項是學(xué)習(xí)自動權(quán)重與自適應(yīng)近鄰的過程,根據(jù)W賦予特征Z不同的權(quán)重,再進(jìn)行自適應(yīng)近鄰過程,學(xué)習(xí)相似圖并實現(xiàn)聚類;第二項是低秩約束項,拉普拉斯矩陣L是半正定的[23],為了對L施加低秩約束,令σi(L)表 示L的第i個最小特征值,σi(L)≥0,根據(jù)Ky Fan’s定理[24]中的進(jìn)行推導(dǎo)得出,其作用等同于式(2)中的Rank(L)=n-c。 綜上,本文算法的損失函數(shù)?sum=?1+λ?2,具體計算如下: 其中:δ、λ是非負(fù)權(quán)衡的參數(shù)。式(7)右側(cè)第一項為最小化自編碼器輸入與輸出的重構(gòu)誤差;第二項為正則化項,限制神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置;第三項為聚類損失,在學(xué)習(xí)相似圖A的同時根據(jù)特征重要性賦予不同的權(quán)重wi,A必須為塊對角結(jié)構(gòu),F(xiàn)的最優(yōu)解是由拉普拉斯矩陣L的c個特征向量對應(yīng)的最小的c個特征值而構(gòu)成的。通過本文模型將原始數(shù)據(jù)投影到低維潛在空間,學(xué)習(xí)到的特征表示能夠兼顧全局與局部的數(shù)據(jù)結(jié)構(gòu),同時為不同的特征賦予相對應(yīng)的權(quán)重,從而指導(dǎo)后續(xù)聚類工作。 2.2.1P,b更新子問題 其中:g′(·)為激活函數(shù)g(·)的導(dǎo)數(shù),g′(x)=tanh′(x)=1-tanh2(x);⊙表示逐元素相乘。 在執(zhí)行算法前先對所設(shè)計的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練與微調(diào),從而得到初始化的P(m)、b(m)。根據(jù)式(8)、式(9),利用隨機梯度下降(Stochastic Gradient Descent,SGD)法迭代更新如下: 其中:η表示學(xué)習(xí)率。 2.2.2W更新子問題 固定?sum中的其他變量,除去無關(guān)項,對W更新如下: s.t.WT1=1,0≤wk≤1,k=1,2,…,d,W=diag(w)(13) 定理1假設(shè)L為相似圖A的拉普拉斯矩陣,矩陣Q?Rn×c的第i行表示為則有: 根據(jù)定理1[12],假設(shè)qi=Wzi?Rd×1,即Q=WZ,則有: 再考慮約束WT1=1,式(17)的拉格朗日函數(shù)可以寫為: 對拉格朗日函數(shù)求導(dǎo)并令其等于0,有: 將約束WT1=1 代入式(19)中,則有: 結(jié)合式(19)與式(20),對于wi的更新如下: 2.2.3A更新子問題 固定?sum中的其他變量,除去無關(guān)項,假設(shè)?R1×c表示矩陣F?Rn×c的第i行,根據(jù)定理1,對A更新如下: 由于式(22)在每個i之間是獨立的,因此可以對其進(jìn)行簡化以獨立解決每個i的A更新問題,如下: 對式(24)使用交替迭代的方法進(jìn)行更新,其拉格朗日函數(shù)如下: 其中:α、β≥0均為拉格朗日乘子。根據(jù)KKT 條件[25],可推導(dǎo)出: 其中:(·)+表示max(·,0)。若ai僅有k個非零元素,可推出aik>0,ai,k+1=0。根據(jù)文獻(xiàn)[11]可知,參數(shù)γi的取值可以控制數(shù)據(jù)點的k個近鄰數(shù)量。在擁有k近鄰數(shù)據(jù)下,學(xué)習(xí)一個稀疏的相似圖A有助于減少后續(xù)的計算成本。為了不失一般性,假設(shè)?i,,ai有k個近鄰,則有: 將式(27)與式(28)相結(jié)合,可得: 為了獲得具有k個非零值的ai的優(yōu)化解,令: 考慮到γ=[γ1,γ2,…,γn],此處假設(shè)γi=γ,對γ的求解則可轉(zhuǎn)化為對每個γi相加求均值,如下: 根據(jù)式(26)與式(31)可推導(dǎo)出ai中第j個元素的閉合解為: 特別地,當(dāng)j 2.2.4F更新子問題 固定?sum中的其他變量,除去無關(guān)項,F(xiàn)更新子問題如下: 根據(jù)Ky Fan’s 定理[24],最優(yōu)解F由拉普拉斯矩陣L的c個特征向量所對應(yīng)的c個最小的特征值構(gòu)建。由于算法需要設(shè)計準(zhǔn)確的c值,因此最優(yōu)解F可以直接用于聚類任務(wù),無需K-means 或者其他離散方法。 基于上述分析,本文DSC-AWSI 算法描述具體如算法1 所示。 算法1DSC-AWSI 算法 本文所提模型設(shè)定的隱藏層數(shù)M=2,模型包含神經(jīng)網(wǎng)絡(luò)反向傳播訓(xùn)練及聚類過程,聚類優(yōu)化過程分為3 個子問題,A更新子問題的復(fù)雜度為O(nd2+n2d),F(xiàn)更新子問題的復(fù)雜度為O(n3),W更新子問題的復(fù)雜度為O(n2d),聚類過程的總復(fù)雜度為O(n3+ndmax(n,d))。假設(shè)自編碼器中隱藏層的維度最大值為D,則算法的總復(fù)雜度為O(n3+ndmax(n,d)+nD2)。 為了驗證本文算法的有效性,使用較為常見的幾種聚類算法在多種數(shù)據(jù)集上進(jìn)行實驗測試,并選取10次實驗的平均值作為結(jié)果。實驗環(huán)境為AMD Ryzen 2600X處理器、16 GB RAM、顯卡配置GeForce GTX 1660ti,在Windows 10 系統(tǒng)上進(jìn)行實驗。 在ORL、COIL-20、UMIST 這3 個數(shù)據(jù)集上進(jìn)行實驗測試: 1)ORL 數(shù)據(jù)集中包含40 個人在不同的光照、時間和表情下的400 幅面部圖像。 2)COIL-20 數(shù)據(jù)集包含20 個物體在不同旋轉(zhuǎn)角度下的圖像,每個物體有72 幅圖像。 3)UMIST 數(shù)據(jù)集包含20 個人的575 幅圖像,每個人具有不同角度、不同姿態(tài)的多幅圖像。 上述數(shù)據(jù)集中的圖像都為32×32 像素,數(shù)據(jù)集具體描述如表1 所示。 表1 實驗數(shù)據(jù)集信息Table 1 Experimental datasets information 在實驗過程中,自編碼器的隱藏層數(shù)M=2,隱藏層維度設(shè)置為400維-200維-400維(以下簡寫為400-200-400),類別數(shù)目c根據(jù)數(shù)據(jù)集設(shè)置不同值,近鄰數(shù)目k在(2,50)區(qū)間內(nèi)取值,從而觀察不同k值下算法的聚類性能(由于k為近鄰數(shù)目,值為0 或1 均不合理)。設(shè)置γ=-1,μ為拉普拉斯矩陣約束參數(shù),為了加速收斂過程,令μ=γ,在每次迭代中,若相似圖A的連通分量遠(yuǎn)小于c,則增大μ,反之則減小μ。學(xué)習(xí)率η設(shè)置為η=2-12,δ設(shè)置為固定值10-3,根據(jù)不同數(shù)據(jù)集,參數(shù)λ從{5×10-4,10-3,5×10-3,10-2,5×10-2,10-1}中選出最優(yōu)值。此外,當(dāng)網(wǎng)絡(luò)的均方誤差損失最小值小于10-3或迭代次數(shù)達(dá)到400 時,則默認(rèn)算法收斂。 將本文算法與6 種常見的聚類算法在上述數(shù)據(jù)集上進(jìn)行實驗,對比算法包括LRR[7]、LRSC[8]、SSC[9]、KSSC[10]、CAN[11]、SWCAN[12]。上述6 種算法均由原作者提供的代碼進(jìn)行實驗,為確保公平性,算法具體參數(shù)根據(jù)原論文設(shè)置為最優(yōu),在最優(yōu)參數(shù)下進(jìn)行結(jié)果對比。使用常見的聚類指標(biāo)ACC(Accuracy)、NMI(Normal Mutual Information)來衡量算法的聚類性能,實驗結(jié)果如表2 所示,最優(yōu)結(jié)果加粗表示。 表2 各算法在3 個數(shù)據(jù)集上的實驗結(jié)果對比Table 2 Comparison of experimental results of each algorithm on three datasets 從表2 可以看出,相比子空間聚類算法及自適應(yīng)近鄰聚類算法,本文算法在公開數(shù)據(jù)集上可以得出更好的聚類效果:在COIL-20 數(shù)據(jù)集上本文算法的ACC 相比CAN、SWCAN算法提高了6.6 和3.23 個百分點;在ORL 數(shù)據(jù)集上本文算法的ACC 相比CAN、SWCAN 算法提高了3.51 和1.75 個百分點;在UMIST 數(shù)據(jù)集上本文算法的ACC、NMI 值相比CAN、SWCAN 平均提高了6.94 和5.12 個百分點,這說明引入自編碼器可以在特征選擇時更好地保持局部數(shù)據(jù)結(jié)構(gòu),驗證了深度網(wǎng)絡(luò)處理高維非線性數(shù)據(jù)的有效性,同時也體現(xiàn)出自動權(quán)重學(xué)習(xí)通過賦予特征權(quán)重的方式能夠解決噪聲數(shù)據(jù)問題,使得鄰接矩陣能夠取得更好的學(xué)習(xí)效果。但是,本文算法的NMI 值與SWCAN 算法相差較小,原因可能是兩者的子空間相似圖學(xué)習(xí)方式相同。在ORL 數(shù)據(jù)集上,本文算法的NMI 值低于SSC 算法,原因可能是本文算法沒有使用數(shù)據(jù)自表示以及對相似圖的分割沒有使用譜聚類,這說明了數(shù)據(jù)自表示方法有利于加強相同簇內(nèi)數(shù)據(jù)點之間的聯(lián)系。 圖2~圖4 分別表示在不同數(shù)據(jù)集上根據(jù)迭代次數(shù)增加的神經(jīng)網(wǎng)絡(luò)訓(xùn)練的重構(gòu)損失變化。從中可以看出,在迭代400 次以后,COIL-20 數(shù)據(jù)集上的均方誤差最低達(dá)到0.017 88,ORL數(shù)據(jù)集上的均方誤差最低達(dá)到0.060 34,UMIST 數(shù)據(jù)集上的均方誤差最低達(dá)到0.039 986,即隨著迭代次數(shù)的增加,通過深度網(wǎng)絡(luò)訓(xùn)練的重構(gòu)誤差逐漸減小,表明在影響(誤差)較小的情況下能夠通過深度網(wǎng)絡(luò)保留數(shù)據(jù)局部結(jié)構(gòu)。 圖2 深度網(wǎng)絡(luò)在COIL-20 數(shù)據(jù)集上的均方誤差Fig.2 Mean square error of depth network on COIL-20 dataset 圖3 深度網(wǎng)絡(luò)在ORL 數(shù)據(jù)集上的均方誤差Fig.3 Mean square error of depth network on ORL dataset 圖4 深度網(wǎng)絡(luò)在UMIST 數(shù)據(jù)集上的均方誤差Fig.4 Mean square error of depth network on UMIST dataset 由于特征權(quán)值有部分是稀疏的,因此在某些維度上判別性較低。圖5~圖7 給出不同數(shù)據(jù)集下學(xué)習(xí)到的各個特征的不同權(quán)重,圖中橫坐標(biāo)為200 維特征,縱坐標(biāo)為權(quán)重。根據(jù)學(xué)習(xí)到的特征權(quán)重值可以區(qū)分有效特征、噪聲特征、無用特征,因此,自動學(xué)習(xí)權(quán)重的方式可以學(xué)習(xí)判別性低的特征,從而有效指導(dǎo)后續(xù)的聚類工作。 圖5 在COIL-20 數(shù)據(jù)集上學(xué)習(xí)到的特征權(quán)重Fig.5 Feature weights learned on COIL-20 dataset 圖6 在ORL 數(shù)據(jù)集上學(xué)習(xí)到的特征權(quán)重Fig.6 Feature weights learned on ORL dataset 圖7 在UMIST 數(shù)據(jù)集上學(xué)習(xí)到的特征權(quán)重Fig.7 Feature weights learned on UMIST dataset 本文相似圖學(xué)習(xí)方法與CAN、SWCAN 算法相同,近鄰數(shù)k值在很大程度上影響了聚類準(zhǔn)確率,為了測試k值變化對算法性能的影響,將k的取值區(qū)間設(shè)置為(2,50)以顯示不同的聚類結(jié)果。通過圖8~圖10 可以看出,在COIL-20 數(shù)據(jù)集上,當(dāng)k=5時聚類準(zhǔn)確率達(dá)到最優(yōu),在ORL 數(shù)據(jù)集上,當(dāng)k=3時聚類準(zhǔn)確率達(dá)到最優(yōu),在UMIST 數(shù)據(jù)集上,當(dāng)k=4 時聚類準(zhǔn)確率達(dá)到最優(yōu)。從中可知,k值對于聚類效果較為敏感,通過對k值進(jìn)行調(diào)整能夠提升算法性能。 圖8 在COIL-20 數(shù)據(jù)集上不同k 值的聚類結(jié)果Fig.8 Clustering results of different k values on COIL-20 dataset 圖9 在ORL 數(shù)據(jù)集上不同k 值的聚類結(jié)果Fig.9 Clustering results of different k values on ORL dataset 圖10 在UMIST 數(shù)據(jù)集上不同k 值的聚類結(jié)果Fig.10 Clustering results of different k values on UMIST dataset 為了研究深度網(wǎng)絡(luò)中隱藏層的大小對算法性能的影響,分別使用600-200-600、400-200-400、400-150-400這3 種不同維度的隱藏層進(jìn)行實驗,結(jié)果如圖11、圖12所示。從中可以看出,當(dāng)隱藏層的維度設(shè)置為400-150-400 時,算法的ACC 與NMI 值均低于400-200-400,但均高于600-200-600;當(dāng)隱藏層的維度設(shè)置為600-200-600 時,3 個數(shù)據(jù)集下算法的ACC 與NMI值均低于其他2 種情況。因此,深度網(wǎng)絡(luò)的隱藏層維度設(shè)置為400-200-400 時最優(yōu)。 圖11 不同網(wǎng)絡(luò)層數(shù)對算法ACC 值的影響Fig.11 Influence of different network layers on ACC value of algorithm 圖12 不同網(wǎng)絡(luò)層數(shù)對算法NMI 值的影響Fig.12 Influence of different network layers on NMI value of algorithm 近年來,子空間聚類由于其計算效率高、易處理等特性而得到廣泛研究與應(yīng)用,然而,子空間學(xué)習(xí)方式在對高維非線性數(shù)據(jù)進(jìn)行聚類時難以很好地捕獲局部數(shù)據(jù)結(jié)構(gòu)。因此,本文提出一種融合自動權(quán)重學(xué)習(xí)的深度聚類算法,通過端到端的學(xué)習(xí)方式,引入自編碼器將特征投影到潛在空間并進(jìn)行降維,從而實現(xiàn)子空間聚類。該算法能夠兼顧全局?jǐn)?shù)據(jù)結(jié)構(gòu)與局部數(shù)據(jù)結(jié)構(gòu),并通過自適應(yīng)學(xué)習(xí)特征權(quán)重的方式賦予潛在空間特征不同的權(quán)重,其中,賦予有效特征更高的權(quán)重,賦予噪聲特征更低的權(quán)重,以此獲得更好的聚類效果。在公開數(shù)據(jù)集上進(jìn)行對比實驗,結(jié)果表明,該算法的聚類效果優(yōu)于LRR、LRSC、SSC 等算法。下一步將在深度網(wǎng)絡(luò)設(shè)計中加入生成對抗網(wǎng)絡(luò),以更精確地判別所學(xué)習(xí)到的特征,提升算法的聚類性能。2 模型與優(yōu)化
2.1 深度聚類模型
2.2 算法優(yōu)化
2.3 復(fù)雜度分析
3 實驗結(jié)果與分析
3.1 實驗設(shè)置
3.2 結(jié)果分析
4 結(jié)束語