林筠超,萬 源
(武漢理工大學理學院,武漢 430070)
(*通信作者電子郵箱wanyuan@whut.edu.cn)
隨著數據采集技術的飛速發(fā)展,在計算機視覺、數據挖掘、生物醫(yī)學等許多鄰域中產生了大量未標記的高維數據[1]。高維數據通常包含很多噪聲,處理分析過程中會帶來高昂的計算成本和維數災難,因此非監(jiān)督特征選擇成為高維數據降維中重要且具有挑戰(zhàn)的問題[2-3]。
由于沒有標簽信息作為參考,相較于有監(jiān)督方法,非監(jiān)督特征選擇方法更具有挑戰(zhàn)性。高維度空間的特征選擇降維方法的相關研究表明,應該通過選擇出的特征來保持原始數據的重要信息[4-5],這些信息包括數據的全局結構和局部流形結構。拉普拉斯分數法(Laplacian Score,LapScore)[6]通過圖拉普拉斯算法來選擇特征,使數據的局部流形結構得以保留。受流形學習和l1正則化子集選擇模型的啟發(fā),UDFS(Unsupervised Discriminative Feature Selection)[7]將判別分析和l2,1范數最小化合并到非監(jiān)督特征選擇的聯合框架之中。文獻[8]中提出的多聚類特征選擇方法(Multi-Cluster Feature Selection,MCFS),通過譜分析和l1范數正則化來保留多簇結構以選擇特征,而非獨立地評估每個特征的分數。非負判別特征選擇(Nonnegative Discriminative Feature Selection,NDFS)方法[9]將判別信息和特征間的相互性合并于一個聯合框架中,充分利用了魯棒非負矩陣分解、局部學習和魯棒特征學習的優(yōu)勢。JELSR(Joint Embedding Learning and Sparse Regression)[10]則考慮聯合嵌入學習和稀疏回歸,而非用圖拉普拉斯來表征高維數據結構。結構化最優(yōu)圖特征選擇(Structured Optimal Graph Feature Selection,SOGFS)[11]則提出了一種局部結構學習的同時進行特征選擇的方法。這些特征選擇方法都能很好地解決通過全局結構構造相似矩陣所帶來的弊端。依賴指導的非監(jiān)督特征選擇(Dependence Guided Unsupervised Feature Selection,DGUFS)方法[12]提出了兩個依賴關系指導項,一項增加了所需聚類標簽對原始數據的依賴性,而另一項使所選特征對聚類標簽的依賴性最大化,以指導特征選擇過程,特別地,提出了一種基于l2,0范數相等約束的無投影特征選擇模型。自適應近鄰特征選擇(Adaptive Neighbors Feature Selection,ANFS)方法[13]通過自適應重構圖來描述局部結構,并通過在相應的拉普拉斯矩陣上施加秩約束來同時考慮多簇結構。自加權多視角聚類(Self-weighted Multiview Clustering,SwMC)方法[14]在學習視角權重的同時實現對多視角數據的聚類,并且提出權重可以通過引入一個超參數來學習。
然而,由于沒有標簽信息作為參考,上述非監(jiān)督特征選擇方法都是使用某一種度量方法來表示數據點之間的相似度。考慮到各方法構造相似矩陣的標準并不統(tǒng)一,如何從多種度量標準中總結出一種統(tǒng)一度量標準是值得研究的;另外,通過常規(guī)的K最近鄰(K-Nearest Neighbors,K-NN)法分配得到的相似矩陣,難以確保其具有理想的連通分量數[11]。
針對上述兩個問題,本文將不同的度量函數自適應地融合為統(tǒng)一的相似性度量,并將圖結構優(yōu)化嵌入非監(jiān)督特征選擇之中,提出了一種基于圖結構優(yōu)化的自適應多度量非監(jiān)督特征選擇(Self-Adaptive Multi-measure unsupervised feature selection with Structured Graph Optimization,SAM-SGO)方法,為了能根據統(tǒng)一的相似度得到相關子空間,本文將基于圖的降維問題合并于目標函數之中,并引入稀疏性l2,0正則化約束以避免噪聲樣本和特征帶來的影響。與已有的算法相比,本文方法能更好地保留圖的結構信息,并使獲得的稀疏投影能高效地進行特征選擇;通過對多種度量標準進行自適應融合,有效地避免了單一度量標準對相似矩陣的構造所帶來的偏差。
文獻[15]中提出的局部保留投影(Locality Preserving Projections,LPP)法被廣泛應用在降維方法USSL(Unified Sparse Subspace Learning)[16]、FSSL(joint Feature Selection and Subspace Learning)[17]、FSASL(unsupervised Feature Selection with Adaptive Structure Learning)[18]等算法中。
對于給定數據集X={xi|xi∈Rd×1;i=1,2,…,n},相關的數據矩陣表示為X=[x1,x2,…,xn],xi∈Rd,其中d為數據維數,n為數據的樣本數。構造一個無向圖G={X,S},頂點由數據集X構成,邊由相似矩陣S∈Rn×n構成。圖G 的每條邊,表示近鄰點之間相互連接。對于無向圖G,其極大連通子圖稱為G的連通分量(connected component)[19]。令Sij為第i個數據點與第j個數據點之間的相似度,其值與頂點間距離成反比。對角矩陣D定義為,?i,拉普拉斯矩陣L定義為L=D-
一個特征的重要性取決于其表達圖結構信息的能力[15]。為簡化說明,假設向量y=[y1,y2,…,yn]T為圖G 頂點的低維表示,即yi是數據點xi的低維表示。為在各頂點之間找到一組低維向量,以最好地表征頂點對之間的相似關系,可以通過最小化下列目標函數來獲得較優(yōu)的特征:
為實現最小化目標函數,當樣本xi和xj之間相似性越大,對應地yi和yj之間距離應該越小,反之亦然。進一步,為構造拉普拉斯特征映射的線性逼近,假設用于表示數據的低維向量yi通過線性映射yi=WTxi表示,W∈Rd×m是投影矩陣,d和m分別為數據投影前后的維數。則式(1)目標函數變?yōu)椋?/p>
為避免目標函數的平凡解,通常增加約束WTW=I[21]。
在實際應用中,為了讓獲得的投影矩陣W保持行稀疏,Cai 等[22]提出,將稀疏l2,0誘導約束引入圖嵌入問題(2),使稀疏特征選擇問題有效地嵌入于圖降維問題中,優(yōu)化問題(2)改進為:
增加的約束||W||2,0=r使得正交投影W僅具有r個非零行,且這r個非零行即為所選特征。求解時,優(yōu)化問題(3)等價于其對偶問題(4):
其中:r是預設常數,β是正則化參數。顯然,當β足夠大時,問題(4)等價于問題(3)。
非監(jiān)督特征選擇方法通常分為兩個獨立的步驟,首先通過局部結構構造相似矩陣,然后通過稀疏正則化選擇較優(yōu)特征,如USSL[16]、FSSL[17]、DGUFS[12]等,這些方法所構造的相似矩陣是獨立于特征選擇的,即從原始數據中得出的相似矩陣在之后的步驟中保持不變,但實際數據必然包含噪聲特征,從而導致相似矩陣不可靠。針對這個問題,FSASL 方法[18]提出了一種自適應結構學習方法,通過迭代優(yōu)化思想反復構造相似矩陣,避免了固定的相似矩陣對特征選擇的影響。
然而在構造相似矩陣的過程中,這些方法所采用的度量標準僅限于某一種,而忽略了數據點之間的相似性程度,且通過常規(guī)的K近鄰法得到的相似矩陣,難以確保其具有理想的連通分量數[14]。本文提出一種基于圖結構優(yōu)化的自適應多度量融合方法,將多種度量函數自適應地融合為統(tǒng)一的相似性度量,解決了單一方法對譜圖的構建所帶來的偏差,并增加拉普拉斯矩陣秩約束,以保證相似矩陣的連通分量數是理想的。
在機器學習中,對高維數據進行降維的主要目的是希望找到一個合適的低維空間。而尋找合適的空間,實質上就是在尋找一個合適的距離度量[23]。令ft為第t個給定的度量函數,對于數據矩陣X,ft(X) ∈Rn×n表示為基于度量函數ft所構造的相似矩陣。為評價樣本點之間的相似性,根據數據的特性的不同,LapScore、MCFS 選擇高斯核函數度量[8],DGUFS 使用歐氏加權函數[12],SOGFS 使用的是基于概率鄰域的相似矩陣度量法[24],LMNN(Large Margin Nearest Neighbor)算法使用的是夾角余弦法[25]等。
然而,上述方法所采用的距離度量都是固定且單一的,沒有可調節(jié)參數,難以通過對樣本數據的學習來加以改善。因此,針對這個問題,本文考慮用多種度量自適應融合成的統(tǒng)一度量方法,相較于上述的單一度量方法,本文所構造的相似矩陣能更好地表達數據之間的聯系。為了將多種度量方法進行統(tǒng)一,本文構造下列目標函數:
其中I=(1,1,…,1)T∈Rn×1。為有效融合所有選定的度量,將自適應權重ht分配給每項,以便對其重新加權。式(5)重新寫為:
在式(6)中,自適應權重ht通過ht迭代更新。其優(yōu)勢在于,對于相似矩陣S與各度量標準計算得到的相似矩陣ft(X)之差,差額較大的項自動分配較小的權重ht,同樣地,較大的權重ht將自適應地分配給差額較小的項。因此,對于任意給定數據,本方法能自適應地將權重分配給各度量,從而減輕了單一度量標準對實驗所帶來的偏差。
理想情況下,在將數據劃分為c個簇的聚類任務中,相似矩陣S應含有c個連通分量,然而在多數情況下,通過局部保留投影方法LPP 所獲得的相似矩陣S,其具有的連通分量數不能達到理想情況[11],很容易出現所構成的無向圖僅有一個連通分量的情況[24],這表明得到的相似矩陣不夠優(yōu)秀。因此,需要對該圖的結構進行進一步優(yōu)化,使得其連通分量數滿足要求。
假設相似矩陣S非負,首先給出關于拉普拉斯矩陣L所滿足的定理[20]:
定理對于拉普拉斯矩陣L,特征值為0的重根數為c(即矩陣L的秩為n-c),等價于相似矩陣S包含c個連通分量。
該定理表明,若拉普拉斯矩陣L滿足rank(L)=n-c,則原始數據所構成的相似矩陣S可被劃分為c個簇,從而能夠得到具有最優(yōu)結構的無向圖G。因此,通過增加對于拉普拉斯矩陣L的秩約束,可使得相似矩陣S能包含準確個數的連通分量,使得無向圖G的結構信息更為準確。
綜上所述,通過融合了自適應多度量思想,并在l2,0范數稀疏約束的圖嵌入非監(jiān)督特征選擇中增加了優(yōu)化圖結構的約束項rank(L)=n-c,本文方法SAM-SGO 所得到的目標函數為:
目標函數(7)中包含l2,0范數正則化、秩約束以及3 個未知變量,同時優(yōu)化求解這幾個變量較為困難,本文引入交替迭代更新的思想,在優(yōu)化某個變量時固定其他所有變量,反復對變量進行迭代更新直至收斂,最終得到目標函數的最優(yōu)解。
對于問題(7),考慮到拉普拉斯矩陣L=及其秩rank(L)=n-c的值都取決于相似矩陣S。令σi(L)表示L的第i個最小特征值,由于L為半正定矩陣,其每個特征值均非負,即σi(L) ≥0,進而約束rank(L)=n-c等價于根據Ky Fan’s定理[26]有:
通過定理將原式中拉普拉斯矩陣L的秩約束轉化為跡,于是式(7)可優(yōu)化為:
顯然,在式(9)中,當λ足夠大,項Tr(FTLF)將趨于0。在每次迭代過程中,當連通分量比c小,可以相應地增加λ,反之亦然,直至趨于收斂。通過此方法,將矩陣秩的約束轉變?yōu)檑E,使得問題變得更易解決。
當S和F固定時,僅保留含有W的項,于是目標函數(9)式可以變換為:
由于l2,0范數的特殊性,不易對式(10)直接求解。文獻[22]中提出,問題的求解等價于問題的求解,因此在該式中用代替||W||2,1,同時省略與W最優(yōu)取值無關的常數項r,將式(10)變形為:
對于式(11),其拉格朗日函數表示為:
其中,斜對角矩陣A∈Rm×m由拉格朗日乘子構成。通過求解式(12),其關于W的卡羅需-庫恩-塔克(Karush-Kuhn-Tucker,KKT)條件為:
其中Ω=diag(Λ1,Λ2,…,Λd),Λi=+ε)-1/2/2,增加擾動項ε以防止行稀疏投影矩陣W出現平凡解,ε通常取極小值。因此,問題(12)的求解等價于問題(14):進而通過求解矩陣XTLX+βΩ/2α的前m個最小特征值所對應特征向量,即可得到最優(yōu)投影矩陣W。
當S和W固定時,變量F僅存在于目標函數的最后一項,故式(9)變?yōu)椋?/p>
其中,最優(yōu)解所對應的F即為拉普拉斯矩陣L的前c個最小特征值所對應的特征向量組成的矩陣。
W和F固定后,僅保留與變量S和ht有關的項后,問題(9)變換為:
進行恒等式變換得到:
將式(17)拆成n項,其第k項的拉格朗日方程為:
其中μ為等式約束乘子,θk≥0(k=1,2,…,n)為不等式約束乘子。對于?h,關于式(18)的KKT條件如式(19)、(20)所示:
由此分別得到了3個變量W、S、F的優(yōu)化更新表達式,其具體的算法流程總結如下:
輸入 原始數據X=[x1,x2,…,xn],xi∈Rd×1;聚類數c;目標維數m;參數α、β;r個選定的度量函數ft。
輸出 投影矩陣W∈Rr×d。
初始化 隨機生成ht,計算初始拉普拉斯矩陣L,并通過式(14)和(15)計算初始W和F
重復迭代:
對于k∈1到n
通過式(22)更新skh
通過ht=更新ht
通過式(15)更新F
根據式(14),通過求解矩陣XTLX+βΩ/2α的前m個最小特征值,獲得所對應的特征向量,更新W直至收斂
計算所有的‖wi‖2并排序,選取前m個特征代入K-means 聚類得到聚類結果并計算準確率。
本文設計了多項實驗來測試本文所提出的基于圖結構優(yōu)化的自適應多度量非監(jiān)督特征選擇(SAM-SGO)方法的性能。
本文使用了6組公開圖像數據集,包括3組人臉圖像數據集MSRA25[27]、ORL[28]、Yale[29],1 組實物數據集COIL20[30],1組生物數據集Lung[31]和1組手寫圖像數據集USPS[32]。表1匯總了這些數據集的具體信息,并在圖1中展示了3個不同領域數據COIL20、Yale、USPS的部分圖像。
圖1 部分樣本圖像Fig.1 Some sample images
表1 樣本數據集信息Tab.1 Sample dataset information
為驗證SAM-SGO 方法的有效性,將本文方法與下列幾種常見的非監(jiān)督特征選擇算法進行了比較分析,包括:
1)拉普拉斯分數(LapScore)方法[6]:通過計算特征對于保持局部流形結構能力,并根據得分大小選擇特征。
2)多集群特征選擇(MCFS)方法[8]:該方法使用了圖拉普拉斯算子的多個特征向量來捕獲數據的多簇結構,通過譜分析和l1范數正則化來保留多簇結構以選擇特征,而非獨立地評估每個特征的分數,在聚類和分類上都能取得很好的性能。
3)基于局部學習聚類的特征選擇和內核學習(LLCFS)方法[33]:該方法旨在通過基于局部學習聚類(Local Learningbased Clustering,LLC)方法的框架中的特征選擇來獲得合適的數據表示,在處理位于流形上的高維數據時要優(yōu)于基于全局學習的方法。
4)依賴指導的非監(jiān)督特征選擇(DGUFS)方法[12]:提出了基于l2,0范數相等約束的無投影特征選擇模型,以聯合方式選擇特征和分區(qū)數據。
5)基于圖結構優(yōu)化的非監(jiān)督特征選擇(SOGFS)方法[11]:該方法同時執(zhí)行特征選擇和局部結構學習,并通過圖結構約束相似矩陣,使該方法所選擇的特征能更好地表達數據的結構信息。
6)使用全部特征并進行K-means 聚類的基準線作為對照組(Baseline)。
為了算法比較的公平性,本文所采用的度量方法部分源于上述對比方法,包括:LapScore、MCFS 所使用的高斯核函數度量法[8],SOGFS 所使用的基于概率鄰域的相似矩陣度量法[24],LMNN 算法所使用的夾角余弦法[25],以及在模糊數學領域中常見的絕對值倒數法[34]。
在實驗參數上,MCFS,LapScore 和SOGFS 中的近鄰個數k均設置為5,DGUFS 所使用的參數α和β以及SOGFS 中參數γ采用層次網格搜索法來確定。考慮到聚類性能隨初始聚類中心的選擇而變化,為減輕聚類方法帶來的隨機效應,對于所選擇的特征,本文從不同的起點重復10 次K-means 聚類實驗并只取最優(yōu)結果。本文采用聚類準確度(Accuracy,ACC)作為評價指標來評估所選特征,定義為:
其中:pi和qi分別是數據提供的標簽和得到的標簽;δ(x=y)為條件判斷函數,若x=y則函數值為1,反之則為0;map(qi)是排列映射函數,可通過Kuhn-Munkres 算法得到,它能將得到的集群標簽qi映射為數據集中的等效標簽。
本文實驗環(huán)境為Inter Core i7-6500U,CPU@2.50 GHz,12 GB 內存,Windows 10 64 位操作系統(tǒng),編程軟件為Matlab 2016a。對所提出的SAM-SGO算法進行了3組實驗:在固定所選特征數時各算法之間的性能對比;對于不同數據集,不同算法的聚類準確率隨所選特征數增加的變化曲線;各實驗參數對于本方法的靈敏度分析。
4.2.1 對于不同所選特征數,不同算法在各數據集下的聚類結果
對于各非監(jiān)督特征選擇方法,本文使用了上述實驗數據及相應設置,采用十折交叉驗證法對特征子集進行評價,在表2 中展示了各特征選擇方法在選擇前90 個特征的聚類結果(其中對最優(yōu)方法用加粗表示,次優(yōu)方法用下劃線表示)??梢钥闯?,本文提出的SAM-SGO 非監(jiān)督特征選擇方法在不同的數據集上普遍優(yōu)于其他5 種方法,具體而言:相較于次優(yōu)的方法,本文方法在人臉圖像數據集ORL、Yale、MSRA25 上,聚類準確度(ACC)分別提高了6.8 個百分點,4.0 個百分點和4.3個百分點;在實物圖像數據集COIL20 和手寫圖像數據集USPS 中分別提高了2.5 個百分點和3.4 個百分點;在生物數據集Lung中提高了0.7個百分點。
表2 各算法在選取前90個特征的聚類準確度(ACC)平均值和標準偏差 單位:%Tab.2 Average clustering accuracy(ACC)and standard deviation of each algorithm with selecting top 90 features unit:%
通過對比可以發(fā)現,本文所提出的方法在不同的數據集上的性能都較高,特別是對于人臉圖像數據集,其聚類正確率不僅優(yōu)于使用全部特征的聚類方案,更是顯著高于其他方法所得到的結果。由此可見,相較于其他特征選擇方法,本文所提出的基于圖結構優(yōu)化的自適應多度量非監(jiān)督特征選擇(SAM-SGO)方法能有效地篩選出較為精煉的數據特征,從而提高聚類的正確率。
4.2.2 各算法聚類性能對比
為直觀地觀察不同方法之間的性能差異,本文分別在6組數據中進行實驗,并繪制出在特征數為10、20、30、…、110,不同算法所選特征的K-means 聚類準確度(ACC),如圖2所示。
通過分析,可以得出以下結論:
1)隨著特征數的增加,本文所述的方法的聚類準確度通常呈現先上升后穩(wěn)定的趨勢。這是由于現實數據中包含許多冗余特征,值得挖掘的信息通常包含在少數特征中,若所選特征過多,導致噪聲特征的增加,勢必影響聚類結果。這種趨勢間接驗證了特征選擇方法的有效性。
2)在大多數情況下,由于數據中經常包含許多噪聲數據或冗余數據,相較于直接使用所有特征進行K-means 聚類,僅使用特征選擇方法選定的少數特征進行聚類,其結果會更好。特別是本文所提出的SAM-SGO 方法,在大多數數據中都有較好的改善。說明了特征選擇方法能有效地提高數據的質量,獲得精煉后的數據,從而提高聚類的準確率。
3)由圖2(e)可以看出,并非在所有的數據集中,使用特征選擇方法的聚類正確率都能比基線方法高,這是由于原始數據本身的特性不同,這也說明了特征選擇方法仍有進步的空間。
圖2 六組數據在不同所選特征數下各算法的聚類準確度Fig.2 Clustering accuracy of each algorithm for 6 groups of data under different feature numbers
4.2.3 自適應權重ht的收斂性
本文所采用的四種度量方法,包括:高斯核函數度量法、基于概率鄰域的相似矩陣度量法、夾角余弦法,以及絕對值倒數法。本文給出了對于COIL20數據集和Yale數據集,自適應權重ht隨迭代次數增加的曲線,如圖3所示。
圖3 自適應權重ht的收斂曲線Fig.3 Convergence curve of adaptive weight ht
可以看到,本方法中的自適應度量權重ht收斂速度是非常快的。在以上兩個示例中,經過若干次迭代之后均趨近收斂于一個定值。從圖3(a)可以看出在數據集COIL20中,絕對值倒數函數對于該數據的適應程度遠高于其他方法,而夾角余弦法的適應程度最低。而對于圖3(b)中數據集Yale,高斯核函數度量法的適應度最高,其次是基于概率鄰域的相似矩陣度量法,反而數據集COIL20中表現良好的絕對值倒數法權重較低。由此可以看出在不同數據集下,SAM-SGO 方法對于度量方法的選擇是有所偏好的。
4.2.4 統(tǒng)一相似矩陣的稀疏性
為了對比本文SAM-SGO 方法處理相似矩陣能力,本文給出了本文方法在處理COIL20 數據集前后,相似矩陣S的稀疏程度對比,如圖4所示,其中,橫坐標表示相似矩陣S的第i列,縱坐標表示相似矩陣S的第j行,右側顏色欄(colorbar)表示顏色范圍所對應的數值范圍。
圖4 相似矩陣S稀疏程度Fig.4 Sparsity of similarity matrix S
可以看出迭代收斂后的相似矩陣,除主對角線以外的元素,絕大多數元素均為0或趨近于0。相較于迭代開始前的相似矩陣,SAM-SGO 方法迭代收斂后的矩陣更為稀疏,其結構也更加清晰,驗證了采用本方法構造的統(tǒng)一相似矩陣是足夠稀疏的。
4.2.5 靈敏度分析
本文研究了SAM-SGO 方法中,參數對實驗結果影響。在本方法中,不確定參數包括m、α、β三項。
對于參數m(數據投影后的維數),其值會稍微影響結果,根據實驗經驗,通常將其設置在d/3~d/2。
而對于參數α、β,其值對聚類結果的影響不大。對于數據集COIL20,本文給出了參數α、β的值對聚類準確率ACC結果的靈敏度分析,包括固定β=0.7,變化α和特征數,以及固定α=3,變化β和特征數兩組對比實驗,如圖5所示。
圖5 SAM-SGO方法在COIL20數據集上的靈敏度分析Fig.5 Sensitivity analysis for SAM-SGO method on dataset COIL20
可以發(fā)現,隨著所選特征數的增加,聚類準確度有著上升的趨勢;而固定特征數個數時,聚類準確度不會隨著參數β的改變而出現太大的變化。整體而言,參數的小幅度調整對于結果的影響不會很大,這說明了SAM-SGO 方法在某種程度上對參數α、β具有魯棒性。盡管如此,本文仍建議在實際應用中使用分層網格搜索來尋找最優(yōu)的參數。
為統(tǒng)一不同度量的相似矩陣,使得到的相似矩陣具有理想的連通分量數,本文提出了一種基于圖結構優(yōu)化的自適應多度量非監(jiān)督特征選擇方法(SAM-SGO),將自適應度量嵌入基于圖的降維問題,并對圖結構進行優(yōu)化??紤]到噪聲數據帶來的影響而引入了l2,0范數正則化。為解決所提出的問題,給出了一種有效的迭代優(yōu)化算法,在不同領域的多個基準數據集上進行的綜合實驗,驗證了本文方法的有效性。
盡管SAM-SGO 方法通過尋求線性變換來進行特征選擇,能夠表現出非常好的性能,但相較于圖像數據集,本算法在非圖像數據集上的表現不夠優(yōu)秀,可以考慮使用核映射的非線性模型來擴展所提出的方法,可能會提高本算法的普適性;另外,可以嘗試將自適應多度量思想方法應用到有監(jiān)督和半監(jiān)督的分類領域之中。