何 添,沈宗鑫,黃倩倩,黃雁勇*
(1.西南財經大學 統(tǒng)計學院,成都 611130;2.西南交通大學 計算機與人工智能學院,成都 611756)
隨著信息技術的不斷進步和快速發(fā)展,各行各業(yè)涌現出海量高維數據。有效分析這些數據是數據挖掘和機器學習的一項重要任務。特征選擇[1-2]可以消除高維數據中冗余和嘈雜特征帶來的負面影響,提升算法執(zhí)行效率,降低存儲成本并提高學習模型的性能和可解釋性。近年來,特征選擇在許多領域發(fā)揮著越來越重要的作用,如模式識別[3-4]、機器學習[5-6]、數據挖掘[7-8]、統(tǒng)計分析[9-10]等。
根據數據來源的不同,特征選擇可以分為單視圖特征選擇和多視圖特征選擇。多視圖特征選擇在特征選擇過程中使用了多個視圖數據,利用了不同視圖之間豐富的相關性和互補性信息,使得視圖之間起到相互促進和增強的作用。此外,每一個視圖數據都具有一定的特征空間,具有特定的統(tǒng)計特性和意義。因此多視圖特征選擇往往比單視圖特征選擇有更好的性能。此外,根據標簽信息的可用性,特征選擇可以分為監(jiān)督、半監(jiān)督和無監(jiān)督特征選擇。由于現實應用場景中的數據很大一部分未經標注,這意味著這些數據對于目前的監(jiān)督學習來說不可用。人工標記數據雖然可以解決部分問題,但通常來說標簽難以獲得且成本很高。因此,由于缺乏標簽信息,無監(jiān)督特征選擇更加實用但也更具挑戰(zhàn)性。所以本文主要研究無標簽情況下的多視圖特征選擇問題。
近年來,許多多視圖無監(jiān)督特征選擇方法被相繼提出。這些方法大致可以分為兩類:一類是將多視圖數據拼接組合成單視圖數據,然后在拼接后的數據上執(zhí)行傳統(tǒng)的單視圖特征選擇方法,即基于多視圖連接的方法。如拉普拉斯評分(Laplacian Score,LapScore)[11]、光譜特征選擇(Spectral Feature Selection,SPEC)[12]和最小冗余光譜特征選擇(Feature Selection with Minimum Redundancy,MRSF)[13]等。LapScore 用于衡量每個特征保持樣本相似性的能力;SPEC提出了一個基于譜理論的通用學習框架來統(tǒng)一無監(jiān)督和監(jiān)督特征選擇;MRSF 采用嵌入式的方法來處理光譜特征,剔除特征冗余實現特征選擇。這類方法雖然通過簡單地連接不同的視圖解決了多視圖特征選擇中的一些問題并取得了一定的成功,但沒有考慮到不同視圖特征空間的差異以及不同視圖所提供的信息的互補性;此外,它們增加了特征選擇的計算復雜性,甚至可能造成維度災難。
另一類方法是基于多視圖學習的思想直接進行多視圖特征選擇。如AMFS(Adaptive Multi-view Feature Selection)[14]、MVFS(unsupervised Feature Selection for Multi-View data)[15]和AUMFS(Adaptive Unsupervised Multi-view Feature Selection)[16]等。這類方法通常先進行多視圖數據樣本的相似性表示得到樣本相似矩陣,再考慮光譜空間中相似結構的線性組合,最后實現特征選擇。在特征選擇過程中,這些方法中的結構相似度矩陣是被預先計算好且保持不變的;但是數據中的噪聲和離群點會影響相似結構的可靠性,最終影響特征選擇的效果。因此,其他幾種基于多視圖集成的特征選擇方法針對上述情況進行了改進,如自適應協作相似性學習(Adaptive Collaborative Similarity Learning,ACSL)[17]。與AUMFS 通過簡單線性組合不同視圖的結構相似度矩陣不同,ACSL 通過自適應學習的方式來得到結構相似度矩陣;同時,ACSL 學習了一個稀疏回歸模型,該模型將來自不同視圖的數據映射到結構相似度矩陣中,利用稀疏模型進行特征選擇。ASVW(multi-view unsupervised feature selection with Adaptive Similarity and View Weight)[18]自適應地利用多視圖數據,從多視圖數據中學習一致相似度矩陣,并采用具有結構稀疏性約束的局部投影來選擇重要特征。OMVFS(Online unsupervised Multi-View Feature Selection)[19]通過稀疏學習的非負矩陣分解,將無監(jiān)督特征選擇嵌入到聚類算法中,它進一步結合了圖的正則化,以保持局部結構信息,并幫助選擇鑒別特征。CGMV-UFS(Consensus learning Guided Multi-View Unsupervised Feature Selection)[20]通過找出聚類指示矩陣之間的差異,有效地獲得了高質量的偽標簽,用于后續(xù)的稀疏特征選擇。
然而,上述多視圖無監(jiān)督特征選擇方法大多存在這樣的問題:樣本間的相似度矩陣、不同視圖權重矩陣和特征權重矩陣往往是預先定義的。它們往往容易受到數據中噪聲和離群點的影響,進而得到的相似結構、視圖權重矩陣和特征權重矩陣是不可靠的,不能有效刻畫數據間的真實結構以及反映不同視圖和特征的重要性,最終導致不能選出有用的特征。為此,本文提出一種基于自適應學習的多視圖無監(jiān)督特征選擇(Adaptive Learning-based Multi-view Unsupervised Feature Selection,ALMUFS)方法。將特征選擇嵌入進多視圖模糊C均值聚類框架中,并且考慮到不同視圖和同一視圖下不同特征的重要性均存在差異,ALMUFS 自適應地學習視圖權重和特征權重,以實現特征選擇和同時保證聚類性能;此外,ALMUFS 自適應地學習樣本的相似度矩陣來刻畫數據的內在幾何結構,同時為了實現理想的近鄰分配,對相似圖的拉普拉斯矩陣施加了秩約束,使得樣本的相似矩陣中連通分量個數與聚類數目相等;最后,本文在模型學習過程中引入模糊隸屬度矩陣作為統(tǒng)一的偽標簽指示矩陣,有效地融合了不同視圖之間的信息。在8 個真實數據上的大量實驗結果表明,ALMUFS 方法優(yōu)于其他先進的基線方法。
首先對本文使用的符號表示進行介紹;然后詳細介紹了本文提出的多視圖無監(jiān)督特征選擇(ALMUFS)方法,分別對每個視圖中的數據點和特征表示進行加權,并利用拉普拉斯秩約束來得到恰當的近鄰分配,從而選擇出最具代表性的特征子空間。
在具體介紹ALMUFS 方法之前,首先對本文使用到的符號表示進行說明,如表1 所示。
表1 符號及含義Tab.1 Symbols and their meanings
本文將特征選擇嵌入模糊C均值聚類過程中,在實現特征選擇的同時保證了聚類性能。具體地,多視圖模糊C均值聚類的目標是選擇k個聚類中心,使每個樣本到相應簇中心的距離的平方和最小,目標函數如下:
其中:yi是模糊隸屬度矩陣Y的第i個行向量;yik表示第i個樣本屬于第k個簇的概率;是第v個視圖中第k個簇的中心;u是模糊因子,用來度量每個簇的關聯度。當u=1 時,多視圖模糊C均值聚類可以表示為:
其中:diag(λ(v))是一個對角陣,向量λ(v)的元素為對角陣上的對角元;θ、γ是超參數,用來控制信息量并實現不同視圖之間的信息融合。
此外,為了實現特征選擇,本文在式(4)的基礎上添加了特征權重向量的正則化項以控制特征權重向量的稀疏性以及防止過擬合。最后得到了基于視圖權重和特征權重自適應學習的多視圖無監(jiān)督特征選擇模型:
其中:β是超參數,根據數據的先驗知識選擇。模型(5)聯合執(zhí)行特征選擇與聚類,實現了特征權重與特征權重的自適應學習,有利于選出具有判別性的特征;然而,模型(5)沒有刻畫數據的局部幾何結構,性能受到了一定的限制。接下來,本文將關注于探索數據的局部幾何結構來增強上述模型。
以往的研究表明,發(fā)掘數據的局部幾何結構對于無監(jiān)督特征選擇來說非常重要[22-23]。現存的方法通?;谧V圖理論,通過構造k近鄰圖的方式來刻畫數據的局部幾何結構。圖構造的關鍵是計算相似度矩陣,然而大多數方法都是在特征選擇之前預定義相似度矩陣,并在特征選擇過程中保持不變[24-25]。這使得特征選擇模型的性能非常依賴預定的相似圖,然而這個預定義的圖或許并不是最優(yōu)的,無法有效地刻畫數據的局部幾何結構。因此,本文基于流型學習的基本假設:如果兩個樣本點距離很近,那么它們在對應的嵌入圖中的距離也會很近。引入如下自適應相似度矩陣學習模型:
此外,為了使相似圖結構獲得恰當的近鄰分配,即相似圖的連通分量等于簇的數量,并且每一個連通分量對應一個簇。根據文獻[26],本文對相似度矩陣S(v)的圖拉普拉斯矩陣LS(v)施加秩約束,即,Rank(LS)=n-c,如下所示:
其中,η是超參數,通過η的變化能捕獲更準確的局部結構信息。
本文將具有最佳近鄰分配的自適應相似度矩陣學習模型(8)整合進基于自適應權重學習的多視圖無監(jiān)督特征選擇模型(5)中,得到了最終的目標函數,如下所示:
為了求解目標函數(9),本文設計了一種交替迭代優(yōu)化算法,將目標函數的求解劃分為四個子問題。下面將詳細介紹算法的優(yōu)化過程以及算法收斂性的證明。
2.1.1 固定其他變量,更新Y
對Y的優(yōu)化可以轉化為對問題(10)的求解。
其中,從ω的更新公式可以看出:一個視圖數據越重要或者越有用,這個視圖將被分配的權重就越大。
2.1.4 固定其他變量,更新λ(v)
對λ(v)的優(yōu)化可以轉化為對問題(17)的求解。
類似于視圖權重ω的更新,為了求解問題(17),由拉格朗日數乘法可以得到:
從式(18)的更新公式可以看出:同一視圖下的某個特征越重要或者越有用,那么這個特征將被分配的權重就越大。
總結上述步驟,可以得到ALMUFS 的算法。
算法1 ALMUFS。
算法1 的收斂性取決于4 個迭代子步驟。在更新變量Y、S、ω、λ(v)時,對應的每個子問題都是凸的,并且本文得到了每個子問題的閉式解,所以它們的收斂性可以保證。因此,雖然本文所提出的目標函數不是關于變量Y、S、ω、λ(v)的聯合凸函數,但采用的迭代優(yōu)化算法能夠保證它們收斂。在實驗部分,本文將在真實數據集上繪制優(yōu)化過程中目標函數的收斂曲線,以進一步說明算法1 的收斂性。
為了證明ALMUFS 的有效性,本文在8 個真實數據集上進行了相關實驗,表2 總結了這些數據集的詳細統(tǒng)計信息。
表2 數據集的統(tǒng)計信息Tab.2 Statistics of datasets
本文將ALMUFS 與6 種無監(jiān)督特征選擇基線方法進行了實驗對比,以驗證本文方法的有效性。對比方法如下:
All-feature:該方法表示不執(zhí)行特征選擇,采用所有原始特征。
LS(LapScore)[11]:根據特征保留局部結構的能力來選擇特征。
ACSL[17]:該方法將協同相似結構學習和多視圖無監(jiān)督特征選擇整合到一個統(tǒng)一框架中,并對模型施加了秩限制使協同相似結構具有理想的近鄰分配。
ASVM(Adaptive Similarity and View Weight)[18]:該 方法通過學習一個共同的相似矩陣來刻畫所有視圖的結構,并自適應地學習視圖權重。
OMVFS[19]:OMVFS 是一種基于非負矩陣分解的大規(guī)模/流數據多視圖無監(jiān)督特征選擇方法。
CGMV-UFS[20]:將特征選擇嵌入一個基于非負矩陣分解的聚類框架中,為所有視圖學習出潛在的特征矩陣,并學習一個共同的聚類指示矩陣來融合所有視圖的信息。
所有的實驗都是在Matlab 2016a 64 位版本上進行。在ALMUFS 中,超參數α,β,η的取值從{10-3,10-2,10-1,1,10,102,103}中選擇;γ的取值從{3,6,9,12,15}中選擇;θ的取值從{1,10,100,1 000,10 000}中選擇,以上參數的最優(yōu)組合通過網格搜索得到。參與對比的其他基線方法的超參數根據對應的參考文獻來設置。
本文選擇了兩個常用的聚類評價指標:聚類精度(ACCuray,ACC)和F-measure,作為實驗效果的評價標準。
3.4.1 聚類精度(ACC)
給定第j個樣本的真實標簽gj與它的聚類標簽,ACC計算公式如下:
其中:δ(x,y) 為示性函數,當x=y時,δ(x,y)=1,否則δ(x,y)=0;map(?)為排列映射函數,用于將聚類標簽映射為真實標簽。
3.4.2 F-measure
F-measure(Fmeasure)是常用的一個聚類評價標準,在提高精確率和召回率的同時,也希望兩者之間的差異盡可能小。此時,可以考慮使用二者的調和平均數作為模型評估指標,即:
其中,P和R分別表示精確率和召回率。ACC 和F-measure 的值越高,代表對應方法的性能越好。
本文實驗將特征選擇率的變化范圍設置[0.1,0.9],間隔為0.1。對于不同的特征選擇率,運用特征選擇方法得到相應的特征子集,然后對特征子集執(zhí)行k-means 聚類算法30次,并記錄均值和標準差。
表3 和表4 展示了當特征選擇率為0.4 時,不同特征選擇方法在所有數據集上的ACC 和F-measure 結果,其中,*代表本文的ALMUFS 方法在5%的顯著性水平上顯著優(yōu)于對比方法。最優(yōu)結果加粗表示,次優(yōu)結果用下劃線表示??梢钥闯觯珹LMUFS 在所有8 個數據集上均取得了最優(yōu)性能。與次優(yōu)方法ACSL 和ASVM 相比,ACC 平均提高了8.99 和11.09個百分點,F-measure 平均提高11.87 和13.21 個百分點。
表3 特征選擇率為0.4時的ACC結果 單位:%Tab.3 ACC results with feature selection ratio of 0.4 unit:%
表4 特征選擇率為0.4時的F-measure 單位:%Tab.4 F-measure results with feature selection ratio of 0.4 unit:%
此外,圖1 和圖2 分別展示了當特征選擇率從0.1 變化到0.9 時,所有方法的ACC 和F-measure 變化情況。可以看出,ALMUFS 在絕大多數情況下都優(yōu)于其他基線方法。實驗結果表明了ALMUFS 的優(yōu)越性。
圖1 不同數據集上的ACC結果Fig.1 ACC results on different datasets
圖2 不同數據集上的F-measure結果Fig.2 F-measure results on different datasets
ALMUFS 算法中有5 個超參數,分別是:α、β、θ、γ、η。本文在Yale 數據集上,進行了參數敏感性實驗,并采用ACC 作為評估準則,在其余數據集上的實驗效果相似。實驗結果如圖3 所示,當這5 個超參數變化時,ACC 均沒有明顯的波動。實驗結果表明ALMUFS 對于5 個超參數都不敏感。
圖3 不同超參數對ACC的影響Fig.3 Influence of different hyperparameter on ACC
本文提出的求解目標函數的算法是迭代形式的,下面將通過實驗研究ALMUFS 方法的收斂性。本文在Yale、WikipediaArticles、WebKB 這3 個數據集上進行了收斂性實驗,其余數據集上的實驗效果相似。實驗結果如圖4 所示,可以看出本文ALMUFS 收斂速度很快,通常在10 次迭代以內就能達到收斂狀態(tài),進一步驗證了ALMUFS 的有效性。
圖4 ALMUFS在不同數據集上的目標函數值隨迭代次數變化Fig.4 Objective function value of ALMUFS varying with number of iterations on different datasets
本文提出了一種新的基于自適應學習的多視圖無監(jiān)督特征選擇方法ALMUFS,該方法將特征選擇嵌入進模糊聚類過程中,在聚類過程中同時實現特征選擇。此外,ALMUFS通過自適應的方式學習視圖權重向量、特征權重向量和樣本相似度矩陣;并且,該方法對樣本相似度矩陣的拉普拉斯矩陣施加了秩約束,以確保相似度矩陣中的連通分量的個數與聚類簇數目相等,從而實現恰當的近鄰分配;然后通過選擇每個視圖中的最佳視圖和最具代表性的特征空間,得到更加緊湊的低維高質量特征子集;接著,本文開發(fā)了一種有效的交替迭代優(yōu)化的方法來求解目標函數。最后,在8 個真實數據集上的大量實驗證明了ALMUFS 的可行性和有效性。
在未來的研究中將把無監(jiān)督特征選擇框架擴展到半監(jiān)督場景中,即通過利用少量標簽數據所提供的判別信息和語義信息來引導特征選擇過程,構建面向多視圖數據的半監(jiān)督特征選擇方法。