朱星宇,陳秀宏
(1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無(wú)錫 214122;2.江南大學(xué) 江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無(wú)錫 214122)
在信息時(shí)代背景下產(chǎn)生了海量的高維數(shù)據(jù),然而這些數(shù)據(jù)通常含有大量冗余特征和噪聲,降低了算法的性能。因此,如何從高維數(shù)據(jù)中選出最有效的特征即特征選擇已成為一項(xiàng)研究熱點(diǎn),特征選擇旨在通過(guò)去除冗余、不相關(guān)和有噪聲的特征,找到一組簡(jiǎn)潔且具有良好泛化能力的特征,由此產(chǎn)生的方法已在機(jī)器學(xué)習(xí)[1]、數(shù)據(jù)挖掘[2]和生物信息學(xué)[3]等領(lǐng)域得到了廣泛的應(yīng)用?;谑欠袷褂脴?biāo)簽,特征選擇方法可分為有監(jiān)督學(xué)習(xí)[4]和無(wú)監(jiān)督學(xué)習(xí)[5]。
有監(jiān)督學(xué)習(xí)依賴于數(shù)據(jù)的標(biāo)簽信息,并利用它直接指導(dǎo)學(xué)習(xí)過(guò)程。然而,從未標(biāo)記數(shù)據(jù)中提取最有判別性的信息是一個(gè)具有挑戰(zhàn)性的問(wèn)題,由于無(wú)監(jiān)督特征選擇可以根據(jù)原始數(shù)據(jù)的潛在屬性來(lái)確定特征的重要性,因此近年來(lái)越來(lái)越受到研究人員的關(guān)注。本文主要研究無(wú)監(jiān)督特征選擇方法。
基于譜分析的無(wú)監(jiān)督特征選擇因其出色的性能引起了廣泛關(guān)注,本節(jié)將回顧一些比較經(jīng)典的譜特征選擇方法。無(wú)監(jiān)督的判別特征選擇(L2,1-norm regularized discriminative feature selection for unsupervised learning)[6]聯(lián)合使用判別分析和L2,1范數(shù)進(jìn)行無(wú)監(jiān)督特征選擇,它雖然可以選擇判別性的特征,但卻忽略了數(shù)據(jù)間的內(nèi)在結(jié)構(gòu)。Nie 等[7]提出了靈活流形嵌入(flexible manifold embedding:a framework for semi-supervised and unsupervised dimension reduction)作為降維的一般框架,非負(fù)判別特征選擇(unsupervised feature selection using nonnegative spectral analysis)[8]則在FME 框架中結(jié)合特征選擇和譜聚類學(xué)習(xí),它具有魯棒非負(fù)矩陣分解、局部學(xué)習(xí)和魯棒特征學(xué)習(xí)的優(yōu)勢(shì)。聯(lián)合嵌入學(xué)習(xí)和稀疏回歸(joint embedding learning and sparse regression:a framework for unsupervised feature selection)[9]是基于FME 和L2,1范數(shù)的特征選擇方法,它致力于嵌入學(xué)習(xí)高維樣本的低維表示。最近,Nie 等[10]提出了結(jié)構(gòu)最優(yōu)圖特征選擇(unsupervised feature selection with structured graph optimization),該方法同時(shí)執(zhí)行特征選擇和局部結(jié)構(gòu)學(xué)習(xí),同時(shí)它可以自適應(yīng)地確定數(shù)據(jù)間的相似性矩陣,但過(guò)于嚴(yán)格的正交約束選擇出的特征會(huì)丟失一定程度的判別性,從而降低他們?cè)诰垲惢蚍诸惾蝿?wù)中的性能。自適應(yīng)圖的廣義不相關(guān)回歸(generalized uncorrelated regression with adaptive graph for unsupervised feature selection)[11]通過(guò)最大熵來(lái)自適應(yīng)地構(gòu)造相似圖,進(jìn)而同時(shí)進(jìn)行特征選擇和譜聚類,但它在學(xué)習(xí)相似圖時(shí)采用標(biāo)簽矩陣學(xué)習(xí),沒(méi)有考慮原始數(shù)據(jù)的類簇結(jié)構(gòu),這顯然不是很合理。
盡管上述無(wú)監(jiān)督特征選擇方法已經(jīng)在各種應(yīng)用中取得了良好的性能,但仍有以下不足:1)上述基于譜特征選擇的方法構(gòu)造的相似圖是從原始數(shù)據(jù)得到且是靜態(tài)的,而現(xiàn)實(shí)世界的數(shù)據(jù)始終包含大量噪聲,這使得靜態(tài)相似矩陣很不可靠,進(jìn)而破壞局部流形結(jié)構(gòu);2)最優(yōu)相似矩陣應(yīng)具有精確的c個(gè)連通分量(c是類簇?cái)?shù)),它能更準(zhǔn)確地揭示數(shù)據(jù)的局部鄰域結(jié)構(gòu);3)通過(guò)傳統(tǒng)正交約束選擇出的特征雖達(dá)到了低冗余的目的,但會(huì)丟失一些判別性的特征,這些特征在分類任務(wù)中往往能起到關(guān)鍵作用。
綜合上述分析,本文聯(lián)合廣義不相關(guān)回歸、結(jié)構(gòu)化最優(yōu)圖和非負(fù)譜分析,提出一個(gè)聯(lián)合不相關(guān)回歸和非負(fù)譜分析的無(wú)監(jiān)督特征選擇模型。模型中對(duì)相似矩陣增加包含精確的c個(gè)連通分量的約束,可以用來(lái)動(dòng)態(tài)學(xué)習(xí)結(jié)構(gòu)化最優(yōu)圖,進(jìn)而更準(zhǔn)確地揭示數(shù)據(jù)之間的局部結(jié)構(gòu)信息;同時(shí)通過(guò)非負(fù)譜聚類可以學(xué)習(xí)到更真實(shí)準(zhǔn)確的聚類指標(biāo);利用廣義不相關(guān)約束的正則回歸方法選擇不相關(guān)和判別性的特征,有效避免不相關(guān)約束導(dǎo)致的平凡解。在不同數(shù)據(jù)集上的實(shí)驗(yàn)表明所提出的方法是有效的,且該模型在無(wú)監(jiān)督二維圖像的特征選擇領(lǐng)域,如:醫(yī)學(xué)圖像分類、人臉識(shí)別、模式識(shí)別等計(jì)算機(jī)視覺(jué)任務(wù)方面有著廣泛的應(yīng)用價(jià)值。
無(wú)監(jiān)督特征選擇也可以表示為回歸模型,從而正則化回歸模型也廣泛應(yīng)用在無(wú)監(jiān)督特征選擇中。但是,已有工作忽略了特征的不相關(guān)性。尤其是當(dāng)只需少量特征時(shí),需要選擇最具判別性的特征。Li 等[11]提出的以下廣義不相關(guān)回歸模型(generalized uncorrelated regression model,GURM) 可以獲得具有判別性且不相關(guān)的流形結(jié)構(gòu):
式中:W∈Rd×c是回歸矩陣,b∈Rc×1是偏差項(xiàng),F(xiàn)∈Rn×c是學(xué)習(xí)的嵌入聚類結(jié)構(gòu);正則化項(xiàng)‖W‖2,1可使得W的行是稀疏的,進(jìn)而選擇重要的特征;β是正則化參數(shù),β越大,W行越稀疏;=St+βG為廣義散度矩陣,G為d×d對(duì)角矩陣,其對(duì)角元素定義為
這里,ε>0是一個(gè)很小的值,可避免因W的行稀疏而導(dǎo)致的分母為0 的情形;St=XHXT是樣本數(shù)據(jù)的總散度矩陣。一般地,當(dāng)樣本數(shù)量小于數(shù)據(jù)維度時(shí),St是奇異的,而SG t總是正定的,這樣約束條件可使數(shù)據(jù)在投影子空間中是統(tǒng)計(jì)不相關(guān)的,這樣可以很好地保留數(shù)據(jù)的全局結(jié)構(gòu)。當(dāng) β很小時(shí),可使投影后樣本之間高度不相關(guān),因此,約束條件在描述樣本的不相關(guān)性時(shí)要優(yōu)于正交約束WTW=I和傳統(tǒng)不相關(guān)約束WTStW=I。
研究表明,相似性矩陣可用來(lái)描述數(shù)據(jù)間的局部結(jié)構(gòu)。然而,大多數(shù)構(gòu)造相似性矩陣的方法并沒(méi)有考慮原始數(shù)據(jù)中的冗余特征和噪聲,從而導(dǎo)致所學(xué)習(xí)到的局部結(jié)構(gòu)不夠準(zhǔn)確,最終影響特征選擇的結(jié)果。本節(jié)采用一種自適應(yīng)確定相似度矩陣的方法[12],可以同時(shí)執(zhí)行特征選擇和局部結(jié)構(gòu)學(xué)習(xí)。
兩個(gè)數(shù)據(jù)樣本相鄰的概率可以用來(lái)描述它們之間的相似度,記相似度矩陣為S∈Rn×n,其中元素sij表示相似性圖中與樣本xi和xj相對(duì)應(yīng)的結(jié)點(diǎn)之間相連的概率。樣本xi和xj越接近,則對(duì)應(yīng)的連接概率sij越大,它與對(duì)應(yīng)結(jié)點(diǎn)之間的距離成反比。相似度矩陣S∈Rn×n可通過(guò)以下優(yōu)化問(wèn)題得到:
如果學(xué)習(xí)得到的相似矩陣恰好包含c個(gè)連通分量時(shí)(即它僅含有c個(gè)對(duì)角分塊),則每個(gè)樣本的近鄰是最佳的。但是,問(wèn)題(3)(式(3))的解一般不具備此性質(zhì),大多數(shù)情況下其解只包含1個(gè)連通分量[12]。
受文獻(xiàn)[14]的啟發(fā),對(duì)拉普拉斯矩陣LS=DS?的秩進(jìn)行約束可使得矩陣S具有c個(gè)連通分量。這時(shí),問(wèn)題(3)轉(zhuǎn)化為
然而,問(wèn)題(4)(式(4))很難直接求解,因?yàn)橹燃s束是一個(gè)復(fù)雜的非線性約束。假設(shè)半正定矩陣LS的n個(gè)非負(fù)特征值依次由小到大排列σ1(LS)≤σ2(LS)≤···≤σn(LS),則問(wèn)題(4)可轉(zhuǎn)化為
這里F∈Rn×c是類指標(biāo)矩陣。故問(wèn)題(5)(式(5))可重寫為
正交非負(fù)約束可使得F的每一行只有一個(gè)元素大于0,其他元素都等于0。從而得到的類指標(biāo)矩陣F更準(zhǔn)確,且獲得更具判別性的信息。此外,求解問(wèn)題(7)(式(7))得到的S包含精確的c個(gè)連通分量,能夠捕獲更準(zhǔn)確的局部結(jié)構(gòu)信息。
根據(jù)流形學(xué)習(xí)的理論,希望原始空間中樣本的近鄰關(guān)系在低維投影空間中得到保持,為此,本文討論在低維空間內(nèi)學(xué)習(xí)最優(yōu)圖。設(shè)W∈Rd×c是投影矩陣,則由(7)可得到以下模型:
將模型(8)(式(8))與稀疏回歸模型(1)相結(jié)合,得到本文聯(lián)合不相關(guān)回歸和非負(fù)譜分析模型:
其中,α、β、λ是正則化參數(shù)。在式(9) 中,第1 項(xiàng)、第4 項(xiàng)和第5 項(xiàng)刻畫了無(wú)監(jiān)督不相關(guān)回歸和非負(fù)譜分析,用于學(xué)習(xí)稀疏投影矩陣和預(yù)測(cè)標(biāo)簽矩陣,且L2,1范數(shù)可使得W保持行稀疏,從而能夠選擇出更具有價(jià)值和判別性的特征;第2 項(xiàng)和第3 項(xiàng)用于學(xué)習(xí)數(shù)據(jù)的局部結(jié)構(gòu),確保原始空間內(nèi)數(shù)據(jù)的相似結(jié)構(gòu)在投影子空間內(nèi)得到保持。這里第2 項(xiàng)未采用L2范數(shù)距離的平方,這是考慮到若原始數(shù)據(jù)中有噪聲,平方會(huì)擴(kuò)大噪聲對(duì)模型學(xué)習(xí)與分類的影響。
令問(wèn)題(9)(式(9))關(guān)于b的 拉格朗日函數(shù)為
其中,Γ(W,F,S)表示式(9)中依賴于W、F、S但又獨(dú)立于b的項(xiàng)。取Ωb(b)關(guān)于b的導(dǎo)數(shù)并令其等于0,得
在實(shí)際應(yīng)用中,數(shù)據(jù)結(jié)構(gòu)總是多模態(tài)的,為了在多模態(tài)數(shù)據(jù)上獲得更好的性能,可以研究圖的局部性。假設(shè)S的每一行有一個(gè)具體的αi[13],再結(jié)合式(11),問(wèn)題(9)可重寫為
此時(shí),參數(shù) αi可以控制每個(gè)樣本自適應(yīng)近鄰的數(shù)量[12]。
由于式(12)中的目標(biāo)函數(shù)是凸的,故它有全局最優(yōu)解,但直接求其全局解比較困難。本節(jié)給出一種交替優(yōu)化方法來(lái)迭代求解它。
1)固定F和S,更新W
此時(shí),問(wèn)題(12)(式(12))等價(jià)于以下問(wèn)題:
該問(wèn)題將不相關(guān)性表現(xiàn)為流形結(jié)構(gòu),且具有閉式解。問(wèn)題(15)(式(15))可表示為
問(wèn)題(16)(式(16))可以利用廣義冪迭代方法[16]求解,詳細(xì)過(guò)程見(jiàn)算法1。
算法1求解問(wèn)題(14)
此時(shí),問(wèn)題(12)等價(jià)于:
其中,E=H+2λLS,M=HXTW。
此問(wèn)題可采用乘性更新規(guī)則[17]來(lái)求解。首先考慮它的松馳問(wèn)題:
其中,γ為充分大的正數(shù),由KKT 最優(yōu)性條件得
這里,φij為對(duì)應(yīng)于約束Fij≥0的非負(fù)拉格朗日乘子。于是有以下更新規(guī)則:
再對(duì)F的每一列歸一化使得它滿足條件(FTF)ii=1,i=1,2,···,n。
3)固定W和F,更新S
其中,fi和fj分別為F的第i行和第j行。該問(wèn)題可分解為以下n個(gè)獨(dú)立的子問(wèn)題:
其中,mi=(eil+λfil,···,ein+λfin)。
該問(wèn)題可利用文獻(xiàn)[18]中的方法求解,并可自適應(yīng)地確定式(9)中參數(shù)α[13],進(jìn)而獲得具有精確k個(gè)非零分量的最優(yōu)解si。
以上3 步可迭代地進(jìn)行,直到目標(biāo)函數(shù)收斂或滿足終止條件,整個(gè)過(guò)程概括為算法2。
算法2JURNFS
在以上算法中,主要的計(jì)算復(fù)雜度為步驟①中的奇異值分解和矩陣求逆,故本算法時(shí)間復(fù)雜度最高為O(n2d),假設(shè)算法迭代T次,則該部分的時(shí)間復(fù)雜度為O(Tn2d),從而整個(gè)算法的時(shí)間復(fù)雜度為O(Tn2d)。
在本節(jié)中,通過(guò)進(jìn)行大量實(shí)驗(yàn)以充分驗(yàn)證本文所提出方法的有效性和優(yōu)越性。在展示結(jié)果之前,首先提供一些詳細(xì)的實(shí)驗(yàn)方案。
1)數(shù)據(jù)集:實(shí)驗(yàn)中使用了6個(gè)公共數(shù)據(jù)集,包括2個(gè)人臉數(shù)據(jù)集ORL[19]和BIO[20],1個(gè)物體數(shù)據(jù)集COIL20[21],1個(gè)手寫字?jǐn)?shù)據(jù)集BA[22],1個(gè)樹(shù)葉數(shù)據(jù)集LEAVES[23]以及1個(gè)生物學(xué)數(shù)據(jù)集LUNG[24]。數(shù)據(jù)集的詳細(xì)信息見(jiàn)表1 及圖1 所示。
圖1 部分?jǐn)?shù)據(jù)集的圖片F(xiàn)ig.1 Visualization of some datasets
表1 數(shù)據(jù)集信息Table1 Detail introduction to datasets
2)對(duì)比算法:實(shí)驗(yàn)中將本文所提出的聯(lián)合不相關(guān)回歸和非負(fù)譜分析模型(joint uncorrelated regression and nonnegative spectral analysis for unsupervised feature selection,JURNFS)與5個(gè)特征選擇方法進(jìn)行了比較,分別是:無(wú)監(jiān)督判別特征選擇(L2,1-norm regularized discriminative feature selection for unsupervised learning,UDFS)[6]、非負(fù)判別性特征選擇(unsupervised feature selection using nonnegative spectral analysis,NDFS)[8]、聯(lián)合嵌入學(xué)習(xí)和稀疏回歸(joint embedding learning and sparse regression:A framework for unsupervised feature selection,JELSR)[9]、最優(yōu)結(jié)構(gòu)圖的特征選擇(unsupervised feature selection with structured graph optimization,SOGFS)[10]和用于無(wú)監(jiān)督特征選擇的自適應(yīng)圖的廣義不相關(guān)回歸(generalized uncorrelated regression with adaptive graph for unsupervised feature selection,URAFS)[11]。
3)評(píng)價(jià)指標(biāo):為了驗(yàn)證所選特征的優(yōu)劣性,本文利用兩個(gè)度量標(biāo)準(zhǔn)來(lái)衡量每種算法的性能,一個(gè)是識(shí)別精度(ACC)[25],定義:
式中:yi是每一個(gè)樣本的真實(shí)標(biāo)簽;是對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽;n是測(cè)試樣本的數(shù)量;函數(shù)δ(·,·)衡量?jī)蓚€(gè)輸入?yún)?shù)之間的關(guān)系,如果兩個(gè)參數(shù)相等則等于1,否則等于0,聚類精度越高,說(shuō)明算法的效果越好;另一個(gè)評(píng)價(jià)指標(biāo)是標(biāo)準(zhǔn)化互信(NMI)[26],定義:
式中:C是真實(shí)標(biāo)簽的集合;C′是預(yù)測(cè)標(biāo)簽的集合;MI(C,C′)是互信息指標(biāo);Γ(C)、Γ(C′)分別是C和C′的熵。NMI 越大,表示算法性能越穩(wěn)定。
4)參數(shù)設(shè)置:本文通過(guò)網(wǎng)格搜索來(lái)確定每個(gè)算法的最優(yōu)參數(shù),所有算法的參數(shù)都是從{10?4,10?3,10?2,···,102,103,104}中選取。此外,在聚類實(shí)驗(yàn)中,本文采用流行的K-means 聚類方法,用于對(duì)具有選定特征形成的新數(shù)據(jù)進(jìn)行聚類,每個(gè)數(shù)據(jù)集的選擇特征數(shù)在表1 中列出。為減少Kmeans 中隨機(jī)起點(diǎn)觸發(fā)的偶然性影響,對(duì)每種算法進(jìn)行10 次聚類,并計(jì)算平均值。對(duì)于分類實(shí)驗(yàn),本文使用1-最近鄰(1-NN)分類器對(duì)選定特征的測(cè)試圖像數(shù)據(jù)進(jìn)行分類。為了減少偏差,所有實(shí)驗(yàn)均重復(fù)運(yùn)行10 次以隨機(jī)選擇訓(xùn)練樣本,最后計(jì)算平均分類結(jié)果。另外,K-means 聚類方法中的K值設(shè)置為c,并且將每種方法中子空間的維數(shù)也都設(shè)置為c,除SOGFS 的子空間維數(shù)設(shè)置為d/2。在UDFS、NDFS、JELSR、SOGFS 和JURNFS 中,最近鄰k的數(shù)量設(shè)置為5。
本節(jié)將不同方法的聚類精度進(jìn)行比較,實(shí)驗(yàn)中將每個(gè)數(shù)據(jù)集的所有樣本都用作訓(xùn)練集。首先,每個(gè)算法在每個(gè)數(shù)據(jù)集上進(jìn)行學(xué)習(xí)以選擇重要且具有判別性的特征,不同數(shù)據(jù)集所選特征數(shù)也不一樣,具體細(xì)節(jié)見(jiàn)表1;然后,本文使用K-means聚類算法對(duì)由這些選擇出的特征所形成的新樣本進(jìn)行聚類實(shí)驗(yàn)。圖2 給出了6個(gè)算法在6個(gè)數(shù)據(jù)集上的聚類精度,從圖2 可以看出,在大多數(shù)情況下,本文所提出的JURNFS 相比其他算法都取得了比較好的效果,這證明了JURNFS 的優(yōu)越性。
此外,1)從圖2(a)和(b)可知,JURNFS 在人臉數(shù)據(jù)集上的效果遠(yuǎn)遠(yuǎn)領(lǐng)先于其他5個(gè)算法,并且JURNFS 在ORL 和BIO 上相對(duì)于其他算法分別平均提升了約3.28%和4.75%,這是因?yàn)镴URNFS 通過(guò)學(xué)習(xí)數(shù)據(jù)的局部流形結(jié)構(gòu)選擇出了人臉上更具有判別性的特征,這些特征能夠顯著地代表原數(shù)據(jù),因而獲得了較高的聚類精度。2)所有算法在COIL20 和BA 數(shù)據(jù)集上的聚類效果都比較接近,這可能是由于這兩個(gè)數(shù)據(jù)集里的樣本特征區(qū)分度信息不是很高,所有算法學(xué)習(xí)到了近似的局部結(jié)構(gòu),而JURNFS 中采用的廣義不相關(guān)約束在保留低冗余度特征的同時(shí)維持了對(duì)判別性部分特征的關(guān)注(如COIL20 中物體的輪廓商標(biāo)部分;BA 中文字筆畫拐彎部分),所以JURNFS 的聚類效果仍能夠優(yōu)于其他算法。3)在LEAVES和LUNG 數(shù)據(jù)集上,所有算法的聚類效果隨著所選特征數(shù)而波動(dòng)。這也證明并不是選擇的特征數(shù)越多,聚類效果越好。因?yàn)樘卣髟蕉?,冗余的特征也可能越多,因此有必要進(jìn)行特征選擇。而JURNFS 采用低維流形結(jié)構(gòu)化最優(yōu)圖學(xué)習(xí)和廣義不相關(guān)回歸聯(lián)合學(xué)習(xí)的方式保留了判別性局部結(jié)構(gòu)信息(如LEAVES 中葉的根莖部,LUNG 中的病灶部分),因此在處理非人臉數(shù)據(jù)集時(shí)仍能具有較好的性能。此外,可以發(fā)現(xiàn)LUNG 數(shù)據(jù)集的數(shù)據(jù)量較大,標(biāo)簽類數(shù)只有5,因此每一類標(biāo)簽的訓(xùn)練數(shù)據(jù)集較大,這也可能是JURNFS 優(yōu)于其他算法的原因,因?yàn)樵谶@種情況下JURNFS 可以選擇更準(zhǔn)確、更判別性的特征??傊?,通過(guò)特征選擇獲得的精煉的數(shù)據(jù)包含更多有價(jià)值的信息,而JURNFS 通過(guò)廣義不相關(guān)回歸以及結(jié)構(gòu)化最優(yōu)圖,所選擇的特征更具判別性及有效性,因而可以獲得更好的性能。
圖2 6個(gè)算法在6個(gè)數(shù)據(jù)集上的聚類精度Fig.2 Clustering accuracies of six methods on six different datasets
為了進(jìn)一步說(shuō)明JURNFS 的優(yōu)越性,表2 給出了在6個(gè)不同的數(shù)據(jù)集上6 種不同算法的標(biāo)準(zhǔn)偏差的最優(yōu)NMI 值,其中最優(yōu)值以黑體加粗。一般而言,NMI 值越高,特征選擇的性能越好。顯然,與其他特征選擇算法相比,JURNFS 的NMI 相對(duì)較高,這也表明JURNFS 具有更好的算法性能。
表2 不同數(shù)據(jù)集上不同方法的最佳NMI (標(biāo)準(zhǔn)偏差)Table2 Best NMI with standard deviation of different methods on different data sets %
本節(jié)將不同方法的分類精度進(jìn)行比較,首先從不同數(shù)據(jù)集上的每個(gè)類中隨機(jī)選取適當(dāng)數(shù)量的樣本作為訓(xùn)練樣本,其余的作為測(cè)試樣本。對(duì)于ORL、LEAVES 和LUNG 數(shù)據(jù)集,隨機(jī)選取5個(gè)圖像樣本作為每類的訓(xùn)練樣本,剩余的作為測(cè)試樣本。對(duì)于BIO、BA 和COIL20 數(shù)據(jù)集,隨機(jī)選取10個(gè)圖像樣本作為每個(gè)類的訓(xùn)練樣本,剩余的作為測(cè)試樣本。此外,不同的數(shù)據(jù)集在實(shí)驗(yàn)中選取的特征數(shù)量也不同(見(jiàn)表1)。
圖3 描述了不同特征選擇方法的分類精度隨所選特征數(shù)量的增加而變化的情況。由該圖可以發(fā)現(xiàn)JURNFS 在所有數(shù)據(jù)集上都能取得很好的分類效果,這得益于JURNFS 聯(lián)合使用廣義不相關(guān)回歸和非負(fù)譜分析,在保留全局結(jié)構(gòu)的同時(shí)自適應(yīng)進(jìn)行局部結(jié)構(gòu)學(xué)習(xí),很好地保留了特征的判別性信息,這些判別性特征在后續(xù)進(jìn)行分類任務(wù)時(shí)起到了關(guān)鍵作用。
圖3 6個(gè)算法在6個(gè)數(shù)據(jù)集上的分類精度Fig.3 Classification accuracies of six methods on six different datasets
此外,圖4 通過(guò)重構(gòu)圖展示了部分算法在ORL 數(shù)據(jù)集上選擇的特征,不難看出:1)隨著選擇特征數(shù)的變化,JURNFS 可以選擇信息量較大的特征(如眼睛、鼻子、嘴巴),并且JURNFS 在選擇特征數(shù)較少的情況下會(huì)優(yōu)先選擇具有判別性的特征;2)對(duì)于SOGFS,盡管它在聚類任務(wù)中表現(xiàn)良好,但它選擇的特征主要分布在皮膚區(qū)域,而不是人臉的區(qū)分器官特征。這表明邊緣和輪廓上的特征有助于提高這些方法的聚類性能。
圖4 6個(gè)算法在ORL 數(shù)據(jù)集上的重構(gòu)圖,所選特征個(gè)數(shù)從左到右依次為{150,250,350,450,550,650,1 024}Fig.4 Reconstruction graph of 6 algorithms on ORL data set,the number of selected features from left to right is {150,250,350,450,550,650,1 024}
本節(jié)將分析JURNFS 中參數(shù)的穩(wěn)定性。在所提出的模型(9)中,有3個(gè)參數(shù):α、β、λ。其中,正則化參數(shù)α用于保證在學(xué)習(xí)相似矩陣S時(shí),每個(gè)樣本都有機(jī)會(huì)成為xi的近鄰;正則化參數(shù)β用于調(diào)整投影矩陣W的稀疏性;正則化參數(shù)λ確保學(xué)習(xí)到的樣本標(biāo)簽足夠平滑。因此,參數(shù)α、β、λ共同調(diào)節(jié)回歸與特征選擇之間的效果。在實(shí)驗(yàn)中,可以根據(jù)文獻(xiàn)[15]中的方法自適應(yīng)確定參數(shù)α,因此,本節(jié)將專注于研究參數(shù)β和λ對(duì)模型的影響。這里只給出JURNFS 在數(shù)據(jù)集ORL、BIO 和COIL20 上的不同參數(shù)組合變化圖。
觀察圖5 可知,在ORL 和BIO 數(shù)據(jù)集上,JURNFS 受λ的影響較小,而隨著β的增大,JURNFS的聚類效果顯著提高。這可能是由于在人臉數(shù)據(jù)集上,JURNFS 經(jīng)過(guò)有限次迭代學(xué)習(xí)到的標(biāo)簽矩陣接近于真實(shí)標(biāo)簽,故λ對(duì)目標(biāo)函數(shù)的影響不大,而隨著β增大,使得W更加稀疏,因而選擇出的特征更加具有判別性及代表性,故聚類效果得到提升。在COIL20 數(shù)據(jù)集上,JURNFS 的聚類效果隨著β和λ的變化而波動(dòng),這表明此時(shí)β和λ同時(shí)影響著JURNFS 的聚類效果,并且隨著β的增大,JURNFS 的聚類精度會(huì)呈現(xiàn)出一個(gè)先增加后減少的趨勢(shì)。因此在實(shí)驗(yàn)中,對(duì)于不同數(shù)據(jù)集仍需要找到一組合適的參數(shù)。
圖5 JURNFS 在不同數(shù)據(jù)集上不同參數(shù)組合的聚類精度Fig.5 Clustering accuracies of JURNFS with different parameter combinations on different dataset,respectively
為驗(yàn)證JURNFS 算法的收斂性,本文考慮在數(shù)據(jù)集ORL 和BA 上驗(yàn)證式(9)中目標(biāo)函數(shù)隨迭代次數(shù)增加的變化情況。從圖6 可見(jiàn),隨著迭代次數(shù)增加,目標(biāo)函數(shù)值單調(diào)減少,且在5 次迭代后即可收斂,這也驗(yàn)證了JURNFS 的高效性。
圖6 JURNFS 在不同數(shù)據(jù)集上的收斂性Fig.6 Convergence behaviors of JURNFS on different datasets
此外,本文還通過(guò)算法的運(yùn)行時(shí)間來(lái)評(píng)估JURNFS 的性能。本文將所有算法在ORL、BIO、COIL20 和BA 數(shù)據(jù)集上的聚類時(shí)間進(jìn)行比較。不同算法的運(yùn)行時(shí)間見(jiàn)表3。可以看到,JURNFS 的運(yùn)行時(shí)間與其他算法相比仍具有很好的競(jìng)爭(zhēng)力。
表3 不同方法的運(yùn)行時(shí)間Table3 Computational time of different methods s
本文提出了一種新穎的無(wú)監(jiān)督特征選擇方法,將廣義不相關(guān)回歸、結(jié)構(gòu)化最優(yōu)圖和非負(fù)譜分析結(jié)合,通過(guò)廣義不相關(guān)回歸模型選擇不相關(guān)和判別性的特征,利用結(jié)構(gòu)化最優(yōu)圖自適應(yīng)學(xué)習(xí)數(shù)據(jù)間的局部結(jié)構(gòu)信息,同時(shí)結(jié)合非負(fù)譜聚類來(lái)學(xué)習(xí)局部流形中的標(biāo)簽矩陣,這使得所學(xué)習(xí)到的標(biāo)簽矩陣更真實(shí)可靠。文中還提出了一個(gè)有效的迭代算法來(lái)求解提出的模型,并在真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)證明了該方法的有效性和優(yōu)越性。后續(xù)的工作主要集中在以下2個(gè)方面: 1)提高算法在不同噪聲(如光照、遮擋等)水平下的魯棒性;2)提高算法處理高維數(shù)據(jù)的速度。