吳換霞
(信陽(yáng)農(nóng)林學(xué)院 信息工程學(xué)院,河南 信陽(yáng) 464000)
隨著對(duì)學(xué)習(xí)模型精度要求的不斷提高,實(shí)際應(yīng)用中普遍采用高維特征來(lái)表示數(shù)據(jù),高維數(shù)據(jù)通常含有噪聲和冗余,這既增加了存儲(chǔ)和計(jì)算成本,又降低了學(xué)習(xí)模型的精度[1,2]。因此如何有效實(shí)現(xiàn)高維數(shù)據(jù)的特征選擇成為了提升學(xué)習(xí)模型精度和效率的關(guān)鍵。
特征選擇是從原始特征中選擇活動(dòng)特征的一種可解釋模型,已成為處理高維數(shù)據(jù)問(wèn)題的常用解決方案[3]。為了考慮特征選擇的現(xiàn)實(shí)需求,現(xiàn)在的研究主要集中于半監(jiān)督以及無(wú)監(jiān)督特征選擇。Zhu等提出了一個(gè)PCGRBM模型,將成對(duì)約束融合到重構(gòu)的可見(jiàn)層中,用于聚類任務(wù)[4]。為了減輕注釋的負(fù)擔(dān),Gao等應(yīng)用自學(xué)習(xí)方法構(gòu)建了一個(gè)系統(tǒng),該系統(tǒng)可以從大量未標(biāo)記數(shù)據(jù)和少量標(biāo)記示例中學(xué)習(xí)草圖識(shí)別。該系統(tǒng)通過(guò)擴(kuò)展一個(gè)小的標(biāo)記集來(lái)進(jìn)行自學(xué)習(xí),并從未標(biāo)記的草圖中提取新的示例[5]。喬美英等開發(fā)了一個(gè)具有有監(jiān)督微調(diào)和無(wú)監(jiān)督分層自學(xué)習(xí)的深度稀疏自動(dòng)編碼器網(wǎng)絡(luò),用于實(shí)現(xiàn)機(jī)械故障識(shí)別[6]。雖然上述方法成功構(gòu)建了半監(jiān)督特征學(xué)習(xí)模型,但是,對(duì)于無(wú)先驗(yàn)知識(shí)條件下的特征學(xué)習(xí)還存在一定的局限性。
為此提出了一系列無(wú)監(jiān)督特征學(xué)習(xí)方法,Zhu等提出了一種基于遞歸自編碼網(wǎng)絡(luò)(RAE)的無(wú)監(jiān)督特征學(xué)習(xí)方法,利用原始數(shù)據(jù)中的光譜和空間信息來(lái)產(chǎn)生高層次的特征[7]。李靜將自步學(xué)習(xí)和多視圖學(xué)習(xí)引入到基于圖拉普拉斯的半監(jiān)督特征選擇算法中,提出了一個(gè)多視圖自適應(yīng)半監(jiān)督特征選擇算法[8]。Song等通過(guò)在譜特征選擇框架中嵌入拉普拉斯正則化子,提出了一種無(wú)監(jiān)督譜特征選擇(USFS)方法,通過(guò)在稀疏特征選擇的框架中嵌入拉普拉斯正則化子來(lái)保持訓(xùn)練樣本的局部相似性,使其同時(shí)具有可解釋性和可分辨性[9]。但是上述方法的拉普拉斯矩陣通常是從包含冗余特征的原始數(shù)據(jù)中學(xué)習(xí)得到的,因此很難輸出魯棒拉普拉斯矩陣,并且上述方法只關(guān)注于用一般的圖來(lái)學(xué)習(xí)拉普拉斯矩陣,無(wú)法捕捉樣本之間的復(fù)雜關(guān)系,從而難以輸出可靠的特征選擇模型。
為解決上述問(wèn)題,提出了一種基于動(dòng)態(tài)超圖學(xué)習(xí)拉普拉斯矩陣的無(wú)監(jiān)督特征選擇方法。本文通過(guò)對(duì)訓(xùn)練樣本的協(xié)方差矩陣施加正交約束,并利用超圖動(dòng)態(tài)學(xué)習(xí)拉普拉斯矩陣分別保持低維訓(xùn)練樣本的全局和局部結(jié)構(gòu),從而獲取樣本之間的復(fù)雜關(guān)系,從而輸出可靠的信息特征。實(shí)驗(yàn)結(jié)果驗(yàn)證提出的方法能夠有效提升無(wú)監(jiān)督特征選擇的性能。
圖被廣泛用于保持樣本的幾何結(jié)構(gòu)以提高降維性能,給定兩個(gè)不同的數(shù)據(jù)點(diǎn)xi和xj, 如果xi是xj的K近鄰(KNN)之一,則生成連接兩者的邊。此邊的權(quán)重的計(jì)算公式如下
(1)
式中:σ代表權(quán)衡參數(shù)。LPP是一種經(jīng)典的通用圖方法,其使用相似矩陣來(lái)保持樣本的局部結(jié)構(gòu),生成固定通用圖的計(jì)算公式為
(2)
由于原始數(shù)據(jù)通常含有噪聲和異常值,所以原始數(shù)據(jù)構(gòu)造的拉普拉斯矩陣的可靠性較差。針對(duì)這一問(wèn)題,可以在稀疏特征選擇過(guò)程中嵌入一般的圖學(xué)習(xí),使得相似矩陣可以由低維空間而不是原始特征空間來(lái)構(gòu)造。動(dòng)態(tài)廣義圖學(xué)習(xí)的表達(dá)式為
(3)
在先前的USFS研究方法中,由一般圖構(gòu)造的相似度矩陣并不能反映樣本間的復(fù)雜關(guān)系。此外,從原始數(shù)據(jù)中學(xué)習(xí)到的相似度矩陣包含了大量不相關(guān)的冗余信息特征,從而無(wú)法輸出可靠的特征選擇模型。為了解決這些問(wèn)題,本文設(shè)計(jì)了超圖學(xué)習(xí)來(lái)解決第一個(gè)問(wèn)題,并使用動(dòng)態(tài)廣義圖矩陣學(xué)習(xí)來(lái)解決第二個(gè)問(wèn)題,通過(guò)學(xué)習(xí)動(dòng)態(tài)超圖來(lái)捕捉樣本在低維特征中固有的復(fù)雜結(jié)構(gòu)空間。
一般的圖方法使用訓(xùn)練樣本之間的成對(duì)關(guān)系來(lái)保持訓(xùn)練樣本的局部結(jié)構(gòu),并且已經(jīng)驗(yàn)證不足以捕獲訓(xùn)練樣本中的復(fù)雜關(guān)系。為了解決這個(gè)問(wèn)題,本文構(gòu)造了作者-論文關(guān)系,如圖1所示,其中圖1中的左半部分使用了一個(gè)易于測(cè)量?jī)蓚€(gè)樣本之間關(guān)系的通用圖來(lái)描述作者-論文關(guān)系,例如,a1與a2(即a1和a2是論文的作者)、a2與a3以及a2與a4。 然而,表示兩者之間的真正關(guān)系仍舊較為困難,即第一篇論文有3位作者(即a1、a2和a3),第二篇論文有兩位作者(即a2和a4)。相比之下,圖1的右圖通過(guò)構(gòu)造超鏈接便能輕易指明這兩種類型的關(guān)系,因此本文的重點(diǎn)是利用超圖來(lái)保存訓(xùn)練數(shù)據(jù)的局部結(jié)構(gòu),因?yàn)槌瑘D可以比一般圖獲得更復(fù)雜的數(shù)據(jù)關(guān)系。
圖1 普通圖和超圖之間區(qū)別
通過(guò)將超圖表示為G=(V,E,w), 其中V=[v1,…,vn] 和E=[e1,…,en] 分別是頂點(diǎn)和超邊的集合,W=[w1,…,wn] 是超邊的權(quán)重,超圖的構(gòu)造包括3個(gè)連續(xù)分量:
(1)表示二元頂點(diǎn)-邊關(guān)系的關(guān)聯(lián)矩陣H,其中每個(gè)參數(shù)的定義為
(4)
(2)度量超邊重要性的權(quán)重向量w;
(3)超圖拉普拉斯L,即超圖的規(guī)范化拉普拉斯矩陣。
與一般的圖不同,超圖的關(guān)聯(lián)矩陣H描述了頂點(diǎn)和超邊之間的關(guān)系。為此,首先,給定訓(xùn)練數(shù)據(jù)X∈Rc×n, 其中c和n分別表示特征數(shù)和樣本數(shù),本文將每個(gè)樣本視為一個(gè)頂點(diǎn),并嘗試按照文獻(xiàn)[10]中的方法為每個(gè)頂點(diǎn)生成一個(gè)超邊,即通過(guò)以下公式生成超邊ei
ei={vj|θ(xi,xj)≤0.1σi},i,j=1,…,n
(5)
式中:θ(xi,xj) 表示xi和xj之間的相似性,而σi是xi和每個(gè)其它樣本之間的平均距離。上述閾值方法常用于超邊的構(gòu)造,并且適用于不同樣本具有不同數(shù)量的最近鄰的情況。
其次,本文利用得到的關(guān)聯(lián)矩陣H和訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)每一條超邊的重要性,即w。然后,進(jìn)一步通過(guò)δ(ei)=∑vj∈Eh(vj,ei)和d(vj)=∑vj∈ei,ei∈Ew(ei)h(vj,ei) 得到超邊ei的度和δ(ei) 頂點(diǎn)vj的度d(vj)。 超圖拉普拉斯矩陣的表達(dá)式為
(6)
式中:I∈Rn×n是單位矩陣,De,Dv和W分別是δ=[δ(ei)],d=[d(vj)] 和w的對(duì)角矩陣。最后,由式(6)構(gòu)造一個(gè)超圖,從而保持不少于兩個(gè)樣本之間的關(guān)系。
進(jìn)一步提出了保持訓(xùn)練數(shù)據(jù)的局部超圖結(jié)構(gòu),并通過(guò)動(dòng)態(tài)學(xué)習(xí)超圖來(lái)解決兩步USFS方法的問(wèn)題。為此,本研究構(gòu)造了以下目標(biāo)函數(shù)
(7)
(8)
式中:正交約束STXLXTS=I潛在地進(jìn)行子空間學(xué)習(xí),從而保持訓(xùn)練數(shù)據(jù)的全局結(jié)構(gòu)。
由于構(gòu)造超圖的3個(gè)部分是有一定次序的,因此,W或L的性能取決于H。然而,H是從原始訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的,通常包含噪聲和冗余信息。通常,性能較差的H不能得到性能較好的L,因此不能通過(guò)式(8)有效地降低特征維數(shù)。本文在統(tǒng)一的框架下,將超圖H的學(xué)習(xí)與S的學(xué)習(xí)結(jié)合起來(lái)。本文希望通過(guò)修復(fù)另一個(gè)來(lái)迭代更新其內(nèi)容,以便動(dòng)態(tài)更新得以輸出最優(yōu)H和S。為此,本文為DHLFS方法設(shè)計(jì)了最終目標(biāo)函數(shù),如下所示
(9)
式(9)可直接改寫為
(10)
首先,在式(10)中的方法將子空間學(xué)習(xí)和特征選擇集成在一個(gè)統(tǒng)一的框架中,其中子空間學(xué)習(xí)和特征選擇可以相互提供互補(bǔ)信息,以便從不同方面去除噪聲和冗余。下一步將對(duì)各個(gè)變量進(jìn)行優(yōu)化。
2.4.1 通過(guò)修正其它變量更新
固定其它變量后,關(guān)于S的目標(biāo)函數(shù)變?yōu)?/p>
(11)
由于l2,1范數(shù)正則化器是凸的和非光滑的,便采用迭代加權(quán)最小二乘法(IRLS)的框架來(lái)優(yōu)化S,通過(guò)將式(11)轉(zhuǎn)換為
(12)
式中:P是對(duì)角矩陣,矩陣中的元素的計(jì)算公式
(13)
在式(12)中,P和S都是未知的。此外,P依賴于S,根據(jù)IRLS框架,本文設(shè)計(jì)了一個(gè)迭代算法,通過(guò)兩個(gè)連續(xù)步驟求解方程(12),直到算法收斂:①通過(guò)固定S,通過(guò)方程(13)得到P;②通過(guò)固定P,方程(12)變?yōu)殛P(guān)于S的特征分解問(wèn)題,即
(14)
式(14)中的最優(yōu)解S是 (XXT+εI)-I(XLXT+βP) 的特征向量,因?yàn)閄XT+εI是可逆的,ε是非常小的正值。
2.4.2 通過(guò)修正其它變量來(lái)更新H
根據(jù)等式(5),超邊是從原始訓(xùn)練數(shù)據(jù)生成的,因此可能導(dǎo)致不準(zhǔn)確的超圖。為此,設(shè)計(jì)了從低維訓(xùn)練數(shù)據(jù)中學(xué)習(xí)超邊緣的方法,盡可能地去除了噪聲和冗余。因此,使用以下公式來(lái)構(gòu)造超邊集
(15)
式(15)表明本文方法:①低維特征空間的關(guān)聯(lián)矩陣H;②不同樣本(或邊)的不同鄰域數(shù)。得到關(guān)聯(lián)矩陣H后,利用該矩陣可以很容易地求出De
(16)
2.4.3 通過(guò)固定其它變量來(lái)更新W
通過(guò)固定其它變量,可以得到關(guān)于W的目標(biāo)函數(shù)為
(17)
考慮到單位矩陣I與W無(wú)關(guān);W是對(duì)角矩陣;tr(ABC)=tr(BCA), 式(17)可改為
(18)
(19)
通過(guò)使用拉格朗日乘數(shù)法可將式(19)改為
(20)
其中,η≥0和γ≥0是拉格朗日乘子?;贙KT條件[11],由此可以得到wi,i=1,…,n的閉式解,如下所示
(21)
(22)
式(9)并非所有變量(即W、S和H)的共同凸點(diǎn),但對(duì)每個(gè)變量都是凸的,同時(shí)固定了其它變量。因此,本文采用替代優(yōu)化策略來(lái)優(yōu)化式(9),即迭代優(yōu)化每個(gè)變量,同時(shí)固定其它變量,直到算法收斂。具體優(yōu)化算法步驟見(jiàn)算法1。
算法1:優(yōu)化算法
輸入:X∈Rc×n,L∈Rn×n,α和β;
輸出:S,W,H,Dv以及De;
(1)隨機(jī)初始化S;
(2)隨機(jī)初始化W;
(3)While 不收斂 do
(4) while 不收斂 do
(5) 用式(14)計(jì)算P
(6) 用式(15)計(jì)算S
(7) end while
(8)用式(17)計(jì)算H;
(9)用方程式(17)計(jì)算De
(10)用方程(20)計(jì)算W;
(11)用方程(22)計(jì)算Dv;
(12)end while
本文提出的DHLFS的時(shí)間復(fù)雜度包括3個(gè)部分,即S、W和H的更新。S的更新是一個(gè)特征值分解問(wèn)題,其時(shí)間復(fù)雜度為min{O(t1c3),O(t1nc2)}, 其中t1、c和n分別是IRLS的迭代次數(shù)、特征和樣本。W的優(yōu)化具有閉式解,其時(shí)間復(fù)雜度為O(nc2), 而H的構(gòu)造實(shí)際上需要構(gòu)造一個(gè)n×n的相似矩陣,其時(shí)間復(fù)雜度約為O(nc2)。 因此,DHLFS的時(shí)間復(fù)雜度為min{O(t1t2c3),O(t1t2nc2)}, 其中t2是更新S、W和H的迭代所需復(fù)雜度。
式(10)有兩個(gè)權(quán)衡參數(shù),即α和β。在本文中,可以根據(jù)等式(21)中超圖的構(gòu)造來(lái)確定α的值。尤其是,首先對(duì)f=[f1,…,fn] 進(jìn)行升序排序,得到q=[q1,…,qn]。 每個(gè)頂點(diǎn)有不同的鄰域,首先,將鄰域數(shù)的最大值設(shè)為k,得到:fk≥0,fk+1=0, 公式如下
(23)
通過(guò)考慮W,即WT1=1, 可以得到
(24)
結(jié)合式(23)和式(24),可以得到
(25)
這表明
(26)
本節(jié)驗(yàn)證了算法1的收斂性,以驗(yàn)證本文算法的優(yōu)勢(shì),從而解決本文提出的目標(biāo)函數(shù)在式(11)是合理的。
定理1 算法1分別可以令式(11)和式(12)的目標(biāo)函數(shù)值單調(diào)減小,直到收斂。
證明。首先,將第t次迭代的優(yōu)化結(jié)果分別表示為S(t)、W(t)和L(t)。 通過(guò)定理1和文獻(xiàn)[12],可以得到
tr(S(t+1)TXLXTS(t+1))+βtr(S(t+1)TPS(t+1))≤ (S(t)XLXTS(t))+βtr(S(t)TPS(t))
(27)
本文可以通過(guò)式(14)得到以下導(dǎo)數(shù)
(28)
根據(jù)文獻(xiàn)[13]中的結(jié)論,可以得到
(29)
將式(29)代入式(28),可以得到
(30)
而式(11)對(duì)3個(gè)變量的優(yōu)化過(guò)程,即S、W和L單調(diào)減小。通過(guò)固定W(t)和L(t)來(lái)更新S(t+1)。 根據(jù)IRLS收斂于S的優(yōu)化結(jié)果,即
(31)
通過(guò)固定S(t+1)和L(t)來(lái)更新W(t+1)。 通過(guò)式(22),變量W有閉式解,即
(32)
通過(guò)給定S(t+1)和W(t+1)來(lái)更新L(t+1)。 根據(jù)式(8),L的優(yōu)化與變量有關(guān),即W、H、De和Dv。H,De和Dv的變量有閉式解,W的收斂性在式(32)中得到了驗(yàn)證,因此L的收斂結(jié)果較好,即
(33)
通過(guò)將式(31)、式(32)和式(33)積分,可以得到
(34)
式(34)表示式(11)的目標(biāo)函數(shù)值在每次迭代中減小,因此算法1收斂。
在本節(jié)中,使用前面的5種方法對(duì)本文方法進(jìn)行了評(píng)估,這些方法涉及公共UCI數(shù)據(jù)集上的聚類任務(wù),表1列出了這些數(shù)據(jù)集的詳細(xì)信息,以及Berkeley分割數(shù)據(jù)集(BSD500)上的分割任務(wù)。
表1 所用數(shù)據(jù)集的詳細(xì)介紹
所有的數(shù)據(jù)集都是在一臺(tái)個(gè)人計(jì)算機(jī)(PC)上進(jìn)行處理的,配置為3.7 GHz的i7中央處理器(CPU)和64 GB的隨機(jī)存取存儲(chǔ)器(RAM)。算法運(yùn)行平臺(tái)為Matlab2016a,所有算法的程序均通過(guò)Matlab腳本編寫運(yùn)行。
相應(yīng)的對(duì)比方法如下:
基線方法:對(duì)原始數(shù)據(jù)進(jìn)行k均值聚類。
拉普拉斯分?jǐn)?shù)(LS)[6]:通過(guò)學(xué)習(xí)一個(gè)通用圖來(lái)保存訓(xùn)練數(shù)據(jù)的局部結(jié)構(gòu),使用拉普拉斯分?jǐn)?shù)來(lái)評(píng)估每個(gè)特征的重要性。
最小化光譜特征選擇(MRFS)的特征冗余[8]:是一種兩步USFS方法,它使用最小平方損失函數(shù)和l2,1范數(shù)正則化項(xiàng)輸出稀疏結(jié)果。
結(jié)構(gòu)化最優(yōu)圖特征選擇(SOGFS)[9]:將圖學(xué)習(xí)嵌入稀疏特征選擇的框架中。
耦合字典學(xué)習(xí)特征選擇(CDLFS)[14]:使用合成字典重構(gòu)樣本,使用分析字典對(duì)樣本進(jìn)行分析編碼,旨在為特征分配概率進(jìn)行特征選擇。
聯(lián)合超圖學(xué)習(xí)和稀疏回歸(JHLSR)[15]:學(xué)習(xí)動(dòng)態(tài)超圖從而保持樣本的局部結(jié)構(gòu)。
在本文的實(shí)驗(yàn)中,采用10倍交叉驗(yàn)證的方法將數(shù)據(jù)集隨機(jī)分成10部分,其中一部分用于測(cè)試,其余部分用于訓(xùn)練。在訓(xùn)練過(guò)程中,本文進(jìn)一步采用5倍交叉驗(yàn)證法進(jìn)行模型選擇,將參數(shù)取值范圍設(shè)為 {10-3,10-2,…,103}, 所有方法都能達(dá)到最佳效果。在每個(gè)實(shí)驗(yàn)中,首先使用所有的特征選擇方法來(lái)選擇一個(gè)特征子集,其中特征數(shù)在所有特征的 {20%,30%,…,80%} 范圍內(nèi)變化,然后在縮減的數(shù)據(jù)集上進(jìn)行k均值聚類。本文對(duì)所有方法重復(fù)k均值聚類20次,并取平均結(jié)果。最后,本文利用聚類準(zhǔn)確度來(lái)評(píng)估所有方法的性能。其它方法的參數(shù)選擇均參考相應(yīng)的文獻(xiàn)進(jìn)行復(fù)現(xiàn)。
3.2.1 聚類結(jié)果
在本節(jié)中,通過(guò)在圖2中列出具有不同數(shù)量的選定特征的所有方法的聚類精度,在12個(gè)公共UCI數(shù)據(jù)集上用比較方法評(píng)估了DHLF。
圖2 所有方法的聚類精度
本文的方法在大多數(shù)數(shù)據(jù)集上取得了最好的聚類性能,其次是JHLSR、SOGFS、CDLFS、MRFS、LS和Baseline。例如,本文的方法與最差的方法(即Baseline)和最佳比較方法(即JHLSR)相比,平均分別提高了5.38%和2.01%,原因可能是本文的方法:①在統(tǒng)一的框架下進(jìn)行子空間學(xué)習(xí)和特征選擇;②從低維訓(xùn)練數(shù)據(jù)中學(xué)習(xí)超圖,從而得到最優(yōu)的超圖捕獲訓(xùn)練數(shù)據(jù)的高階局部結(jié)構(gòu)。
從圖2中,還觀察到原始數(shù)據(jù)中存在冗余和不相關(guān)的特征,在進(jìn)行聚類之前需要進(jìn)行降維任務(wù)。首先,所有的特征選擇方法都優(yōu)于基線方法。例如,在所有數(shù)據(jù)集上,LS平均比基線方法提高了3.03%。第二,所有特征選擇方法的聚類精度首先隨著特征維數(shù)的增加而提高。到達(dá)峰值后,聚類精度開始下降甚至不穩(wěn)定。例如,在保持60%特征的情況下,聚類精度先提高到55.7%,然后在保持80%特征的情況下,聚類精度又下降到52.0%,這一趨勢(shì)表明,少量特征不能很好地解釋學(xué)習(xí)模型,而過(guò)多的特征可能會(huì)增加冗余特征,降低聚類性能。另外,進(jìn)一步驗(yàn)證了提出方法相對(duì)與其它方法能夠更加有效捕捉不同樣本之間的復(fù)雜關(guān)系,從而有效實(shí)現(xiàn)了聚類精度的提升。
3.2.2 參數(shù)靈敏度
本文在式(11)中提出的目標(biāo)函數(shù)有兩個(gè)權(quán)衡參數(shù),即α和β。固定了α的值,并使用β來(lái)調(diào)整權(quán)重矩陣S的稀疏性。具體來(lái)說(shuō),β的值越大,S的稀疏性就越高。圖3展示了在所有數(shù)據(jù)集上相對(duì)于β的聚類精度的變化。
圖3 所有數(shù)據(jù)集關(guān)于β的聚類精度變化
從圖3可以看出,本文的方法在β的某些值上獲得了最佳的聚類性能,這導(dǎo)致了S上的稀疏性,即選擇特征的子集。這再次驗(yàn)證了本文的結(jié)論,即有必要對(duì)高維數(shù)據(jù)進(jìn)行降維。例如,在數(shù)據(jù)集Mnis上,β值的最佳取值范圍是 [10-3,10-1], 對(duì)應(yīng)于在所有特征中保留大約30%的特征。
3.2.3 收斂性分析
前文從理論上驗(yàn)證了優(yōu)化算法的收斂性,圖4展示出了等式(11)的目標(biāo)值相對(duì)于算法1的迭代次數(shù)的增加的變化。
圖4 不同數(shù)據(jù)集的迭代次數(shù)變化
3.3.1 數(shù)據(jù)集和相關(guān)參數(shù)設(shè)置
本文使用了所有的方法在BSD500上進(jìn)行圖像分割,即先進(jìn)行特征選擇,然后進(jìn)行k均值聚類。
BSD500包括500幅真實(shí)標(biāo)簽的自然風(fēng)景圖片。在本文實(shí)驗(yàn)中,首先,隨機(jī)選取了圖5所示的10幅圖像進(jìn)行分割,分別是飛機(jī)、鵝、房子、汽車、鹿、海星、馬、花、狗和鳥。其次,使用簡(jiǎn)單的線性迭代聚類方法來(lái)獲得所有選定圖像的超像素。首先將每幅圖像分割成300個(gè)超像素,每個(gè)超像素由9個(gè)特征表示。
圖5 圖像分割對(duì)比結(jié)果
本文采用所有的特征選擇方法,選取較少的9個(gè)特征進(jìn)行圖像分割,然后采用k均值聚類進(jìn)行分割,其中k值為每幅圖像的準(zhǔn)確聚類數(shù)。此外,還分析了利用超像素的所有特征進(jìn)行k均值聚類的方法。
3.3.2 圖像分割評(píng)價(jià)指標(biāo)
本文采用了3個(gè)評(píng)價(jià)指標(biāo),即概率蘭特指數(shù)(PRI)、信息方差(VOI)和全局一致性誤差(GCE)來(lái)評(píng)價(jià)分割性能。
PRI通過(guò)以下公式計(jì)算預(yù)測(cè)分割標(biāo)簽和地面真值標(biāo)簽之間的成對(duì)相似性
(35)
VOI根據(jù)信息差異測(cè)量預(yù)測(cè)分割和地面真實(shí)之間的距離
VOI(S,G)=H(S)+H(G)_2I(S,G)
(36)
其中,H和I分別表示熵的平方和預(yù)測(cè)S和地面真值G之間的互信息立方。
GCE假設(shè)其中一個(gè)細(xì)分必須是另一個(gè)細(xì)分的細(xì)化,并強(qiáng)制所有局部細(xì)化遵守相同的標(biāo)準(zhǔn)
(37)
一般來(lái)說(shuō),PRI值越高,對(duì)應(yīng)的方法越好。此外,VOI和GCE越低,方法越差。
3.3.3 性能分析
本文在圖5中展示了每個(gè)圖像的分割結(jié)果,并在表2中報(bào)告了相應(yīng)的分割性能。根據(jù)實(shí)驗(yàn)結(jié)果,本文的方法有效地區(qū)分了背景和目標(biāo)。本文的方法是唯一一種能夠從汽車圖像的背景中完全分割出目標(biāo)物體的方法。在圖像分割中,與其它方法相比,本文提出的方法分割出的目標(biāo)物體最為完整。原因可能是本文的方法利用動(dòng)態(tài)超圖學(xué)習(xí)從不同的角度(即子空間學(xué)習(xí)和特征選擇)保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)。
表2 所有方法的分割結(jié)果
表2(續(xù))
根據(jù)表2,發(fā)現(xiàn)本文方法性能最好。也就是說(shuō),就所有3個(gè)評(píng)估指標(biāo)而言,與最佳比較方法(即JHLSR)和最差方法(即基線)相比,本文方法平均改進(jìn)了0.12和0.56。
為了捕捉樣本之間的復(fù)雜關(guān)系,并且提升噪聲魯棒性,提出了一種基于動(dòng)態(tài)超圖學(xué)習(xí)拉普拉斯矩陣的無(wú)監(jiān)督特征選擇方法。通過(guò)多個(gè)公共數(shù)據(jù)集在聚類任務(wù)和圖像分割任務(wù)上的實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論:①提出的方法能夠利用動(dòng)態(tài)超圖學(xué)習(xí)從不同的角度保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu),從而有效提升了特征選擇的效果;②少量特征不能很好地解釋學(xué)習(xí)模型,而過(guò)多的特征可能會(huì)增加冗余特征,降低性能。而提出的方法能夠有效去除冗余特征,提取有效特征;③提出的方法具有較強(qiáng)的特征提取魯棒性。