亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

無(wú)監(jiān)督動(dòng)態(tài)超圖學(xué)習(xí)拉普拉斯矩陣特征選擇

2022-07-21 03:33:30吳換霞

計(jì)算機(jī)工程與設(shè)計(jì) 2022年7期

關(guān)鍵詞：特征方法

吳換霞

(信陽(yáng)農(nóng)林學(xué)院信息工程學(xué)院，河南信陽(yáng) 464000)

0 引言

隨著對(duì)學(xué)習(xí)模型精度要求的不斷提高，實(shí)際應(yīng)用中普遍采用高維特征來(lái)表示數(shù)據(jù)，高維數(shù)據(jù)通常含有噪聲和冗余，這既增加了存儲(chǔ)和計(jì)算成本，又降低了學(xué)習(xí)模型的精度[1,2]。因此如何有效實(shí)現(xiàn)高維數(shù)據(jù)的特征選擇成為了提升學(xué)習(xí)模型精度和效率的關(guān)鍵。

特征選擇是從原始特征中選擇活動(dòng)特征的一種可解釋模型，已成為處理高維數(shù)據(jù)問(wèn)題的常用解決方案[3]。為了考慮特征選擇的現(xiàn)實(shí)需求，現(xiàn)在的研究主要集中于半監(jiān)督以及無(wú)監(jiān)督特征選擇。Zhu等提出了一個(gè)PCGRBM模型，將成對(duì)約束融合到重構(gòu)的可見(jiàn)層中，用于聚類任務(wù)[4]。為了減輕注釋的負(fù)擔(dān)，Gao等應(yīng)用自學(xué)習(xí)方法構(gòu)建了一個(gè)系統(tǒng)，該系統(tǒng)可以從大量未標(biāo)記數(shù)據(jù)和少量標(biāo)記示例中學(xué)習(xí)草圖識(shí)別。該系統(tǒng)通過(guò)擴(kuò)展一個(gè)小的標(biāo)記集來(lái)進(jìn)行自學(xué)習(xí)，并從未標(biāo)記的草圖中提取新的示例[5]。喬美英等開發(fā)了一個(gè)具有有監(jiān)督微調(diào)和無(wú)監(jiān)督分層自學(xué)習(xí)的深度稀疏自動(dòng)編碼器網(wǎng)絡(luò)，用于實(shí)現(xiàn)機(jī)械故障識(shí)別[6]。雖然上述方法成功構(gòu)建了半監(jiān)督特征學(xué)習(xí)模型，但是，對(duì)于無(wú)先驗(yàn)知識(shí)條件下的特征學(xué)習(xí)還存在一定的局限性。

為此提出了一系列無(wú)監(jiān)督特征學(xué)習(xí)方法，Zhu等提出了一種基于遞歸自編碼網(wǎng)絡(luò)(RAE)的無(wú)監(jiān)督特征學(xué)習(xí)方法，利用原始數(shù)據(jù)中的光譜和空間信息來(lái)產(chǎn)生高層次的特征[7]。李靜將自步學(xué)習(xí)和多視圖學(xué)習(xí)引入到基于圖拉普拉斯的半監(jiān)督特征選擇算法中，提出了一個(gè)多視圖自適應(yīng)半監(jiān)督特征選擇算法[8]。Song等通過(guò)在譜特征選擇框架中嵌入拉普拉斯正則化子，提出了一種無(wú)監(jiān)督譜特征選擇(USFS)方法，通過(guò)在稀疏特征選擇的框架中嵌入拉普拉斯正則化子來(lái)保持訓(xùn)練樣本的局部相似性，使其同時(shí)具有可解釋性和可分辨性[9]。但是上述方法的拉普拉斯矩陣通常是從包含冗余特征的原始數(shù)據(jù)中學(xué)習(xí)得到的，因此很難輸出魯棒拉普拉斯矩陣，并且上述方法只關(guān)注于用一般的圖來(lái)學(xué)習(xí)拉普拉斯矩陣，無(wú)法捕捉樣本之間的復(fù)雜關(guān)系，從而難以輸出可靠的特征選擇模型。

為解決上述問(wèn)題，提出了一種基于動(dòng)態(tài)超圖學(xué)習(xí)拉普拉斯矩陣的無(wú)監(jiān)督特征選擇方法。本文通過(guò)對(duì)訓(xùn)練樣本的協(xié)方差矩陣施加正交約束，并利用超圖動(dòng)態(tài)學(xué)習(xí)拉普拉斯矩陣分別保持低維訓(xùn)練樣本的全局和局部結(jié)構(gòu)，從而獲取樣本之間的復(fù)雜關(guān)系，從而輸出可靠的信息特征。實(shí)驗(yàn)結(jié)果驗(yàn)證提出的方法能夠有效提升無(wú)監(jiān)督特征選擇的性能。

1 圖學(xué)習(xí)理論

1.1 固定通用圖學(xué)習(xí)

圖被廣泛用于保持樣本的幾何結(jié)構(gòu)以提高降維性能，給定兩個(gè)不同的數(shù)據(jù)點(diǎn)xi和xj，如果xi是xj的K近鄰(KNN)之一，則生成連接兩者的邊。此邊的權(quán)重的計(jì)算公式如下

(1)

式中：σ代表權(quán)衡參數(shù)。LPP是一種經(jīng)典的通用圖方法，其使用相似矩陣來(lái)保持樣本的局部結(jié)構(gòu)，生成固定通用圖的計(jì)算公式為

(2)

1.2 動(dòng)態(tài)通用圖學(xué)習(xí)

由于原始數(shù)據(jù)通常含有噪聲和異常值，所以原始數(shù)據(jù)構(gòu)造的拉普拉斯矩陣的可靠性較差。針對(duì)這一問(wèn)題，可以在稀疏特征選擇過(guò)程中嵌入一般的圖學(xué)習(xí)，使得相似矩陣可以由低維空間而不是原始特征空間來(lái)構(gòu)造。動(dòng)態(tài)廣義圖學(xué)習(xí)的表達(dá)式為

(3)

2 本文方法

2.1 超圖學(xué)習(xí)

在先前的USFS研究方法中，由一般圖構(gòu)造的相似度矩陣并不能反映樣本間的復(fù)雜關(guān)系。此外，從原始數(shù)據(jù)中學(xué)習(xí)到的相似度矩陣包含了大量不相關(guān)的冗余信息特征，從而無(wú)法輸出可靠的特征選擇模型。為了解決這些問(wèn)題，本文設(shè)計(jì)了超圖學(xué)習(xí)來(lái)解決第一個(gè)問(wèn)題，并使用動(dòng)態(tài)廣義圖矩陣學(xué)習(xí)來(lái)解決第二個(gè)問(wèn)題，通過(guò)學(xué)習(xí)動(dòng)態(tài)超圖來(lái)捕捉樣本在低維特征中固有的復(fù)雜結(jié)構(gòu)空間。

一般的圖方法使用訓(xùn)練樣本之間的成對(duì)關(guān)系來(lái)保持訓(xùn)練樣本的局部結(jié)構(gòu)，并且已經(jīng)驗(yàn)證不足以捕獲訓(xùn)練樣本中的復(fù)雜關(guān)系。為了解決這個(gè)問(wèn)題，本文構(gòu)造了作者-論文關(guān)系，如圖1所示，其中圖1中的左半部分使用了一個(gè)易于測(cè)量?jī)蓚€(gè)樣本之間關(guān)系的通用圖來(lái)描述作者-論文關(guān)系，例如，a1與a2(即a1和a2是論文的作者)、a2與a3以及a2與a4。然而，表示兩者之間的真正關(guān)系仍舊較為困難，即第一篇論文有3位作者(即a1、a2和a3)，第二篇論文有兩位作者(即a2和a4)。相比之下，圖1的右圖通過(guò)構(gòu)造超鏈接便能輕易指明這兩種類型的關(guān)系，因此本文的重點(diǎn)是利用超圖來(lái)保存訓(xùn)練數(shù)據(jù)的局部結(jié)構(gòu)，因?yàn)槌瑘D可以比一般圖獲得更復(fù)雜的數(shù)據(jù)關(guān)系。

圖1 普通圖和超圖之間區(qū)別

通過(guò)將超圖表示為G=(V,E,w)，其中V=[v1,…,vn] 和E=[e1,…,en] 分別是頂點(diǎn)和超邊的集合，W=[w1,…,wn] 是超邊的權(quán)重，超圖的構(gòu)造包括3個(gè)連續(xù)分量：

(1)表示二元頂點(diǎn)-邊關(guān)系的關(guān)聯(lián)矩陣H，其中每個(gè)參數(shù)的定義為

(4)

(2)度量超邊重要性的權(quán)重向量w；

(3)超圖拉普拉斯L，即超圖的規(guī)范化拉普拉斯矩陣。

與一般的圖不同，超圖的關(guān)聯(lián)矩陣H描述了頂點(diǎn)和超邊之間的關(guān)系。為此，首先，給定訓(xùn)練數(shù)據(jù)X∈Rc×n，其中c和n分別表示特征數(shù)和樣本數(shù)，本文將每個(gè)樣本視為一個(gè)頂點(diǎn)，并嘗試按照文獻(xiàn)[10]中的方法為每個(gè)頂點(diǎn)生成一個(gè)超邊，即通過(guò)以下公式生成超邊ei

ei={vj|θ(xi,xj)≤0.1σi},i,j=1,…,n

(5)

式中：θ(xi,xj) 表示xi和xj之間的相似性，而σi是xi和每個(gè)其它樣本之間的平均距離。上述閾值方法常用于超邊的構(gòu)造，并且適用于不同樣本具有不同數(shù)量的最近鄰的情況。

其次，本文利用得到的關(guān)聯(lián)矩陣H和訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)每一條超邊的重要性，即w。然后，進(jìn)一步通過(guò)δ(ei)=∑vj∈Eh(vj,ei)和d(vj)=∑vj∈ei,ei∈Ew(ei)h(vj,ei) 得到超邊ei的度和δ(ei) 頂點(diǎn)vj的度d(vj)。超圖拉普拉斯矩陣的表達(dá)式為

(6)

式中：I∈Rn×n是單位矩陣，De，Dv和W分別是δ=[δ(ei)]，d=[d(vj)] 和w的對(duì)角矩陣。最后，由式(6)構(gòu)造一個(gè)超圖，從而保持不少于兩個(gè)樣本之間的關(guān)系。

2.2 局部和全局結(jié)構(gòu)保持的超圖學(xué)習(xí)

進(jìn)一步提出了保持訓(xùn)練數(shù)據(jù)的局部超圖結(jié)構(gòu)，并通過(guò)動(dòng)態(tài)學(xué)習(xí)超圖來(lái)解決兩步USFS方法的問(wèn)題。為此，本研究構(gòu)造了以下目標(biāo)函數(shù)

(7)

(8)

式中：正交約束STXLXTS=I潛在地進(jìn)行子空間學(xué)習(xí)，從而保持訓(xùn)練數(shù)據(jù)的全局結(jié)構(gòu)。

2.3 目標(biāo)函數(shù)

由于構(gòu)造超圖的3個(gè)部分是有一定次序的，因此，W或L的性能取決于H。然而，H是從原始訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的，通常包含噪聲和冗余信息。通常，性能較差的H不能得到性能較好的L，因此不能通過(guò)式(8)有效地降低特征維數(shù)。本文在統(tǒng)一的框架下，將超圖H的學(xué)習(xí)與S的學(xué)習(xí)結(jié)合起來(lái)。本文希望通過(guò)修復(fù)另一個(gè)來(lái)迭代更新其內(nèi)容，以便動(dòng)態(tài)更新得以輸出最優(yōu)H和S。為此，本文為DHLFS方法設(shè)計(jì)了最終目標(biāo)函數(shù)，如下所示

(9)

式(9)可直接改寫為

(10)

首先，在式(10)中的方法將子空間學(xué)習(xí)和特征選擇集成在一個(gè)統(tǒng)一的框架中，其中子空間學(xué)習(xí)和特征選擇可以相互提供互補(bǔ)信息，以便從不同方面去除噪聲和冗余。下一步將對(duì)各個(gè)變量進(jìn)行優(yōu)化。

2.4 優(yōu) 化

2.4.1 通過(guò)修正其它變量更新

固定其它變量后，關(guān)于S的目標(biāo)函數(shù)變?yōu)?/p>

(11)

由于l2,1范數(shù)正則化器是凸的和非光滑的，便采用迭代加權(quán)最小二乘法(IRLS)的框架來(lái)優(yōu)化S，通過(guò)將式(11)轉(zhuǎn)換為

(12)

式中：P是對(duì)角矩陣，矩陣中的元素的計(jì)算公式

(13)

在式(12)中，P和S都是未知的。此外，P依賴于S，根據(jù)IRLS框架，本文設(shè)計(jì)了一個(gè)迭代算法，通過(guò)兩個(gè)連續(xù)步驟求解方程(12)，直到算法收斂：①通過(guò)固定S，通過(guò)方程(13)得到P；②通過(guò)固定P，方程(12)變?yōu)殛P(guān)于S的特征分解問(wèn)題，即

(14)

式(14)中的最優(yōu)解S是 (XXT+εI)-I(XLXT+βP) 的特征向量，因?yàn)閄XT+εI是可逆的，ε是非常小的正值。

2.4.2 通過(guò)修正其它變量來(lái)更新H

根據(jù)等式(5)，超邊是從原始訓(xùn)練數(shù)據(jù)生成的，因此可能導(dǎo)致不準(zhǔn)確的超圖。為此，設(shè)計(jì)了從低維訓(xùn)練數(shù)據(jù)中學(xué)習(xí)超邊緣的方法，盡可能地去除了噪聲和冗余。因此，使用以下公式來(lái)構(gòu)造超邊集

(15)

式(15)表明本文方法：①低維特征空間的關(guān)聯(lián)矩陣H；②不同樣本(或邊)的不同鄰域數(shù)。得到關(guān)聯(lián)矩陣H后，利用該矩陣可以很容易地求出De

(16)

2.4.3 通過(guò)固定其它變量來(lái)更新W

通過(guò)固定其它變量，可以得到關(guān)于W的目標(biāo)函數(shù)為

(17)

考慮到單位矩陣I與W無(wú)關(guān)；W是對(duì)角矩陣；tr(ABC)=tr(BCA)，式(17)可改為

(18)

(19)

通過(guò)使用拉格朗日乘數(shù)法可將式(19)改為

(20)

其中，η≥0和γ≥0是拉格朗日乘子?；贙KT條件[11]，由此可以得到wi,i=1,…,n的閉式解，如下所示

(21)

(22)

式(9)并非所有變量(即W、S和H)的共同凸點(diǎn)，但對(duì)每個(gè)變量都是凸的，同時(shí)固定了其它變量。因此，本文采用替代優(yōu)化策略來(lái)優(yōu)化式(9)，即迭代優(yōu)化每個(gè)變量，同時(shí)固定其它變量，直到算法收斂。具體優(yōu)化算法步驟見(jiàn)算法1。

算法1：優(yōu)化算法

輸入：X∈Rc×n，L∈Rn×n,α和β；

輸出：S,W,H,Dv以及De；

(1)隨機(jī)初始化S；

(2)隨機(jī)初始化W；

(3)While 不收斂 do

(4) while 不收斂 do

(5) 用式(14)計(jì)算P

(6) 用式(15)計(jì)算S

(7) end while

(8)用式(17)計(jì)算H；

(9)用方程式(17)計(jì)算De

(10)用方程(20)計(jì)算W；

(11)用方程(22)計(jì)算Dv；

(12)end while

2.5 復(fù)雜度分析

本文提出的DHLFS的時(shí)間復(fù)雜度包括3個(gè)部分，即S、W和H的更新。S的更新是一個(gè)特征值分解問(wèn)題，其時(shí)間復(fù)雜度為min{O(t1c3),O(t1nc2)}，其中t1、c和n分別是IRLS的迭代次數(shù)、特征和樣本。W的優(yōu)化具有閉式解，其時(shí)間復(fù)雜度為O(nc2)，而H的構(gòu)造實(shí)際上需要構(gòu)造一個(gè)n×n的相似矩陣，其時(shí)間復(fù)雜度約為O(nc2)。因此，DHLFS的時(shí)間復(fù)雜度為min{O(t1t2c3),O(t1t2nc2)}，其中t2是更新S、W和H的迭代所需復(fù)雜度。

2.6 α的計(jì)算

式(10)有兩個(gè)權(quán)衡參數(shù)，即α和β。在本文中，可以根據(jù)等式(21)中超圖的構(gòu)造來(lái)確定α的值。尤其是，首先對(duì)f=[f1,…,fn] 進(jìn)行升序排序，得到q=[q1,…,qn]。每個(gè)頂點(diǎn)有不同的鄰域，首先，將鄰域數(shù)的最大值設(shè)為k，得到：fk≥0，fk+1=0，公式如下

(23)

通過(guò)考慮W，即WT1=1，可以得到

(24)

結(jié)合式(23)和式(24)，可以得到

(25)

這表明

(26)

2.7 收斂性分析

本節(jié)驗(yàn)證了算法1的收斂性，以驗(yàn)證本文算法的優(yōu)勢(shì)，從而解決本文提出的目標(biāo)函數(shù)在式(11)是合理的。

定理1 算法1分別可以令式(11)和式(12)的目標(biāo)函數(shù)值單調(diào)減小，直到收斂。

證明。首先，將第t次迭代的優(yōu)化結(jié)果分別表示為S(t)、W(t)和L(t)。通過(guò)定理1和文獻(xiàn)[12]，可以得到

tr(S(t+1)TXLXTS(t+1))+βtr(S(t+1)TPS(t+1))≤ (S(t)XLXTS(t))+βtr(S(t)TPS(t))

(27)

本文可以通過(guò)式(14)得到以下導(dǎo)數(shù)

(28)

根據(jù)文獻(xiàn)[13]中的結(jié)論，可以得到

(29)

將式(29)代入式(28)，可以得到

(30)

而式(11)對(duì)3個(gè)變量的優(yōu)化過(guò)程，即S、W和L單調(diào)減小。通過(guò)固定W(t)和L(t)來(lái)更新S(t+1)。根據(jù)IRLS收斂于S的優(yōu)化結(jié)果，即

(31)

通過(guò)固定S(t+1)和L(t)來(lái)更新W(t+1)。通過(guò)式(22)，變量W有閉式解，即

(32)

通過(guò)給定S(t+1)和W(t+1)來(lái)更新L(t+1)。根據(jù)式(8)，L的優(yōu)化與變量有關(guān)，即W、H、De和Dv。H，De和Dv的變量有閉式解，W的收斂性在式(32)中得到了驗(yàn)證，因此L的收斂結(jié)果較好，即

(33)

通過(guò)將式(31)、式(32)和式(33)積分，可以得到

(34)

式(34)表示式(11)的目標(biāo)函數(shù)值在每次迭代中減小，因此算法1收斂。

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

在本節(jié)中，使用前面的5種方法對(duì)本文方法進(jìn)行了評(píng)估，這些方法涉及公共UCI數(shù)據(jù)集上的聚類任務(wù)，表1列出了這些數(shù)據(jù)集的詳細(xì)信息，以及Berkeley分割數(shù)據(jù)集(BSD500)上的分割任務(wù)。

表1 所用數(shù)據(jù)集的詳細(xì)介紹

所有的數(shù)據(jù)集都是在一臺(tái)個(gè)人計(jì)算機(jī)(PC)上進(jìn)行處理的，配置為3.7 GHz的i7中央處理器(CPU)和64 GB的隨機(jī)存取存儲(chǔ)器(RAM)。算法運(yùn)行平臺(tái)為Matlab2016a，所有算法的程序均通過(guò)Matlab腳本編寫運(yùn)行。

相應(yīng)的對(duì)比方法如下：

基線方法：對(duì)原始數(shù)據(jù)進(jìn)行k均值聚類。

拉普拉斯分?jǐn)?shù)(LS)[6]：通過(guò)學(xué)習(xí)一個(gè)通用圖來(lái)保存訓(xùn)練數(shù)據(jù)的局部結(jié)構(gòu)，使用拉普拉斯分?jǐn)?shù)來(lái)評(píng)估每個(gè)特征的重要性。

最小化光譜特征選擇(MRFS)的特征冗余[8]：是一種兩步USFS方法，它使用最小平方損失函數(shù)和l2,1范數(shù)正則化項(xiàng)輸出稀疏結(jié)果。

結(jié)構(gòu)化最優(yōu)圖特征選擇(SOGFS)[9]：將圖學(xué)習(xí)嵌入稀疏特征選擇的框架中。

耦合字典學(xué)習(xí)特征選擇(CDLFS)[14]：使用合成字典重構(gòu)樣本，使用分析字典對(duì)樣本進(jìn)行分析編碼，旨在為特征分配概率進(jìn)行特征選擇。

聯(lián)合超圖學(xué)習(xí)和稀疏回歸(JHLSR)[15]：學(xué)習(xí)動(dòng)態(tài)超圖從而保持樣本的局部結(jié)構(gòu)。

在本文的實(shí)驗(yàn)中，采用10倍交叉驗(yàn)證的方法將數(shù)據(jù)集隨機(jī)分成10部分，其中一部分用于測(cè)試，其余部分用于訓(xùn)練。在訓(xùn)練過(guò)程中，本文進(jìn)一步采用5倍交叉驗(yàn)證法進(jìn)行模型選擇，將參數(shù)取值范圍設(shè)為 {10-3,10-2,…,103}，所有方法都能達(dá)到最佳效果。在每個(gè)實(shí)驗(yàn)中，首先使用所有的特征選擇方法來(lái)選擇一個(gè)特征子集，其中特征數(shù)在所有特征的 {20%，30%，…，80%} 范圍內(nèi)變化，然后在縮減的數(shù)據(jù)集上進(jìn)行k均值聚類。本文對(duì)所有方法重復(fù)k均值聚類20次，并取平均結(jié)果。最后，本文利用聚類準(zhǔn)確度來(lái)評(píng)估所有方法的性能。其它方法的參數(shù)選擇均參考相應(yīng)的文獻(xiàn)進(jìn)行復(fù)現(xiàn)。

3.2 聚類分析

3.2.1 聚類結(jié)果

在本節(jié)中，通過(guò)在圖2中列出具有不同數(shù)量的選定特征的所有方法的聚類精度，在12個(gè)公共UCI數(shù)據(jù)集上用比較方法評(píng)估了DHLF。

圖2 所有方法的聚類精度

本文的方法在大多數(shù)數(shù)據(jù)集上取得了最好的聚類性能，其次是JHLSR、SOGFS、CDLFS、MRFS、LS和Baseline。例如，本文的方法與最差的方法(即Baseline)和最佳比較方法(即JHLSR)相比，平均分別提高了5.38%和2.01%，原因可能是本文的方法：①在統(tǒng)一的框架下進(jìn)行子空間學(xué)習(xí)和特征選擇；②從低維訓(xùn)練數(shù)據(jù)中學(xué)習(xí)超圖，從而得到最優(yōu)的超圖捕獲訓(xùn)練數(shù)據(jù)的高階局部結(jié)構(gòu)。

從圖2中，還觀察到原始數(shù)據(jù)中存在冗余和不相關(guān)的特征，在進(jìn)行聚類之前需要進(jìn)行降維任務(wù)。首先，所有的特征選擇方法都優(yōu)于基線方法。例如，在所有數(shù)據(jù)集上，LS平均比基線方法提高了3.03%。第二，所有特征選擇方法的聚類精度首先隨著特征維數(shù)的增加而提高。到達(dá)峰值后，聚類精度開始下降甚至不穩(wěn)定。例如，在保持60%特征的情況下，聚類精度先提高到55.7%，然后在保持80%特征的情況下，聚類精度又下降到52.0%，這一趨勢(shì)表明，少量特征不能很好地解釋學(xué)習(xí)模型，而過(guò)多的特征可能會(huì)增加冗余特征，降低聚類性能。另外，進(jìn)一步驗(yàn)證了提出方法相對(duì)與其它方法能夠更加有效捕捉不同樣本之間的復(fù)雜關(guān)系，從而有效實(shí)現(xiàn)了聚類精度的提升。

3.2.2 參數(shù)靈敏度

本文在式(11)中提出的目標(biāo)函數(shù)有兩個(gè)權(quán)衡參數(shù)，即α和β。固定了α的值，并使用β來(lái)調(diào)整權(quán)重矩陣S的稀疏性。具體來(lái)說(shuō)，β的值越大，S的稀疏性就越高。圖3展示了在所有數(shù)據(jù)集上相對(duì)于β的聚類精度的變化。

圖3 所有數(shù)據(jù)集關(guān)于β的聚類精度變化

從圖3可以看出，本文的方法在β的某些值上獲得了最佳的聚類性能，這導(dǎo)致了S上的稀疏性，即選擇特征的子集。這再次驗(yàn)證了本文的結(jié)論，即有必要對(duì)高維數(shù)據(jù)進(jìn)行降維。例如，在數(shù)據(jù)集Mnis上，β值的最佳取值范圍是 [10-3,10-1]，對(duì)應(yīng)于在所有特征中保留大約30%的特征。

3.2.3 收斂性分析

前文從理論上驗(yàn)證了優(yōu)化算法的收斂性，圖4展示出了等式(11)的目標(biāo)值相對(duì)于算法1的迭代次數(shù)的增加的變化。

圖4 不同數(shù)據(jù)集的迭代次數(shù)變化

3.3 圖像分割分析

3.3.1 數(shù)據(jù)集和相關(guān)參數(shù)設(shè)置

本文使用了所有的方法在BSD500上進(jìn)行圖像分割，即先進(jìn)行特征選擇，然后進(jìn)行k均值聚類。

BSD500包括500幅真實(shí)標(biāo)簽的自然風(fēng)景圖片。在本文實(shí)驗(yàn)中，首先，隨機(jī)選取了圖5所示的10幅圖像進(jìn)行分割，分別是飛機(jī)、鵝、房子、汽車、鹿、海星、馬、花、狗和鳥。其次，使用簡(jiǎn)單的線性迭代聚類方法來(lái)獲得所有選定圖像的超像素。首先將每幅圖像分割成300個(gè)超像素，每個(gè)超像素由9個(gè)特征表示。

圖5 圖像分割對(duì)比結(jié)果

本文采用所有的特征選擇方法，選取較少的9個(gè)特征進(jìn)行圖像分割，然后采用k均值聚類進(jìn)行分割，其中k值為每幅圖像的準(zhǔn)確聚類數(shù)。此外，還分析了利用超像素的所有特征進(jìn)行k均值聚類的方法。

3.3.2 圖像分割評(píng)價(jià)指標(biāo)

本文采用了3個(gè)評(píng)價(jià)指標(biāo)，即概率蘭特指數(shù)(PRI)、信息方差(VOI)和全局一致性誤差(GCE)來(lái)評(píng)價(jià)分割性能。

PRI通過(guò)以下公式計(jì)算預(yù)測(cè)分割標(biāo)簽和地面真值標(biāo)簽之間的成對(duì)相似性

(35)

VOI根據(jù)信息差異測(cè)量預(yù)測(cè)分割和地面真實(shí)之間的距離

VOI(S,G)=H(S)+H(G)_2I(S,G)

(36)

其中，H和I分別表示熵的平方和預(yù)測(cè)S和地面真值G之間的互信息立方。

GCE假設(shè)其中一個(gè)細(xì)分必須是另一個(gè)細(xì)分的細(xì)化，并強(qiáng)制所有局部細(xì)化遵守相同的標(biāo)準(zhǔn)

(37)

一般來(lái)說(shuō)，PRI值越高，對(duì)應(yīng)的方法越好。此外，VOI和GCE越低，方法越差。

3.3.3 性能分析

本文在圖5中展示了每個(gè)圖像的分割結(jié)果，并在表2中報(bào)告了相應(yīng)的分割性能。根據(jù)實(shí)驗(yàn)結(jié)果，本文的方法有效地區(qū)分了背景和目標(biāo)。本文的方法是唯一一種能夠從汽車圖像的背景中完全分割出目標(biāo)物體的方法。在圖像分割中，與其它方法相比，本文提出的方法分割出的目標(biāo)物體最為完整。原因可能是本文的方法利用動(dòng)態(tài)超圖學(xué)習(xí)從不同的角度(即子空間學(xué)習(xí)和特征選擇)保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)。

表2 所有方法的分割結(jié)果

表2(續(xù))

根據(jù)表2，發(fā)現(xiàn)本文方法性能最好。也就是說(shuō)，就所有3個(gè)評(píng)估指標(biāo)而言，與最佳比較方法(即JHLSR)和最差方法(即基線)相比，本文方法平均改進(jìn)了0.12和0.56。

4 結(jié)束語(yǔ)

為了捕捉樣本之間的復(fù)雜關(guān)系，并且提升噪聲魯棒性，提出了一種基于動(dòng)態(tài)超圖學(xué)習(xí)拉普拉斯矩陣的無(wú)監(jiān)督特征選擇方法。通過(guò)多個(gè)公共數(shù)據(jù)集在聚類任務(wù)和圖像分割任務(wù)上的實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論：①提出的方法能夠利用動(dòng)態(tài)超圖學(xué)習(xí)從不同的角度保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)，從而有效提升了特征選擇的效果；②少量特征不能很好地解釋學(xué)習(xí)模型，而過(guò)多的特征可能會(huì)增加冗余特征，降低性能。而提出的方法能夠有效去除冗余特征，提取有效特征；③提出的方法具有較強(qiáng)的特征提取魯棒性。