陶體偉,劉明霞,王明亮,王琳琳,楊德運,張 強(qiáng)
1.桂林理工大學(xué) 信息與工程學(xué)院,廣西 桂林 541006
2.泰山學(xué)院 信息科學(xué)技術(shù)學(xué)院,山東 泰安 271021
3.南京航空航天大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106
4.泰山學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,山東 泰安 271021
5.大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116000
近年,低秩表示(Low-Rank Representation,LRR)作為一種能有效挖掘數(shù)據(jù)本質(zhì)結(jié)構(gòu)的方法,在機(jī)器學(xué)習(xí)領(lǐng)域引起了人們的關(guān)注[1],特別是在圖像處理領(lǐng)域涉及低秩矩陣估計及低秩約束的問題是近期研究的熱點。低秩表示在圖像聚類、圖像去噪、顯著性檢測、視頻前景背景分離等領(lǐng)域有著廣泛的應(yīng)用。低秩方法是魯棒性主成分分析方法(Robust Principal Component Analysis,RPCA)的一種推廣形式的模型。RPCA 本質(zhì)上也是尋找數(shù)據(jù)在低維空間上的最佳投影問題,并且能從噪聲污染的數(shù)據(jù)中恢復(fù)其本質(zhì)上的低秩數(shù)據(jù)。RPCA 模型隱式地假設(shè)原始數(shù)據(jù)的潛在結(jié)構(gòu)為一個單獨的低秩線性子空間,也就是說RPCA模型只能提取一個主子空間,即所有純凈數(shù)據(jù)所張成的子空間。但是在現(xiàn)實應(yīng)用中,很多高維觀測數(shù)據(jù)可近似來自于一個或者多個低維的線性獨立子空間,且子空間的類別數(shù)以及每個數(shù)據(jù)點屬于哪個子空間也是未知的。在這種情況下,如果只是簡單地使用RPCA,得到的低秩矩陣就不能準(zhǔn)確地抓住數(shù)據(jù)的子空間結(jié)構(gòu)。
為了能夠更好地表示數(shù)據(jù)的多個低維子空間結(jié)構(gòu),使RPCA 模型更具廣義性,Liu 等人提出了低秩表示模型。其通過約束表示系數(shù)是低秩的,將子空間分割與噪聲分離納入一個框架中處理,這和RPCA 模型相比,可以更好地處理多個低維子空間數(shù)據(jù)。
如果一個高維空間中的所有數(shù)據(jù)實際上都是幾個線性子空間的并集,則利用LRR 能有效地揭示數(shù)據(jù)中本質(zhì)的低維結(jié)構(gòu)。但在實際應(yīng)用中,許多數(shù)據(jù)具有非線性幾何結(jié)構(gòu),如面部圖像就是在高維環(huán)境空間中的非線性子空間中采樣的。因此,在這種情況下,LRR 方法可能無法發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu),在特征提取過程中數(shù)據(jù)之間的局部性和相似性信息可能會丟失[2]。
為了保留嵌入高維空間的局部幾何結(jié)構(gòu),許多研究人員已經(jīng)考慮了流形學(xué)習(xí)(非線性特征提?。┓椒ǎ缇植烤€性嵌入(Locally Linear Embedding,LLE)[3]、局部保持投影(Locality Preserving Projections,LPP)[4]、鄰域保留嵌入(Neighborhood Preserving Embedding,NPE)[5]和拉普拉斯特征映射(Laplacian Eigenmaps,LE)[6]。所有這些算法都受到局部不變性思想的啟發(fā),即兩個數(shù)據(jù)點在數(shù)據(jù)分布的內(nèi)在流形中是接近的,那么這兩個點在新空間中的表示也會彼此接近。利用局部不變性思想,Zheng 等人[7]提出一種圖正則化低秩模型,它基于在學(xué)習(xí)過程中獲得的最相關(guān)的特征來構(gòu)造圖,因此該圖受到無關(guān)和嚴(yán)重?fù)p壞的特征的影響較小,并且更具區(qū)分性。其中圖拉普拉斯算子是基于特征學(xué)習(xí)過程迭代學(xué)習(xí)的,這與廣泛使用的非線性技術(shù)有著明顯的不同,后者通過獨立的預(yù)處理步驟構(gòu)造核矩陣或圖拉普拉斯算子作為輸入。Zhu等人[8]結(jié)合LRR技術(shù),提出了一種新的低秩圖正則化結(jié)構(gòu)稀疏回歸方法。該方法通過低秩約束將特征嵌入到遺傳數(shù)據(jù)和腦影像數(shù)據(jù)中,并通過稀疏有向圖和結(jié)構(gòu)稀疏正則化對遺傳數(shù)據(jù)進(jìn)行變量選擇,可有效提高阿爾茲海默癥的診斷精度。Yang 等人[9]提出了非負(fù)對偶圖正則化潛在低秩表示,引入雙圖正則化約束有效保留原始數(shù)據(jù)的內(nèi)部空間結(jié)構(gòu),并在分割子空間時提高最終聚類的準(zhǔn)確性。但是,這些方法都是基于歐氏距離來度量,通過構(gòu)建子圖來描述數(shù)據(jù)間的相似性結(jié)構(gòu),缺乏對數(shù)據(jù)全局結(jié)構(gòu)信息的把握。最近的研究表明,概率激勵距離測量(稱為有效距離)可以對數(shù)據(jù)的全局結(jié)構(gòu)信息進(jìn)行建模。歐幾里德距離一直被用來測量不同樣本之間的相似性[3]。但是,數(shù)據(jù)底層的動態(tài)結(jié)構(gòu)和內(nèi)部關(guān)系不能完全用連通矩陣來表示,即在投影到新的子空間之前,相似矩陣中描述的信息已經(jīng)失去了一些潛在的數(shù)據(jù)結(jié)構(gòu)。在概率解釋的驅(qū)動下,Brockmann等人提出了有效距離來發(fā)現(xiàn)數(shù)據(jù)間的結(jié)構(gòu)相似性。結(jié)果表明,有效距離比歐幾里德距離更能表現(xiàn)數(shù)據(jù)的全局關(guān)系信息[10]。
受上述工作的啟發(fā),本文提出了一種基于有效距離的低秩表示模型(Effective Distance Based Low-Rank Representation,EDLRR),并應(yīng)用于圖像分類。利用稀疏表示方法計算有效距離,可以更好地把握數(shù)據(jù)的全局信息,并使用最近鄰圖表示數(shù)據(jù)之間的相似性來構(gòu)建數(shù)據(jù)的局部幾何結(jié)構(gòu)。然后將圖結(jié)構(gòu)合并到尋找最低秩表示矩陣的優(yōu)化問題中,同時將表示系數(shù)約束為非負(fù),以便學(xué)習(xí)局部流形結(jié)構(gòu),這也使模型在物理上更具可解釋性。
傳統(tǒng)的相似度度量方法通常基于歐氏距離進(jìn)行,然而歐氏距離僅能體現(xiàn)個體數(shù)值特征的絕對差異(即從數(shù)值大小的差異),無法對數(shù)據(jù)中的動態(tài)特性(比如時間序列數(shù)據(jù)的動態(tài)變化)和全局特性進(jìn)行建模。然而,現(xiàn)實世界中兩個事物之間的相似性不僅僅取決于幾何坐標(biāo)中的歐氏距離或者地理距離,因此在設(shè)計相似性度量準(zhǔn)則時需要考慮樣本自身的動態(tài)特性以及樣本和樣本之間的全局特性。
Brockmann 等人在研究復(fù)雜網(wǎng)絡(luò)驅(qū)動對傳染病傳播過程的影響時,提出了有效距離的概念,并利用空中運輸乘客的數(shù)據(jù)來構(gòu)建各個大城市之間的有效距離,以此成功挖掘出病菌傳播源并預(yù)測出病菌的傳播狀態(tài)[10]。文獻(xiàn)[11]提出一種基于稀疏表示的方法來計算有效距離,并提出了基于有效距離的特征選擇方法。實驗結(jié)果表明,基于有效距離的相似度量方法在分類和聚類任務(wù)中都取得了比歐氏距離更好的性能。
有效距離的直觀示意圖如圖1所示。在圖1(a)中,存在具有4 個節(jié)點的圖形,邊的權(quán)重由箭頭來量化表示。在圖1(b)中,將節(jié)點m移動到節(jié)點n處的隨機(jī)游走概率表示為P(n|m),該概率的大小由線寬表示。例如,節(jié)點A移動到節(jié)點B處的隨機(jī)游走概率P(B|A)為1/2,其中數(shù)字2 表示節(jié)點A與其他節(jié)點的連接數(shù)。在圖1(b),從D開始隨機(jī)游走前往C的概率和從A開始隨機(jī)游走前往B的概率較大,即P(B|A)=1/2,P(C|D)=1,反之則較小。在有效距離的定義中,小概率P(n|m)表示從點m到點n的有效距離大,大概率P(n|m)表示從點m到點n的有效距離小。與傳統(tǒng)的歐式距離相比,有效距離綜合考慮數(shù)據(jù)的動態(tài)結(jié)構(gòu)信息以及樣本與其他所有樣本間的關(guān)系,因此有助于揭示數(shù)據(jù)的隱藏結(jié)構(gòu)并提高模型的學(xué)習(xí)性能。
圖1 有效距離的圖示說明
LRR 可以看作是RPAC 的一種推廣形式[12]。LRR模型[1]基于這樣的假設(shè):相關(guān)數(shù)據(jù)存在于一個低維線性子空間中。給定一組數(shù)據(jù)樣本,LRR旨在找到所有數(shù)據(jù)中本質(zhì)的低維結(jié)構(gòu)。這和RPCA模型相比,可以更好地處理多子空間數(shù)據(jù)。
考慮數(shù)據(jù)Y是從由給出的多個子空間的并集中提取的情況,其中S1,S2,…,Sk是低維子空間,則給定數(shù)據(jù)Y的LRR定義為以下等級最小化問題:
其中,rank(Z)為給定數(shù)據(jù)Y的最低秩表示;‖ · ‖0表示E中非零元素的個數(shù),目的是為了擬合噪聲;A為線性張成數(shù)據(jù)空間的字典;λ表示權(quán)重因子。
由于秩函數(shù)和l0范數(shù)的離散性質(zhì)很難解決上述優(yōu)化問題(1),它們都屬于NP 難問題,因此提出上述優(yōu)化問題的凸松弛,即將優(yōu)化問題中秩函數(shù)和l0范數(shù)放松為各自的凸包形式(矩陣核范數(shù)和l1范數(shù)),進(jìn)而再繼續(xù)求解目標(biāo)的凸優(yōu)化問題,這就是低秩表示模型:
其中,‖Z‖*表示矩陣的核范數(shù),即對Z進(jìn)行奇異值分解所得到的所有奇異值的和。‖E‖1表示E的稀疏矩陣,即矩陣E的所有元素的絕對值之和。
文獻(xiàn)[13]提出了基于非負(fù)低秩稀疏圖(NNLRS)的方法,其中心思想是在半監(jiān)督學(xué)習(xí)環(huán)境下構(gòu)造一個好的圖來發(fā)現(xiàn)內(nèi)在的數(shù)據(jù)結(jié)構(gòu),用給定的數(shù)據(jù)表示建立一個非負(fù)的低秩稀疏圖,圖中邊的權(quán)重是通過尋找非負(fù)的低秩稀疏重建系數(shù)矩陣獲得的。該矩陣將每個數(shù)據(jù)樣本表示為其他數(shù)據(jù)樣本的線性組合,由此獲取數(shù)據(jù)子空間的低維結(jié)構(gòu)和數(shù)據(jù)的局部線性結(jié)構(gòu)。
該方法具體模型如下:
其中,‖E‖2,1是l2,1范數(shù);參數(shù)λ用于平衡噪聲的影響,使用經(jīng)驗值設(shè)定;l2,1范數(shù)鼓勵噪聲E為0。但是該方法沒有考慮數(shù)據(jù)流形的問題。
文獻(xiàn)[2]提出了非負(fù)稀疏拉普拉斯正則化LRR模型(NSHLRR),其使用基于歐氏距離的最近鄰圖來構(gòu)建表示數(shù)據(jù)的局部結(jié)構(gòu),引入了流行正則化約束。與文獻(xiàn)[13]不同,它采用局部線性子空間逼近非線性流形,在效果上更好一些。本文受此啟發(fā),使用基于稀疏表示的有效距離來構(gòu)建數(shù)據(jù)的局部結(jié)構(gòu)。
稀疏表示作為信號分析領(lǐng)域的熱點問題,其本質(zhì)是從過完備字典矩陣中選擇盡可能少的原子來表示信號,使學(xué)習(xí)任務(wù)得到簡化,模型復(fù)雜度降低。
值得注意的是,稀疏表示方法能夠有效表達(dá)數(shù)據(jù)的全局特性[14]。具體有效距離計方法如下:
給定一組訓(xùn)練樣本X=[x1,x2,…,xn]∈Rn×d,其中n代表樣本的個數(shù),d代表特征的維數(shù)。根據(jù)稀疏重構(gòu)系數(shù)模型[15],將每一個樣本用其他的n-1 個樣本線性表示,即x=Aα+k,其中A={x1,x2,…,xi-1,xi+1,…,xn},表示一個數(shù)據(jù)矩陣包含除了第i個樣本之外的所有其他樣本;用W表示權(quán)重矩陣,即樣本xi在稀疏表示樣本xj的過程中所占的權(quán)重值,其可通過字典學(xué)習(xí)模型求解:
根據(jù)式(3)計算求得權(quán)重系數(shù)矩陣W,Wij表示第i個樣本在第j個樣本前的稀疏表示的系數(shù)。λ為正則化參數(shù),用來約束模型稀疏性,值越小,得到的解中零元素越少,即稀疏性越小,反之則越大。
根據(jù)得到的權(quán)重系數(shù)矩陣W,對其進(jìn)行歸一化:
Qij越大,說明xi在稀疏重建xj時,所占的權(quán)重越大,則xi與xj之間的相似度越大,即有效距離越小。
有效距離計算如下:
因為0 ≤Qij≤1,所以lnQij≤0,顯然EDij≥1。
在流形學(xué)習(xí)中,非線性流形是與線性子空間局部近似的,假設(shè)Y=[y1,y2,…,yn]是從底層流形M中采樣,那么點和其鄰點之間的關(guān)系也是線性的。因此可以通過其鄰點構(gòu)建與這些數(shù)據(jù)點的線性系數(shù),來表示數(shù)據(jù)點的局部幾何形狀。
因此,本文首先構(gòu)造拉普拉斯矩陣,包括3個步驟。
步驟1使用2.1節(jié)中稀疏表示方法計算樣本之間的有效距離,構(gòu)造有效距離矩陣ED∈Rn×n。
步驟2基于每個采樣點σi的有效距離計算局部尺度參數(shù)。
步驟3構(gòu)建相似性矩陣。矩陣中的元素定義如下:
其中度矩陣被定義為D,D為對角矩陣,其對角線元素Dii對應(yīng)于與Dii=∑jAij相關(guān)的所有相似性的總和。然后圖拉普拉斯矩陣定義為[16]:
容易證明圖拉普拉斯矩陣可以重寫為min tr(ZLZT)。
考慮到稀疏表示能夠更好地捕獲每個數(shù)據(jù)向量的局部結(jié)構(gòu),為了在Z上引入更豐富的信息,對Z引入了稀疏性約束[17]。稀疏LRR模型可以表示為如下公式:
由于使用局部線性流形逼近非線性流形,因此要表示的樣本最好位于局部線性流形的中心,以使之近似有效。為此,要求Z為非負(fù)數(shù)[2],即Z≥0,同時,在基于圖的流形學(xué)習(xí)[3,14-15]推動下,可以將拉普拉斯正則化結(jié)合到目標(biāo)函數(shù)(6)中,具體EDLRR模型如下:
其中,L是基于有效距離的圖拉普拉斯矩陣,而λ、β和γ是用于平衡正則項的懲罰參數(shù)。
本文提出的基于有效距離的LRR分類方法和LRR方法相比,在尋求低秩系數(shù)矩陣的基礎(chǔ)上,加入了稀疏和非負(fù)性約束,并且使用有效距離度量來構(gòu)建相似度矩陣,充分考慮整個數(shù)據(jù)的全局結(jié)構(gòu),不僅保留了數(shù)據(jù)點之間的局部幾何結(jié)構(gòu),也更好地把握數(shù)據(jù)的隱藏結(jié)構(gòu),改善相似度量的有效性。
基于傳統(tǒng)的交替方向法(Alternate Direction Method,ADM),Lin 等人[18]提出自適應(yīng)懲罰項線性交替方法(Linearized ADM with Adaptive Penalty,LADMAP)。該方法針對ADM 算法中需要引入新的輔助變量,增加計算復(fù)雜度這一問題,采用一種新的準(zhǔn)則在每步迭代過程中自適應(yīng)地更新懲罰參數(shù),節(jié)省了存儲空間和引入輔助變量矩陣逆的運算。為了獲得式(7)的最優(yōu)解,使用LADMAP解決這一問題的優(yōu)化問題。
首先引入一個輔助變量J,以使式(7)的目標(biāo)函數(shù)可分離,因此以上優(yōu)化問題可以重寫如下:
則問題(8)的增廣拉格朗日函數(shù)是:
其中,M1、M2是拉格朗日乘子,μ>0 是懲罰參數(shù),在其他變量不變的情況下,通過最小化增廣拉格朗日函數(shù)交替更新變量。
(1)更新Z,通過最小化公式(9)的增廣拉格朗日函數(shù),相當(dāng)于最小化以下函數(shù):
但是它沒有閉式解,本文參照LADMAP,使用如下公式表示ε1的平滑分量:
則最小化ε1可以通過解決如下問題來替代:
其中,Θ(η1)為奇異值算子。
(2)更新E,可以通過最小化來更新E與J:
其閉式解為:
(3)更新J:
其閉式解為:
隨后交替更新拉格朗日乘子,并使用LADMAP 中自適應(yīng)更新策略來調(diào)整懲罰參數(shù),使其能夠迅速收斂,其總體流程如下。
算法1LADMAP對EDLRR算法的優(yōu)化求解
由于LADMAP 的直接應(yīng)用,上述算法收斂于全局最優(yōu)解。當(dāng)用奇異值收縮去更新Z時,可以使用文獻(xiàn)[18]中所描述的秩預(yù)測策略來預(yù)測Zi+1的秩R,它在迭代過程中慢慢增長,并穩(wěn)定在真實數(shù)值上。此外,使用Lanczos 方法(求解大規(guī)模稀疏矩陣特征值問題最常用的方法之一)來計算每次迭代之前的一個奇異值和奇異向量,這只需要將及其轉(zhuǎn)置和向量相乘,并通過連續(xù)矩陣向量相乘來有效地計算。在這樣的處理下,本文算法每次迭代的復(fù)雜度僅為O(rn2),其中n是樣本數(shù),r為矩陣的秩。
本文中的實驗圖像都經(jīng)過標(biāo)準(zhǔn)化處理,實驗環(huán)境為64 位 Windows 8.1 操作系統(tǒng),內(nèi)存16 GB,Intel?CoreTMi5-4590 CPU@3.30 GHz,并用Matlab R2014a軟件編程實現(xiàn)。
在分類實驗中,選取了3 個公開數(shù)據(jù)集CMU-PIE、USPS和UCI Zoo。
CMU-PIE 是美國卡耐基梅隆大學(xué)建立的數(shù)據(jù)庫,它包括68個人的在13種姿態(tài)條件、43種光照條件和4種表情下的4萬多張照片。對于這個數(shù)據(jù)庫,本文采用不同姿態(tài)、光照和表情下的每人170張每張32×32 維特征的圖像,共計11 560 張圖片作為目標(biāo)庫,樣例如圖2(a)所示。
圖2 人臉數(shù)據(jù)庫和手寫字體庫實例
表1 不同方法在CMU-PIE人臉數(shù)據(jù)庫上的分類錯誤率 %
表2 不同方法在USPS數(shù)據(jù)集上的分類錯誤率 %
此外,本文使用了UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫的Zoo數(shù)據(jù)集,其中包含了7 個類,共101 個元素,它們是線性不可分的,由16個屬性來描述樣本,其中15個為布爾屬性值{0,1}和1 個分類屬性(腿的數(shù)量),這些數(shù)據(jù)都是有標(biāo)簽數(shù)據(jù)[19]。
本文采用了以下6種方法進(jìn)行對比,來評估本文提出的EDLRR的有效性。
(1)基于k-最近鄰的分類方法(kNN-graph):將最近鄰接點的數(shù)量設(shè)置為5,在相似性度量上采用傳統(tǒng)的歐氏距離。
(2)基于LLE圖的方法[20]:構(gòu)造了一個LLE圖,其最近鄰數(shù)設(shè)置為8。
(3)基于l1-graph[21]的方法:通過求解每個樣本的最稀疏表示,使用其他樣本作為字典來構(gòu)造魯棒的基準(zhǔn)自適應(yīng)圖。
(4)基于LRR 的方法(LRR):相比于SR(稀疏表示),LRR可以更好地表示數(shù)據(jù)的整體結(jié)構(gòu)。LRR的參數(shù)與文獻(xiàn)[1]中的參數(shù)相同。
(5)非負(fù)低秩稀疏圖(Nonnegative Low-Rank Sparse,NNLRS)[13]:該方法使用非負(fù)的低秩稀疏矩陣來構(gòu)造一個圖,該矩陣將每個數(shù)據(jù)點表示為其他數(shù)據(jù)點的線性組合,系數(shù)矩陣也是對稱的。
(6)非負(fù)稀疏拉普拉斯正則化LRR(Non-negative Sparse Hyper-Laplace regularized LRR,NSHLRR)[2]:使用歐氏距離構(gòu)建圖拉普拉斯矩陣,并引入非負(fù)約束。
在實驗中,本文所提模型的參數(shù)和其他對比方法的參數(shù)通過五折交叉驗證的方式進(jìn)行選擇[22],且參數(shù)選擇范圍是{2-3,2-2,…,23}。具體地,首先隨機(jī)把初始采樣分割成5 個子樣本集,1 個單獨的子樣本集被保留作為驗證模型的數(shù)據(jù)(即test data),其他4 個子樣本集用來訓(xùn)練(即training data)。交叉驗證重復(fù)5次,每個子樣本集驗證1 次,平均5 次的結(jié)果得到一個評價結(jié)果。實驗中,發(fā)現(xiàn)本文所提模型的參數(shù) (λ,β,γ)值在 [2-1,2-3]范圍內(nèi)保持穩(wěn)定,且當(dāng)λ=8,γ=1 和β=4 時在各個數(shù)據(jù)集上都能取得較好結(jié)果。
半監(jiān)督學(xué)習(xí)是使用大量的未標(biāo)記數(shù)據(jù),以及同時使用標(biāo)記數(shù)據(jù),來進(jìn)行模式識別工作。在基于上述數(shù)據(jù)集分類實驗中,使標(biāo)記樣本的百分比在20%到60%之間。為了防止產(chǎn)生計算誤差,對每個標(biāo)簽的百分比算法運算20次,取平均值作為最終結(jié)果。
表1、表2 分別給出了在CMU-PIE 人臉數(shù)據(jù)庫和USPS手寫數(shù)據(jù)集上的分類結(jié)果。表中的粗體數(shù)字表示相應(yīng)標(biāo)簽百分比下的最佳值。
從這些結(jié)果中可以看出,在標(biāo)簽比較低的時候,傳統(tǒng)的kNN 方法效果較好,但是在標(biāo)簽比增加后,本文提出的EDLRR幾乎始終優(yōu)于其他方法。這說明在圖像分類任務(wù)中,本文方法是有效的。相對于原始的LRR 方法,本文增加的稀疏和非負(fù)的正則化約束和基于有效距離的相似矩陣使模型具備更好的分類精度。
為比較基于有效距離和歐氏距離的低秩表示方法的性能,將本文所提方法EDLRR 與3 種傳統(tǒng)基于歐式距離的低秩表示方法(LRR,NNLRS,NSLLRR)在Zoo數(shù)據(jù)集上進(jìn)行了比較。此外,還與基線方法kNN 進(jìn)行比較,實驗結(jié)果見表3。
表3 不同方法在Zoo數(shù)據(jù)集上的分類錯誤率 %
表3 的結(jié)果表明,在3 個數(shù)據(jù)集上本文所提出的EDLRR方法一般優(yōu)于其他方法。原因是基于有效距離的方法可以挖掘樣本之間的全局信息,因此可以對關(guān)系復(fù)雜的數(shù)據(jù)進(jìn)行更好的建模,從而提高分類性能。為驗證所提方法的穩(wěn)定性,以CMU-PIE 數(shù)據(jù)集標(biāo)簽比60%下五折分類結(jié)果為例報告了分類錯誤率的均值和方差,實驗結(jié)果見圖3。
圖3 均值方差圖
如圖3 所示,本文方法與其他方法相比方差較小,原因是非負(fù)約束的存在使得計算具有一定的稀疏性,流形正則化約束的使用也增強(qiáng)了基于LRR圖方法的魯棒性。
本文提出了一種基于有效距離的低秩表示模型(EDLRR)。首先采用稀疏表示方法計算樣本間的有效距離并構(gòu)建拉普拉斯矩陣,然后構(gòu)建包含拉普拉斯正則化項的低秩表示模型。本文方法不僅能表示全局低維結(jié)構(gòu),且能捕獲流形結(jié)構(gòu)的數(shù)據(jù)中的幾何結(jié)構(gòu)信息。在三個公開數(shù)據(jù)集上的分類實驗結(jié)果表明,與傳統(tǒng)方法相比,本文方法具有更高的分類精度和魯棒性。