姚 裕,萬鳴華,黃 偉
(1.南京審計大學(xué)信息工程學(xué)院,南京 211815;2.韓山師范學(xué)院計算機(jī)與信息工程學(xué)院,潮州 521041)
特征提取是人臉識別過程中比較重要的組成步驟,在研究特征提取的過程中,產(chǎn)生了許多降維的方法[1?2],如主成分分析(Principal component analysis,PCA)[3]和線性判別分析(Liner discrimi?nant analysis,LDA)[4]。PCA 和LDA 是經(jīng)典的線性降維方法,它們不能用于處理非線性數(shù)據(jù)結(jié)構(gòu)。然而,現(xiàn)實(shí)中的高維數(shù)據(jù)大多是非線性的。對于處理許多高維非線性數(shù)據(jù),流行學(xué)習(xí)是一個非常有效的方法。在基于流形學(xué)習(xí)的方法中,比較著名的是局部線性嵌入(Locally linear embedding,LLE)[5]和等度量映射(Isometric mapping,ISOMAP)[6]。LLE 保持?jǐn)?shù)據(jù)的局部線性結(jié)構(gòu),它假設(shè)每個點(diǎn)可以表示為該點(diǎn)的一個線性加權(quán)組合的鄰居,然后希望他們在子空間投影中保持相同的線性關(guān)系,這樣就可以通過線性關(guān)系獲得投影向量。然而,傳統(tǒng)的LLE 方法只能應(yīng)用于試驗數(shù)據(jù),對新數(shù)據(jù)沒有很好的映射。與LLE 方法相比,局部保持投影(Lo?cality preserving projection,LPP)[7?8]是很經(jīng)典的圖嵌入方法,能夠較好地映射新樣本。LPP 構(gòu)造一個鄰域加權(quán)矩陣,使之前相似的數(shù)據(jù)在投影后趨于接近。然而,傳統(tǒng)的流形學(xué)習(xí)方法有一些缺點(diǎn),例如,盡管通過使用圖嵌入的方法和度量其相鄰點(diǎn)的局部結(jié)構(gòu)的垂直距離來保留重要的局部信息,但其本質(zhì)上是一種無監(jiān)督的方法,它沒有有效地使用樣本標(biāo)簽信息,而標(biāo)簽信息在分類任務(wù)中很重要。為了解決這一問題,人們提出了許多LPP 的監(jiān)督方法,如監(jiān)督局部保持投影(Supervised locality pre?serving projection,SLPP)[9]、增強(qiáng)監(jiān)督局部保持投影(Enhanced supervised locality preserving projec?tion,ESLPP)[10]和監(jiān)督主局部保持投影(Super?vised principal locality preserving projection,SPLPP)[11]等,這些監(jiān)督方法都取得了較好的表現(xiàn)。
近年來,最小二乘回歸方法得到了廣泛的應(yīng)用?;貧w公式不僅可以與傳統(tǒng)方法相結(jié)合,在傳統(tǒng)方法的基礎(chǔ)上生成更為簡化的模型,還可以將回歸矩陣分解為投影矩陣和回歸矩陣,對回歸矩陣施加低秩約束。這些優(yōu)點(diǎn)使得模型的特征更加明顯。然而,目前的回歸公式大多采用L2范數(shù)進(jìn)行度量,對樣本異常值(噪聲、陰影等)魯棒性不足,魯棒回歸方法度量的是具有L2,1范數(shù)的回歸模型[12]。由于L2,1范數(shù)沒有平方運(yùn)算,減少了異常值對距離的影響,因此,本文使用L2,1范數(shù)來度量損失函數(shù),使模型更具有魯棒性。
此外,這些流形學(xué)習(xí)方法和回歸方法通過L1范數(shù)正則項約束投影矩陣,相較于L2,1范數(shù),不僅增加了計算成本,而且聯(lián)合稀疏性無法保證。在稀疏要求上,與L1范數(shù)不同,L2,1范數(shù)也要求行稀疏。在文獻(xiàn)[13?15]中,L2,1范數(shù)被應(yīng)用于損失函數(shù)和正則項的測量來得到魯棒的聯(lián)合稀疏特征提取。
傳統(tǒng)的流形學(xué)習(xí)方法在降維方面有其獨(dú)特的優(yōu)勢,例如LPP 方法通過構(gòu)造最鄰近加權(quán)圖對樣本進(jìn)行約束。但由于這些方法大多使用L2范數(shù)進(jìn)行距離測量,并且是基于無監(jiān)督的方法,模型缺乏魯棒性。針對這些問題,本文考慮了魯棒回歸模型的優(yōu)點(diǎn)、L2,1范數(shù)的特征和樣本的類別信息,并結(jié)合這些模型的優(yōu)點(diǎn)提出了一種新的模型,該方法稱為監(jiān)督低秩嵌入式回歸(Supervised low?rank em?bedded regression,SLRER)。該方法是一種基于流形學(xué)習(xí)思想和回歸模型的新方法。模型使用L2,1范數(shù)來作為損失函數(shù)的度量,在使模型更魯棒的情況下獲得更多的投影方向,并且將L2,1范數(shù)引入正則項的約束,增加稀疏性。同時,施加類內(nèi)以及類間的權(quán)值矩陣來進(jìn)行嵌入分析,充分利用樣本的類別信息,最后對重構(gòu)矩陣進(jìn)行分解,將矩陣分解為回歸矩陣以及投影矩陣,以此來保證重構(gòu)矩陣的低秩性。利用迭代方法求解模型的最優(yōu)解,并在數(shù)據(jù)集測試了該方法的性能。
設(shè)矩陣X=[x1,x2,…,xi,…,xn]表示樣本矩陣,包含n個樣本。每個樣本是一個m維的列向量。
本文采用L2,1范數(shù)作為損失函數(shù),給出L2,1范數(shù)的定義如下
LPP 捕獲嵌入流形結(jié)構(gòu)中的數(shù)據(jù)的局部幾何結(jié)構(gòu),通過計算鄰域圖W來表示數(shù)據(jù)點(diǎn)之間的權(quán)值關(guān)系,圖W的定義為
式中:Ck(xi)為xi的k個最近數(shù)據(jù)點(diǎn)的集合;Wij表示矩陣W的第i行和第j列。
假設(shè)P∈Rm×d是一個投影矩陣,低維向量yi是由高維向量xi通過P的投影得到的,如果高維數(shù)據(jù)xi與xj接近,那么低維數(shù)據(jù)yi與yj也應(yīng)該盡可能接近。因此,LPP 的目標(biāo)函數(shù)定義為
經(jīng)過簡單計算,式(3)可轉(zhuǎn)化為
式中:D為一個對角矩陣,它的元素是W這個矩陣的行和,Dii=∑iWij。 對式(4)施加約束PTXDXTP=Id,以避免平凡解,其中Id為d×d的單位矩陣。經(jīng)過計算,式(4)可轉(zhuǎn)化為特征值問題
式中:L=V-W;Λ為關(guān)于P的特征值矩陣。
低秩線性回歸(Low?rank linear regression,LRLR)是對傳統(tǒng)線性回歸的改進(jìn)。LRLR 在線性回歸的基礎(chǔ)上對回歸矩陣增加了一個低秩約束。目標(biāo)函數(shù)如下
式中:s≤min(n,k);Y∈Rn×k為包含樣本標(biāo)簽信息的矩陣,如xi屬于第j類,則Yij=1,反之Yij=0;D∈Rm×k表示的是投影矩陣。通過對投影矩陣D的秩進(jìn)行約束,LRLR 不僅可以有效地將樣本中的噪聲、陰影、重復(fù)樣本等信息去除,同時也能更好地挖掘類間的潛在信息。
考慮到流形學(xué)習(xí)和線性回歸的優(yōu)點(diǎn),建立樣本點(diǎn)與其鄰域點(diǎn)之間的關(guān)系,將樣本點(diǎn)回歸到鄰域點(diǎn),并通過加權(quán)矩陣約束這種關(guān)系。還考慮了樣本的類別信息,通過約束各個類別的均值向量之間的關(guān)系,提出了基于LRLR 的目標(biāo)函數(shù)如下
式中λ>0 為正則化參數(shù)。但由于模型(8)是非凸問題,很難求解。由文獻(xiàn)[16]可以看出,在線性判別子空間中,低秩線性回歸等同于線性回歸。對于模型(8),可以用相同的方法[16]得到如下模型
式中:A∈Rm×d,B∈Rd×m,Z=AB和rank(Z)=rank(AB)≤d。該模型對低秩約束進(jìn)行分解,使其易于求解,并通過正交約束避免了平凡解。在2.2 節(jié)中,本文將展示如何用迭代算法求解模型(9)。
在本節(jié)中給出模型(9)的解,首先定義矩陣M
式中:Mii表示矩陣的對角值;(AB)i則表示矩陣的第i個值。本文增加了δ常數(shù)約束,防止分母為0。由模型(9)可得
式中
對于兩個變量,本文固定了一個變量。令其對B的偏導(dǎo)數(shù)為0,可得
式中:Λ為A所對應(yīng)的特征值矩陣,最優(yōu)解由Λ所對應(yīng)的最大d個特征向量組成。
算法1 給出了SLRER 的整個流程。
算法1 SLRER
輸入:訓(xùn)練集X,維度d,迭代數(shù)T,參數(shù)λ,權(quán)重矩陣Wc和Wb
(2)初始化A為d×s正交矩陣。
(3)從i= 1∶T做
通過式(15)更新B;
通過式(18)更新A;
通過式(12)更新S;
通過式(13)更新J;
通過式(10)更新M。
(4)規(guī)范化A。
輸出:投影矩陣A。
ORL 人臉數(shù)據(jù)庫由40 人組成,每個人有10 張圖像,包含了不同的姿勢和面部表情,每幅圖像為56 像素×46 像素。
FERET 人臉數(shù)據(jù)庫包含200 人組成的1 400張圖像,取自每個個體受不同光照影響的圖像,每幅圖像被調(diào)整為40 像素×40 像素。
PolyU 掌紋庫包含100 個不同人的600 幅圖像。這些圖像采集了兩次,間隔兩個月。每幅圖像被裁剪為128 像素×128 像素。
為了測試SLRER 在面對不同像素破壞時的魯棒性,本文依次在ORL 和FERET 數(shù)據(jù)庫中加入高斯噪聲和椒鹽噪聲,密度分別為0.2 和0.1。圖1 是ORL 和FERET 數(shù)據(jù)庫的干凈圖像,以及高斯噪聲和椒鹽噪聲下的被破壞圖像。本文選取每個個體的p張圖像作為訓(xùn)練樣本,其中ORL 數(shù)據(jù)庫中,p=3、4、5、6;FERET 數(shù)據(jù)庫中,p=2、3、4、5。PCA、LDA、LRR、NPE、LPP、SPP 和SLRER 對隨機(jī)像素破壞的最高分類準(zhǔn)確率如圖2、表1 和2 所示。
圖1 來自O(shè)RL 和FERET 數(shù)據(jù)庫的樣本圖像以及相應(yīng)的具有不同密度的高斯噪聲和椒鹽噪聲的圖像Fig.1 Sample images from ORL and FERET databases and corresponding images with Gaussian and salt &pepper noise
圖2 基于高斯噪聲和椒鹽噪聲在ORL 和FERET 數(shù)據(jù)庫上的分類精度Fig.2 Classification accuracy of ORL and FERET data?bases under Gaussian noise and salt& pepper noise
表2 像素破壞下FERET 人臉庫上各算法的最高識別率Table 2 The highest recognition rate of each algorithm in FERET database under pixel damage
為了進(jìn)一步測試SLRER 在面對不同級別連續(xù)遮擋數(shù)據(jù)時的魯棒性,在圖像中不同位置隨機(jī)添加一些遮擋塊,將圖像中遮擋塊的大小分別設(shè)置為5×5 和10×10。圖3 顯示了來自O(shè)RL 和FERET數(shù)據(jù)庫的原始圖像和不同程度連續(xù)遮擋下的被破壞圖像。PCA、LDA、LPP、NPE、LRR、SPP 和SL?RER 在對不同像素遮擋水平下的最高分類準(zhǔn)確率如圖4、表3 和4 所示。
表3 像素遮擋下ORL 人臉庫上各算法的最高識別率Table 3 The highest recognition rate of each algorithm in ORL database under pixel occlusion
圖3 來自O(shè)RL 和FERET 數(shù)據(jù)庫中的樣本圖像和對應(yīng)的不同像素塊遮擋下的圖像Fig.3 Sample images from ORL and FERET databases and corresponding images under the occlusion of dif?ferent pixel blocks
圖4 基于5×5 和10×10 塊遮擋在ORL 和FERET 數(shù)據(jù)庫上的分類精度Fig.4 Classification accuracy of ORL and FERET databas?es under occlusion of 5×5 and 10×10 blocks
表4 塊遮擋下FERET 人臉庫上各算法的最高識別率Table 4 The highest recognition rate of each algorithm in FERET database under block occlusion
PolyU 數(shù)據(jù)集包含600 幅圖像。每張圖像大小被調(diào)整為128 像素×128 像素。為了進(jìn)一步測試SLRER 在掌紋數(shù)據(jù)庫上的魯棒性,本文分別在樣本圖像上添加了5×5 遮擋塊和10×10 遮擋塊。圖5 為該數(shù)據(jù)集中的原始圖像與5×5 遮擋塊和10×10 遮擋塊的損壞圖像。筆者為每個掌紋選擇3 張圖片作為訓(xùn)練樣本,實(shí)驗結(jié)果如圖6 和表5所示。
表5 PolyU 掌紋庫上各算法的最高識別率Table 5 The highest recognition rate of each algorithm in PolyU database
圖5 來自PolyU 掌紋庫的圖片F(xiàn)ig.5 Images from PolyU palmprint database
圖6 各算法PolyU 數(shù)據(jù)集的分類準(zhǔn)確率Fig.6 Classification accuracy of PolyU dataset of each algo?rithm
對于人臉數(shù)據(jù)集,圖2 和圖4 顯示了所有方法在ORL 和FERET 數(shù)據(jù)集上的最高識別率隨訓(xùn)練樣本數(shù)量的變化,最佳識別率列于表1、2 和表3、4。由圖2、4 及表1~4 可知,LPP 和NPE 方法作為流行學(xué)習(xí)方法,比起PCA 和LDA 識別率較有提升,因為LPP 和NPE 都采用了圖嵌入的思想,通過權(quán)重圖來約束樣本相鄰點(diǎn)的相似度,流行學(xué)習(xí)方法更注重于保留數(shù)據(jù)內(nèi)在的局部鄰域結(jié)構(gòu)。SPP 對比LPP 和NPE,SPP 旨在對每一個樣本進(jìn)行剩余樣本的線性重構(gòu),對目標(biāo)函數(shù)施加L1范數(shù)的正則項,并對權(quán)重矩陣進(jìn)行稀疏表示,在對包含噪聲的原始數(shù)據(jù)時,能通過學(xué)習(xí)到的最優(yōu)稀疏重構(gòu)系數(shù)進(jìn)行更好的投影,在表現(xiàn)性能上略優(yōu)于LPP 和NPE 方法。LRR 作為一種低秩表示方法,將樣本矩陣作為字典并進(jìn)行自表示,在對噪聲的魯棒性上具有明顯的優(yōu)勢。與PCA 和LDA 相比,因為引入了流形學(xué)習(xí)的思想,將子空間圖嵌入模型融入SLRER 中,所以使得SLRER 效果更加顯著。同時,SLRER 在考慮樣本流形結(jié)構(gòu)的情況下引入回歸矩陣,并通過對回歸矩陣的分解來引入低秩特性提取主要特征,從而獲得了更好的性能。對比LPP、SPP 和LRR,SLRER 的識別率提升為5% ~ 15%,這是因為SLRER 使用L2,1范數(shù)作為基本的損失函數(shù)度量,替代了L2范數(shù)的距離度量方法,省去平方運(yùn)算,對噪聲等異常值敏感度降低,而使用L2,1范數(shù)作為正則化約束,保證投影矩陣的聯(lián)合稀疏性。最后,為了測試SLRER 的穩(wěn)定性,圖6 和表5 分別顯示了SLRER 在PolyU 掌紋數(shù)據(jù)集上原始樣本的最高識別率和樣本加噪后的最高識別率。從圖6 和表5 中可以看出,SLRER 在經(jīng)過塊遮擋干擾后仍能保持良好的識別率,模型具有良好的魯棒性。
線性回歸和流形學(xué)習(xí)方法在特征提取中效果顯著,本文在這基礎(chǔ)上提出了一種有監(jiān)督的低秩重構(gòu)方法。通過帶有類別信息的權(quán)重矩陣進(jìn)行圖嵌入學(xué)習(xí),對回歸矩陣進(jìn)行低秩重構(gòu),分解為回歸矩陣及投影矩陣,保留低秩特性。通過在損失函數(shù)中引入L2,1范數(shù),降低了模型對樣本異常值的敏感性,增強(qiáng)了模型的魯棒性。此外增加了L2,1范數(shù)正則化項,保證投影聯(lián)合稀疏特性,從而提取主要特征。在提出求解算法時,通過迭代方法求解回歸矩陣,使其更容易獲得最優(yōu)解。最后,對模型進(jìn)行了實(shí)驗分析,進(jìn)一步驗證了該方法的有效性。