虞 濤,童 瑩,曹雪虹
(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.南京工程學院 通信工程學院,江蘇 南京 211167)
近年來,基于稀疏表示的方法在人臉識別中得到了廣泛應用。針對非約束環(huán)境下的人臉識別研究逐漸成為了當今世界人臉識別領域中的熱點問題,如何處理光照、遮擋、年齡等干擾因素,已成為計算機視覺領域所面臨的一個核心問題。Wright等率先把稀疏表示的理論思想和分類問題結合起來,提出了稀疏表示分類(sparse representation based classification,SRC)方法[1],從稀疏的角度將待測樣本圖像表示為訓練樣本圖像的線性組合。Nguyen等[2]通過訓練樣本構建多尺度字典,分別對待測樣本進行稀疏表示,利用權重投票機制進行分類識別。Yang等[3]針對稀疏表示中范數(shù)最小化的求解問題提出了新的優(yōu)化算法,減少了光照、遮擋和表情等干擾因素的影響。付寧等[4]針對實際應用中信號塊稀疏度未知的情況,提出了一種塊稀疏度自適應迭代算法用于信號重構。Yang Meng等[5]提出魯棒稀疏編碼方法來尋求稀疏編碼問題上最大似然估計解,在處理人臉遮擋,光照和表情變化方面有效果。Deng Weihong等[6]提出輔助類內(nèi)變化字典來表示訓練和測試圖像之間的變化。胡正平等[7]針對陰影、遮擋等原因破壞圖像低秩結構這一問題,提出基于低秩子空間恢復的聯(lián)合稀疏表示識別算法。
傳統(tǒng)子空間理論通常認為單一個體的人臉圖像位于同一個低秩子空間中,然而由于光照、遮擋、姿態(tài)、表情、年齡等干擾因素,實際獲取的人臉圖像很少能夠顯示低秩結構,影響分類性能。Candes等[8]提出低秩矩陣分解(robust principal component analysis,RPCA)即魯棒主成分分析,將受到噪聲干擾的訓練樣本分解為低秩矩陣和稀疏誤差矩陣,通過低秩矩陣構建字典進行分類判別。Chia-Po Wei等[9]針對訓練和測試圖像數(shù)據(jù)由于遮擋或偽裝而被破壞的情況,提出了基于低秩矩陣分解的新型人臉識別算法,引入結構不連貫約束,對訓練樣本進行低秩分解,分解為類間差異大的基底。He Ran等[10-11]通過用非凸M估計量取代誤差項的1范數(shù),可以精確恢復嚴重受損的低秩矩陣。
人臉識別過程中,對測試樣本進行分類判別得到較差的識別率,原因在于受遮擋干擾會改變?nèi)四槇D像原本的特征和增加錯誤的圖像,從而對識別結果造成不利的影響,為克服遮擋等因素,構建更加有效的字典也是至關重要的。通過迭代加權低秩分解算法得到的遮擋字典可以充分地表示訓練和測試樣本中的噪聲因素。文中提出的方法對于遮擋干擾因素具有很好的魯棒性。
稀疏表示的基本原理是在利用有限個信號通過線性組合表示一個自然信號時,只有為數(shù)不多的幾個信號對應的表示系數(shù)值非零,而其他信號對應的系數(shù)值都為0。對未知類別的待測試人臉圖像,利用已知的訓練樣本集對它進行線性表示,通過計算待測樣本的重構表示系數(shù)值,再利用各類樣本及其對應的表示系數(shù)做重構殘差比較,選擇最小殘差值的樣本類別作為待測試圖像的所屬類別。
(1)
其中,y為待測試樣本;D為由訓練樣本集構成的字典;α為待求解的稀疏表示系數(shù)。
目標函數(shù)中利用1范數(shù)近似代替0范數(shù)來約束表示系數(shù)的稀疏性[3]。對于上述最小化問題,文中采用梯度投影重構法[12](gradient projection for sparse reconstruction,GPSR)分析計算。在計算得到稀疏表示系數(shù)后,SRC根據(jù)系數(shù)向量在每類樣本上進行重構表示,通過計算待測試樣本和各類重構樣本之間的殘差,比較并選擇最小殘差的樣本類別作為待測試人臉圖像的所屬類別。目前,稀疏表示分類方法已經(jīng)在很多領域得到了廣泛的應用[13-15]。
在理想的子空間假設情況下,D應該是低秩的,由于干擾,D呈現(xiàn)滿秩的特征,可以將問題抽象描述為:已知訓練樣本矩陣D,可以將D表示為D=A+E,且低秩矩陣A和稀疏矩陣E是未知的,但由訓練樣本D的構成可知A具有低秩的特征,E是稀疏的且矩陣中非零的元素可以任意大、數(shù)目盡可能少?;谏鲜鰡栴},可提出以下的等價結論:尋求測試字典矩陣D中主成分矩陣A的最小秩矩陣且具有低秩特征,且誤差矩陣E是稀疏的,即非零元素數(shù)目盡可能少。于是形成了如下優(yōu)化問題:
(2)
其中,rank(·)表示一個矩陣的秩;‖·‖0表示一個矩陣中非零元的個數(shù)。
通過對式2做松弛優(yōu)化可以把問題轉(zhuǎn)化為一個易于解決的凸優(yōu)化問題,即用1范數(shù)代替0范數(shù),用核范數(shù)代替秩函數(shù),式2就轉(zhuǎn)化為式3所示的易于求解的凸優(yōu)化問題。
(3)
正如之前在引言中提到的擴展稀疏表示算法,構建輔助類內(nèi)變化字典來表示訓練和測試圖像之間由干擾所引起的差異。但擴展稀疏表示算法構建的擴展字典對于遮擋干擾因素具有較差的識別結果。對于字典來說,應該充分描述訓練樣本和測試樣本中的遮擋因素,而且同一類人臉的字典中不應該包含類間信息,如果同一類人臉的字典包含了其他類的人臉信息,那么在稀疏重構時就會出現(xiàn)錯誤。
為了解決遮擋干擾因素的影響,該小節(jié)提出基于迭代加權低秩矩陣分解算法構建自適應遮擋字典的方法。因為通過低秩矩陣分解算法恢復的低秩矩陣已足夠正確,而文中提出的方法是關于訓練樣本和測試樣本中被遮擋因素影響的部分,并且該部分不包含類間信息。對于訓練樣本,該算法能得到被遮擋因素影響的信息。對于測試樣本,在分類之前測試樣本所屬類別未知,測試樣本與不同類的人臉矩陣通過低秩矩陣分解得到的矩陣中包含類間信息,因此文中提出的算法能得到該測試樣本中包含遮擋所掩蓋的信息,同時除去其他未被遮擋部分的類間信息,并將得到的信息作為每一類人臉的擴展字典。因此,迭代加權低秩矩陣分解算法可以描述為以下優(yōu)化問題:
(4)
其中,W?E表示W(wǎng)是一個權值矩陣,當Eij包含噪聲時,Wij被賦予一個近似于1的值,即(W?E)ij=Wij·Eij。事實上,遮擋的分布情況是未知的,權值矩陣只能通過一個迭代加權策略來一步一步近似它,因此,選取邏輯函數(shù)w(x)=1/(1+exp(μη-μx2))作為加權函數(shù)。其中μ和η是正標量,參數(shù)μ控制下降速率,參數(shù)η控制分界點的位置。經(jīng)過大量實驗得出圖片像素值歸一化到0和1之間時,μ和η的值取9和0.1可獲得最佳效果。
(5)
基于非精確拉格朗日乘子法的加權低秩矩陣分解算法:
輸入:數(shù)據(jù)Di∈Rm×ni,正則化參數(shù)λ,權值參數(shù)σ和ξ;
初始化:Y0,A0=0,E0=0,W0=w(E0),k=1;
輸出:W?E。
迭代步驟:
1)更新Ek:
(6)
2)更新Wk:Wk=f(Ek)
3)更新Ak:
(7)
4)更新Yk,μk:
Yk=Yk-1+μk-1(D-Ak-Wk?Ek),
μk=min(ρμk-1,μmax),ρ>1
(8)
5)檢測停止條件,如果不滿足,k=k+1,重復上述步驟1-5,否則,停止迭代,輸出W?E
根據(jù)文獻[17],通過奇異值收縮閾值算子(singular value thresholding,SVT),能夠得到如下的閉式解:
(9)
將Fk=Wk-1?Ek帶入式6,根據(jù)文獻[18]通過奇異值收縮算子,能夠得到如下的閉式解:
(10)
基于迭代加權低秩分解算法的人臉識別算法對某一測試y∈Rm×1的分類步驟如下:
輸入:測試樣本y∈Rm×1,訓練樣本Di∈Rm×ni
1)FOR i=1:k
2)利用加權低秩矩陣分解訓練的樣本Di,得到Wi?Ei
3)利用低秩矩陣分解訓練樣本Di,得到Ai和Ei
4)利用加權低秩矩陣分解Xi=[Ai,y],取結果矩陣的最后一列得到Wi(ni+1)?Ei(ni+1)
5)END FOR
6)構造字典Zi=[Ai,Wi?Ei,Ei-Wi?Ei,
Wi(ni+1)?Ei(ni+1)],Z=[Z1,Z2,,Zk]
7)利用稀疏表示分類算法對y進行稀疏表示,根據(jù)式1進行分類識別
輸出:測試樣本y所對應類別
為了驗證算法的有效性,將提出的基于自適應噪聲字典的人臉識別算法和其他算法(LR-SRC[7]、ESRC[6]、SRC[1])進行比較。采用AR人臉庫和Extended Yale B庫進行實驗。
AR人臉數(shù)據(jù)庫包含126個人的4 000多幅正面對齊人臉圖像,其中光照變化圖像8張,表情變化6張,眼鏡遮擋圖像6張,圍脖遮擋6張。該實驗選取了100類樣本,并進行裁剪及歸一化處理,裁剪后的尺寸為50×40。圖1為AR人臉庫中某類人的一些樣本圖像。
圖1 AR庫的樣本圖像
實驗包括兩部分,實驗1選取AR數(shù)據(jù)庫中每類樣本中第一部分的前7幅無遮擋圖像和任意1張含有眼鏡遮擋圖像作為訓練樣本,第二部分的前7幅無遮擋圖像和兩部分中剩余的5張含有眼鏡遮擋圖像作為測試樣本。實驗2選取AR數(shù)據(jù)庫中每類樣本的第一部分前7幅無遮擋圖像和任意1幅含有圍脖遮擋圖像作為訓練樣本,第二部分中前7幅無遮擋圖像和兩部分中剩余的5幅含有圍脖遮擋圖像作為測試樣本。表1是AR庫人臉圖像在不同方法下的平均識別率。
表1 AR庫圖像的實驗結果 %
從表1可以看出,對AR人臉庫原圖像進行分類識別,在實驗1中文中算法取得了93.17%的識別率,比LR-SRC、ESRC、SRC等算法識別結果分別提高6%、9.92%、10%。在實驗2中文中算法取得了91.67%的識別率,比LR-SRC、ESRC、SRC等算法識別結果分別提高6.75%、9.17%、9.59%,識別效果有明顯提高,主要原因在于利用迭代加權低秩矩陣算法可以得到遮擋所掩蓋的信息,遮擋矩陣很好地描述了訓練樣本和測試樣本中的遮擋因素。結果顯示了對于眼鏡和圍巾等遮擋具有良好的魯棒性,充分驗證了文中算法的可行性和有效性。
Extended Yale B庫包含38類人在光照條件變化的情況下獲得的人臉照片,圖像大小為192×168,每類人有大約64張,共2 414張正面對齊圖像。實驗中選取有64張圖像的人臉作為實驗數(shù)據(jù),共2 414張圖像,并且每張圖像大小裁剪調(diào)整為50×40大小,并進行歸一化處理。圖2為Extended Yale B人臉庫中某類人的一些樣本圖像。
實驗分別在每類中取出10幅圖像作為訓練樣本,其余54張作為測試樣本。表2是在Extended Yale B庫人臉圖像利用不同方法的識別率。
從表2可以看出,文中算法的識別率相比其他算法有很大提升,提高到92.54%,可以看出迭代加權低秩矩陣算法對于光照具有良好的魯棒性。主要原因在于利用迭代加權低秩矩陣算法實現(xiàn)過程中同時考慮了訓練樣本和測試樣本中光照所影響的信息,從而更好地提高了識別率。
表2 Extended Yale B庫圖像的實驗結果
圖2 Extended Yale B庫的樣本圖像
文中提出了基于迭代加權低秩分解的遮擋人臉識別算法,通過該算法提取訓練樣本和測試樣本中的遮擋信息,在遮擋信息中保留了遮擋的部分,移除了類間信息的干擾,提高了人臉圖像的識別率。相比其他算法,該算法可以應用于各種形狀的遮擋。通過人臉庫測試結果表明,該算法識別結果較好,對干擾具有良好的魯棒性,尤其是在訓練樣本和測試樣本均含有遮擋的情況下有明顯提高。