章權(quán)兵 黃翔 徐爭元 蘇娟
(安徽大學(xué) 計算智能與信號處理教育部重點實驗室,安徽 合肥 230039)
雖然人臉識別在最近幾十年已經(jīng)被廣泛研究,但由于受遮擋、姿態(tài)變化和光照[1]等影響,其識別性能依然受到很大的限制.因此在真實情況下提高人臉識別的魯棒性仍有必要.由此很多經(jīng)典的人臉特征提取和分類方法被提出,包括子空間學(xué)習(xí)的Eigenface[2]、Fisherface[3]、Laplacianface[4]、基于Gabor 特征的分類[5]以及具有機(jī)器學(xué)習(xí)功能的支持向量機(jī)(SVM)[6]等.
2008年,Wright 等[7]首次將稀疏表示引入到人臉識別中,提出了基于稀疏表示的分類(SRC)方法.該方法是將訓(xùn)練樣本作為字典,通過l1模最小化技術(shù)得到待識別圖像在字典上的稀疏表示系數(shù),并求解最小殘差來進(jìn)行識別.它在魯棒的人臉識別中指出了新的方向,但仍然存在一些問題,如要求圖像對齊、人臉特征為整體特征等.這些都大大降低了識別的魯棒性.因此后來有一些改進(jìn)的算法被提出[8-10],如Yang 等[11]將Gabor 特征引入到SRC 中,提出了基于Gabor 特征的稀疏表示分類(GSRC)方法,由于Gabor 特征是從局部區(qū)域抽取,對影響圖像的一些因子不是特別的敏感,用它做字典將能夠提高人臉的識別率.
盡管GSRC 獲得了不錯的效果,但Gabor 僅僅提取了圖像的幅度信息,對于相位信息并沒有考慮.另外Gabor 變換本身需要在不同尺度和不同方向上進(jìn)行,這提高了計算時間和存儲空間[12-13].針對這些問題,文中基于單演信號理論[14-16]的思想,將它與稀疏表示進(jìn)行聯(lián)合,獲得了不錯的識別效果.
已知有n 幅人臉圖像,分為k 類,每一類有ni幅.對這些圖像進(jìn)行處理(下采樣或特征提取等),從而獲得訓(xùn)練樣本.設(shè)第i 類樣本訓(xùn)練集合為Ai=[vi,1,vi,2,…,vi,ni]Rm×ni,若此時有一個同類的樣本yRm,則它可以由此類中的所有訓(xùn)練樣本線性表示,即
但在實際中,往往測試樣本屬于哪一類是未知的,這就需要在整個訓(xùn)練樣本類中去尋找.定義一個擁有k 類,包含所有訓(xùn)練樣本的字典A,A=[A1A2… Ak]Rm×n,此時測試樣本便可以由所有訓(xùn)練樣本線性表示
這里的α 是一個稀疏系數(shù)向量.理論上,求得的α只在與測試樣本相關(guān)的訓(xùn)練類別上對應(yīng)的系數(shù)不為0,而在不相關(guān)類上對應(yīng)系數(shù)為0.因此可以通過觀察α 中非0 的部分來指定測試樣本屬于哪一類.
對于α 的求解可以轉(zhuǎn)換為求解l0范數(shù)的問題,即
由于降維的影響,A 的列數(shù)往往會大于行數(shù),即n>m,此時求解l0問題將會是一個NP-hard 問題,很難在實際中精確地解出.
近年發(fā)展的壓縮感知理論證明:如果系數(shù)足夠稀疏,那么l0范數(shù)問題可以轉(zhuǎn)換為求解l1范數(shù)最小化問題[17]
這是理想情況下求解α 的方法.然而,由于受噪聲和誤差的影響,由Aα 重構(gòu)的與原始的y 會有一定的偏差,所以問題(4)可轉(zhuǎn)化為下面的最小化問題
前一項是基于整個字典的重構(gòu)殘差,后一項是正則項,其作用是使系數(shù)α 盡量稀疏.通過估計求得稀疏表示,再求取基于部分字典的殘差,這里的部分字典指的是對應(yīng)一個類的所有樣本,如對應(yīng)第i 類公式為
最后可根據(jù)殘差ri最小原則來確定測試樣本所屬類別,即識別出所給定人臉圖片的身份.
Gabor 變換首次由Dennis Gabor 提出,由于它的特性類似于視覺神經(jīng)細(xì)胞工作機(jī)理,所以被經(jīng)常用于圖像的特征提取.雖然能夠提取多尺度性和多方向性的圖像局部信息,但它并非嚴(yán)格意義上的帶通濾波器.當(dāng)帶寬大于一倍頻率時,Gabor 變換的實部會產(chǎn)生直流分量[18],而直流分量會影響構(gòu)造相互正交的濾波器對.為了彌補(bǔ)Gabor 小波在使用中的限制,F(xiàn)iled[19]提出了Log-Gabor 濾波器,其優(yōu)點在于不僅能夠去除直流分量的干擾,不用考慮帶寬限制問題,而且在相同振幅下,其在高頻的拖尾要長些,以致覆蓋的頻率范圍更大,減少了計算量.Log-Gabor的頻率響應(yīng)公式如下所示:
這里σ=σratioω0是帶寬比例因子,ω0=(minμs-1)-1是中心頻率,min為最小波長,μ 為波長的乘法因子,s 為尺度因子,σratio為比值σ/ω0.
單演信號是通過Riesz 變換得到的一維解析信號的二維泛化.它可估計信號的局部振幅、局部方向和局部相位.Riesz 變換如下
式中,f(z)是輸入信號,z=(x,y),濾波器hx和hy分別對應(yīng)的二維頻域響應(yīng)為,這里ω=(ωx,ωy),fx(z)表示在x 方向上的Riesz 變換,fy(z)表示在y 方向上的Riesz 變換.易得Riesz 核的空間表示為
單演信號fM(z)為
在實際應(yīng)用中,信號的長度是有限的,需要先對圖像進(jìn)行帶通濾波處理.由于Log-Gabor 濾波器是帶通濾波器,為了盡量描述圖像的特征信息,通過調(diào)節(jié)濾波器的尺度因子s 來獲取多個尺度單演特征(s越大,越能體現(xiàn)整體輪廓信息,s 越小,越能體現(xiàn)細(xì)節(jié)信息).優(yōu)化后的單演信號flog-M為
其中,flog(z)=f(z)* F-1(G(ω)),F(xiàn)-1表示二維傅里葉逆變換.flog(z)表示的是信號經(jīng)過了Log-Gabor 濾波,flog-x(z)表示濾波后的信號在x 方向上的Riesz變換,flog-y(z)表示濾波后的信號在y 方向上的Riesz變換.由此圖像的局部幅度、局部相位和局部方向分別為
這里,H 描述了圖像的局部能量信息,φ 描述了圖像的局部結(jié)構(gòu)信息,θ 描述了圖像的局部幾何信息.尺度因子s 分別取1、2、3 時,單演信號的特征圖如圖1所示.
圖1 單演特征圖Fig.1 Images of monogenic features
不同于Gabor 運算,單演特征能夠較好地表達(dá)出圖像的能量特征、結(jié)構(gòu)特征和幾何特征.而結(jié)構(gòu)特征包含了大部分的圖像信息,相對能量特征不容易受光照影響.將其作為字典用于識別時,會得到較好的效果.
MSRC 的算法具體流程如下.
(1)已知訓(xùn)練樣本集A 和測試樣本y.
(2)選取不同的尺度因子,在x 和y 方向分別進(jìn)行Log-Gabor 濾波,然后通過Resize 變換,獲得單演特征圖.將不同尺度因子s 對應(yīng)的特征圖以列的形式連接在一起構(gòu)造一個局部特征描述子,最終獲得訓(xùn)練樣本特征集M(A)和測試樣本特征M(y).
(3)利用主成分分析(PCA)和線性判別分析(LDA)相結(jié)合的方式將M(A)和M(y)進(jìn)行降維處理,得到低維訓(xùn)練樣本特征集X(A)和測試樣本特征集X(y).
(4)歸一化X(A)和X(y).
(5)通過l1模最小化方法求解稀疏系數(shù),即
(6)取對應(yīng)類的稀疏系數(shù)來計算各類合成的樣本與原始樣本的殘差,即
式中,δi()是一個從整體系數(shù)中選取與第i 類相關(guān)的系數(shù),即
(7)對應(yīng)最小殘差的那個類就是測試樣本所屬的類,即identify(y)=arg min{ri(y)}.
從上面很容易發(fā)現(xiàn)對圖像使用多尺度二維Gabor濾波和多尺度單演濾波都會產(chǎn)生一定的冗余信息.對于Gabor,冗余既來自多尺度,又來自多方向.但對于多尺度單演特征,由于其幅度、相位、方向都是正交的,冗余僅僅來自對尺度的表示.因此使用后者更有意義.
利用實驗驗證算法的有效性,首先在AR 庫上分別比較了不同尺度單演特征的人臉識別結(jié)果以及多尺度單演性質(zhì)(能量、結(jié)構(gòu)和幾何特征)圖的人臉識別結(jié)果.然后通過對Extend Yale B 和AR 人臉數(shù)據(jù)庫的實驗來比較MSRC 與SRC、GSRC 算法的識別性能.多尺度單演信號的參數(shù)設(shè)定為:min=4,μ=0.64,σratio=1.7,尺度數(shù)為3.實驗所用平臺是Intel(R)Core(TM)2 處理器,主頻2.80GHz,2.00GB 內(nèi)存,MATLAB7.9 版本,Windows 7 系統(tǒng).
實驗中所使用的圖像單演特征是一個聯(lián)立特征,它包含了不同尺度、不同性質(zhì)的單演特征.在AR 庫上對這些特征圖分別進(jìn)行了實驗比較,主成分分析(PCA)的維數(shù)分別取100、200、300,線性判別分析(LDA)的維數(shù)與訓(xùn)練的樣本類數(shù)一致,實驗結(jié)果如表1 和表2 所示.
表1 不同尺度單演特征的識別率Table 1 Rate of recognition based on different scales of the monogenic feature
表2 不同單演性質(zhì)圖的識別率Table 2 Rate of recognition based on different monogenic nature
表1 是尺度因子s 取不同值時的人臉識別率.從表1 中可看出,s=1 和s=2 時,識別率接近,s=3時,識別率有明顯的下降趨勢,但取三者的聯(lián)立特征得到的識別率最佳.
表2 是不同單演性質(zhì)(能量、結(jié)構(gòu)和幾何特征)的識別結(jié)果.從表2 中可看出結(jié)構(gòu)特征圖和幾何特征圖的識別率明顯高于能量特征圖,這也驗證了前面所說的相位信息的重要性.
Extend Yale B 人臉庫包含10 個人,每個人有64 幅各種不同光照條件下的正面人臉圖像.首先將圖像尺寸歸一化到70 ×80,并從中選取50%圖像作為訓(xùn)練樣本,剩余作為測試圖像.利用上節(jié)方法提取特征后,利用PCA 與LDA 相結(jié)合的方式進(jìn)行降維,這里PCA 的維數(shù)分別取40、60、80、100、120、140、160、180、200,LDA 的維數(shù)與訓(xùn)練的樣本類數(shù)一致.
圖2 顯示了SRC、GSRC 和MSRC 在不同PCA維數(shù)下的識別率,十字形標(biāo)記線條表示的是MSRC的識別性能與量化參數(shù)的關(guān)系曲線.由圖可知,文中提出的MSRC 最高識別率為100%,高于SRC 的97.500%和GSRC 的98.438%.Extend Yale B 人臉庫由于只受光照變化,而相位基本不受光照影響,所以文中算法能夠獲得非常好的效果.從圖中可見并不是PCA 維數(shù)越高,識別效果越好,這表明利用PCA 與LDA 聯(lián)合降維時,并不是所有的特征向量都是有效的投影方向,過多特征向量往往會影響最終的識別效果.
圖2 在Extend Yale B 上的識別率Fig.2 Recognition rate on the Extend Yale B
圖3 顯示了不同算法在Extend Yale B 上的運行時間,白色直方圖表示的是MSRC 算法在庫中所有測試圖像的識別時間,其長度明顯矮于GSRC 算法的直方圖,說明此算法能以較短的時間來完成身份的識別.
圖3 在Extend Yale B 上的時間表現(xiàn)Fig.3 Time performance on the Extend Yale B
AR 人臉庫包含有100 人,每個人有14 幅人臉圖像,不僅具有光照變化,還有表情的變化.將圖像尺寸從165 ×120 歸一化到80×59,并從中選取50%作訓(xùn)練樣本,剩余作為測試樣本.這里仍采用PCA 與LDA 聯(lián)合方式進(jìn)行降維.值得注意的是,由于LDA 的默認(rèn)維數(shù)與訓(xùn)練樣本類數(shù)一致,因此PCA降維的維數(shù)應(yīng)不小于100.PCA 的維數(shù)分別取100、120、140、160、180、200、220、240、300.
圖4 顯示了SRC、GSRC 和MSRC 在AR 庫上的識別率,文中提出的MSRC 雖然最高識別率與GSRC 一致,都為97.143%,但是整體平均識別率高于GSRC.
圖4 在AR 庫上的識別率Fig.4 Recognition rate on the AR
圖5 顯示了不同算法在AR 庫上的運行時間,從圖中可看出文中所提算法雖然時間也很長,但是相對其它兩種算法依然是最優(yōu)的.
圖5 在AR 庫上的時間表現(xiàn)Fig.5 Time performance on the AR
現(xiàn)實中所獲得的訓(xùn)練樣本數(shù)量往往受限,這就需要在稀疏表示中獲得一個較魯棒的字典.基于此,文中將單演信號理論引入到稀疏表示的人臉識別中,通過提取圖像的局部能量、局部結(jié)構(gòu)、局部幾何信息作為特征字典應(yīng)用于稀疏表示分類中.在Extend Yale B 和AR 上分別進(jìn)行仿真實驗,提出的MSRC 在速度和識別率上都高于GSRC,從而驗證了文中算法的有效性.
[1]Tan Xiao-yang,Triggs Bill.Enhanced local texture feature sets for recognition under difficult lighting conditions[J].Image Processing,2010,19(6):1635-1650.
[2]Turk M,Pentland A.Eigenfaces for recognition[J].Journal of Cognitive Neuroscience,1991,13(1):71-86.
[3]Belhumeur P,Hespanha J,Kriegman D.Egienfaces vs fisherfaces:recognition using class specific linear projection[J].IEEE Transaction on Pattern Analysis Machine Intelligence,1997,19(7):711-720.
[4]He X,Yan S,Hu Y,et al.Face recognition using laplacianfaces[J].IEEE Transaction on Pattern Analysis Machine Intelligence,2005,27(3):328-340.
[5]Liu C,Wechsler H.Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition[J].IEEE Transaction on Image Processing,2002,11(4):467-476.
[6]HeiseleB,HoP.Face recognition with support vector machine:global versus component-based approach [C]∥Proceedings of the Eighth International Conference on Computer Vision.Vancouver,BC:ICCV,2001:688-694.
[7]Wright J,Yang A Y,Ganesh A,et al.Robust face recognition via sparse representation[J].IEEE TPAMI,2008,31(2):210-227.
[8]Zhang L,Yang M,F(xiàn)eng X.Sparse representation or collaborative representation:which helps face recognition?[C]∥Proceedings of IEEE Conference on Computer Vision.Barcelona:IEEE,2011:471-478.
[9]Yang M,Zhang L,Yang J,et al.Robust sparse coding for face recognition[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Hong Kong:IEEE,2011:625-632.
[10]Wagner A,Wright J,Ganesh A,et al.Robust alignment and illumination by sparse representation [J].IEEE Transactions on Pattern Recognition Analysis and Machine Intelligence,2012,34(2):372-386.
[11]Yang M,Zhang L.Gabor feature based sparse representation for face recognition with Gabor occlusion dictionary[C]∥Proceedings of European Conference on Computer Vision.Berlin:IEEE,2010:448-461.
[12]Zhang W,Shan S,Gao W,et al.Local gabor binary pattern histogram sequence(LGBPHS):a novel nonstatistical model for face representation and recog-nition [C]∥Proceedings of IEEE International Conference on Computer Vision.Hong Kong:IEEE,2005:786-791.
[13]Zhang B,Shan S,Chen X,et al.Histogram of gabor phase patterns(HGPP):a hovel object representation approach for face recognition [J].IEEE Transaction on Image Processing,2006,16(1):57-68.
[14]Felsberg M,Sommer G.The monogenic signal[J].IEEE Transaction on Signal Processing,2001,49(12):3136-3144.
[15]Yang M,Zhang L,Zhang L,et al.Monogenic binary pattern (MBP):a novel feature extraction and representation model for face recognition[C]∥Proceedings of the 20th International Conference on Pattern Recognition.Piscataway,NJ:IEEE,2010:2680-2683.
[16]Yang M,Zhang L,Shiu S,et al.Monogenic binary coding:an efficient local feature extraction approach to face recognition[J].IEEE Transaction on Information Forensics and Security,2012,7(6):1738-1751.
[17]Donoho David L.For most large underdetermined systems of linear equations,the minimal Linorm solution is also the sparsest solution[J].Communication on Pure and Applied Math,2006,59(6):797-829.
[18]Fischer S V,Sroubek F,Perrinet L,et al.Self-Invertible 2D Log-Gabor wavelet[J].International Journal of Computer Vision ,2007,75(2):231-246.
[19]Field D J.Relations between the statistics of natural images and the response properties of cortical cells [J].Journal of the Optical Society of American,1987,4(12):2379-2394.