摘 要:本文對稀疏表示分類人臉識別方法進(jìn)行了綜述,著重探討了其中的稀疏分解算法、字典學(xué)習(xí)、分類器設(shè)計三方面內(nèi)容。最后,本文對稀疏表示分類人臉識別方法進(jìn)行了總結(jié),并指出需要進(jìn)一步研究的問題。
關(guān)鍵詞:稀疏表示;稀疏分解;字典學(xué)習(xí);分類器設(shè)計;人臉識別
中圖分類號:TP391.41
由于人臉識別具有方便友好、易于接受、不易偽造等特點,被廣泛用于身份識別、視頻檢索、安全監(jiān)控等領(lǐng)域,是當(dāng)前模式識別與人工智能領(lǐng)域的一個研究熱點。雖然人臉圖像具有很高的維度,但它可能位于一個低維子空間或流形上。因此,國內(nèi)外學(xué)者提出了很多子空間學(xué)習(xí)方法來提取人臉圖像的特征,并采用最近鄰分類器或支持向量機實現(xiàn)對人臉圖像的識別。雖然這些子空間學(xué)習(xí)方法在人臉識別領(lǐng)域得到了成功的應(yīng)用,然而,在人臉圖像受噪聲污染或局部有一定程度遮擋的情況下,基于子空間學(xué)習(xí)的人臉識別方法性能不佳。
隨著壓縮感知理論和L1范數(shù)最優(yōu)化技術(shù)的發(fā)展,近年來稀疏表示受到了國內(nèi)外眾多學(xué)者的關(guān)注。在稀疏表示下,一個信號可以表示為給定字典原子的最稀疏線性組合。研究表明,稀疏表示模型與人類視覺系統(tǒng)的原理非常類似[1]。因此,近年來稀疏表示被廣泛應(yīng)用于圖像去噪、恢復(fù)、理解等計算機視覺領(lǐng)域。2009年,John Wright等人[2]將稀疏表示應(yīng)用到人臉識別領(lǐng)域,在人臉圖像受噪聲污染或局部有一定程度遮擋的情況下,取得了較好的識別效果。由此以來,基于圖像稀疏表示的人臉識別方法受到了眾多關(guān)注?;谙∈璞硎镜娜四樧R別方法的流程如圖1所示。研究主要集中在稀疏分解算法、字典學(xué)習(xí)、分類器設(shè)計三個方面。
1 稀疏分解分解算法
迄今為止,國內(nèi)外學(xué)者已經(jīng)提出了很多有效的稀疏分解算法,大致可以分為兩類:貪婪追蹤算法與松弛優(yōu)化算法,如圖2所示。貪婪追蹤算法的主要思想是通過特定的度量準(zhǔn)則從字典中逐次選擇最有用的原子構(gòu)建逼近數(shù)據(jù)。目前主要有匹配追蹤(Matching Pursuit,MP)[3]、正交匹配追蹤(Orthogonal Matching Pursuit,OMP)[4]、階梯正交追蹤(StOMP)[5]、梯度追蹤[6]等貪婪追蹤算法。松弛優(yōu)化算法的主要思想是將非凸的L0范數(shù)替換為凸的或者更容易求解的稀疏性度量函數(shù),然后用凸規(guī)劃方法或非線性規(guī)劃問題來逼近求解原組合優(yōu)化問題。
2 字典學(xué)習(xí)
字典設(shè)計是稀疏表示分類人臉識別方法中的一個重要研究內(nèi)容,能否對人臉圖像稀疏表示本質(zhì)上取決于字典的性能。字典中的原子與人臉結(jié)構(gòu)越匹配,越容易形成簡潔的稀疏表示。目前在字典學(xué)習(xí)方面的研究,大致可分為無監(jiān)督字典學(xué)習(xí)、判別字典學(xué)習(xí)和字典原子選擇三類。
2.1 無監(jiān)督字典學(xué)習(xí)
無監(jiān)督字典學(xué)習(xí)通過訓(xùn)練學(xué)習(xí)逐步產(chǎn)生字典,獲得的字典原子可以與訓(xùn)練樣本圖像結(jié)構(gòu)最大程度的匹配。Engande等人在1999年提出了最優(yōu)字典MOD[7]學(xué)習(xí)算法,該算法通過對圖像樣本集的訓(xùn)練得到字典。該字典中的原子與簡單細(xì)胞感受特性極為相似,具有類Gabor特性,并且更新字典的方法比較簡單,但由于在字典更新過程中涉及到逆矩陣問題,計算復(fù)雜度較高。Aharon等人在2006年提出了K-SVD算法[8],該算法可以從圖像訓(xùn)練樣本集中學(xué)習(xí)到適合表示圖像語義結(jié)構(gòu)的過完備字典。2008年,SeZer等人提出的稀疏正交變換思想[9]是將自然圖像結(jié)構(gòu)按某一特征聚類,然后對每類單獨選連出一個正交字典。Rubinstein等人在2010年提出了雙稀疏性字典學(xué)習(xí)算法[10],該算法假設(shè)字典原子本身包含一定的結(jié)構(gòu)信息,因此還可以由某個已知的基字典稀疏表示,從而獲得了自適應(yīng)性更強的字典。2011年,Thiagarajan等人提出了分層字典[11]的思想,把對稀疏表示貢獻(xiàn)最多的原子分布在字典的第一層,貢獻(xiàn)較少的原子分在后面層次中,其收斂性與運算效率均優(yōu)于K-SVD。Labusch等人用隨機梯度下降法學(xué)習(xí)過完備字典[12],該算法與K-SVD相比,由于不需要進(jìn)行奇異值分解,運算速度更快。同時,由于該算法的字典學(xué)習(xí)是在線進(jìn)行的,尤其適用于訓(xùn)練樣本很多的情況。
2.2 判別字典學(xué)習(xí)
為了更好地采用稀疏表示解決人臉識別問題,近年來有學(xué)者開始進(jìn)行判別字典學(xué)習(xí)方法的研究。Mairal等人[13]通過在字典學(xué)習(xí)模型中引入判別重建約束項來提高字典的判別力。隨后,他們又提出有監(jiān)督字典學(xué)習(xí)方法[14],并將其用于數(shù)字識別和紋理分類。Yang等人和Pham等人提出分類器和字典聯(lián)合學(xué)習(xí)方法[15],以達(dá)到稀疏編碼更具判別力和獲得最佳分類器參數(shù)的雙重目的。上述方法都試圖學(xué)習(xí)到一個所有類公用的判別字典,同時用訓(xùn)練好的分類器對圖像的稀疏編碼進(jìn)行分類。然而,所有類公用的判別字典會丟失類別標(biāo)簽與字典原子的對應(yīng)關(guān)系,從而使基于指定類重構(gòu)誤差的分類器在最終分類時不可用。鑒于此,Jiang等人通過將字典原子與類別標(biāo)簽關(guān)聯(lián)起來,提出一種標(biāo)簽一致性K-SVD判別字典方法[16]。Yang等人提出針對每類樣本都學(xué)習(xí)一個指定類子字典的結(jié)構(gòu)化字典學(xué)習(xí)方法[17],并將其用于人臉識別,取得了不錯的識別效果。為了在得到判別字典的同時,提高圖像稀疏編碼的判別力,Yang等人又在結(jié)構(gòu)化字典學(xué)習(xí)模型中引入了編碼系數(shù)的Fisher判別項,提出一種Fisher判別字典學(xué)習(xí)方法[18]。另外,Ramirez等人[19]在結(jié)構(gòu)化字典學(xué)習(xí)模型中引入不連貫性增強項,使學(xué)習(xí)到的指定類子字典間盡可能的相互獨立。Zhou等人提出一種聯(lián)合字典學(xué)習(xí)方法[20],同時得到一個所有類公用的字典和多個指定類字典。研究表明,當(dāng)樣本圖像受較大稀疏噪聲污染時,采用上述方法學(xué)習(xí)到的判別字典來重構(gòu)樣本圖像,重構(gòu)誤差較大[21]。為了解決這一問題,Ma等人基于低秩恢復(fù)和填充技術(shù)[22],從受污染樣本圖像分離出“干凈”圖像和稀疏噪聲,提出了一種判別低秩字典學(xué)習(xí)方法[23],并將其用于人臉識別,取得了不錯的識別效果。研究發(fā)現(xiàn),字典的過完備性會導(dǎo)致圖像稀疏編碼“局部性”丟失,即相似度很高的兩幅圖像在過完備字典下的稀疏編碼截然不同[24]。從這個層面來說,圖像在常規(guī)過完備字典下的稀疏編碼判別力很弱[25]。為保持圖像稀疏編碼的“局部性”不變,從而提高圖像稀疏編碼的判別力,Gao等人提出了Laplacian稀疏編碼方法[26],Zheng等人提出圖稀疏編碼方法[27]。
2.3 字典原子選擇
近年來,有學(xué)者就這一問題進(jìn)行了嘗試性的研究。Mazhar等通過在K-SVD字典學(xué)習(xí)過程中采用競爭聚集算法逐步地移除較少使用的原子和相關(guān)性較高原子,提出一種EK-SVD最優(yōu)字典設(shè)計方法[28]。Feng等人提出一種減法聚類K-SVD方法[29],該方法是通在K-SVD字典學(xué)習(xí)過程中采用減法聚類去除冗余原子而獲得最優(yōu)字典的。后來,他們還提出了首先基于樣本圖像進(jìn)行子空間分割,然后通過從不同子空間中提取相似特征的方法來構(gòu)造最優(yōu)字典的方法[30]。Cevher等人提出了采用貪婪算法從候選字典中選擇原子的方法[31]。
3 分類器設(shè)計
分類器設(shè)計是模式識別的關(guān)鍵環(huán)節(jié)。稀疏表示分類器設(shè)計,是用稀疏表示解決人臉問題時的一個重要研究內(nèi)容。自從John Wright等人提出基于稀疏表示的分類器(Sparse Representation based Classifier,SRC)[2]以來,國內(nèi)外學(xué)者對稀疏表示分類器設(shè)計問題進(jìn)行了初步的研究。具體來說,有學(xué)者在學(xué)習(xí)字典的同時進(jìn)行分類器訓(xùn)練,然后用得到分類器對人臉圖像稀疏編碼進(jìn)行分類[16-20]。另一方面,在獲得多個指定類字典的前提下,有學(xué)者根據(jù)人臉測試圖像在不同類字典下的重構(gòu)誤差進(jìn)行分類[2,21],取得了比較好的分類效果。在采用重構(gòu)誤差基礎(chǔ)上,有學(xué)者進(jìn)一步考慮了人臉圖像稀疏編碼的判別性,從而設(shè)計出了分類效果更好的分類器[25,3]。值得一提的是,楊健教授等人研究發(fā)現(xiàn),測試數(shù)據(jù)稀疏編碼的L1范數(shù)是該數(shù)據(jù)到支撐它樣本數(shù)據(jù)均值的L1距離,并基于此設(shè)計了類關(guān)聯(lián)L1優(yōu)化分類器[26]。該研究成果為稀疏表示分類器的進(jìn)一步研究提供了新的思路。
4 總結(jié)與展望
近年來,國內(nèi)外學(xué)者在稀疏分解算法、字典學(xué)習(xí)、分類器設(shè)計等方面進(jìn)行了較深入的研究,研究成果推動了基于稀疏表示的人臉識別的發(fā)展,但是其中尚有諸多問題有待深入研究和解決。具體而言:(1)當(dāng)前絕大多數(shù)字典學(xué)習(xí)方法需要在人臉樣本圖像充足這一假設(shè)前下,才能獲得有效的過完備判別字典。在實際人臉識別系統(tǒng)中,采集到的人臉圖像樣本通常是比較少的。因此,在樣本不足的情況下,如何學(xué)習(xí)到具有較強判別力的過完備字典,是基于稀疏表示的人臉識別中需要深入研究的一個問題;(2)當(dāng)前稀疏表示在過完備字典下編碼會丟失“局部性”信息。因此,需要對字典學(xué)習(xí)方法進(jìn)一步研究,構(gòu)造合適的判別字典學(xué)習(xí)模型,使圖像在該字典下的稀疏編碼不但能保持“局部性”不變,而且具有很好的判別性能,從而更適用于解決人臉識別問題;(3)有必要對稀疏表示分類器進(jìn)一步深入研究,在綜合考慮人臉圖像稀疏編碼和重構(gòu)誤差的基礎(chǔ)上,采用合適的方法設(shè)計高效的稀疏表示分類器以實現(xiàn)人臉識別。
參考文獻(xiàn):
[1]W.E.Vinje,J.L Gallant.Sparse coding and decorrelation in primary visual cortex during natural vision[J].Science,2000(5456):1273-1276.
[2]J.Wright,A.Y.Yang,A.Ganesh,et al.Robust face recognition via sparse representation[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2009(02):210-227.
[3]S.G.Mallat,Z.Zhang.Matching pursuits with time-frequency dictionaries[J].IEEE Trans.Signal Processing,1993(12):3397-3415.
[4]Y.C.Pati,R.Rezaiifar,P.S.Krishnaprasad.Orthogonal matching pursuit:Recursive function approximation with applications to wavelet decomposition[J].Proc.27th Annu.Asilo mar Conference on Signals,Systems and Computers,1993:40-44.
[5]D.L.Donoho,Y.Tsaig,I.Drori,et al.Sparse solution of underdetermined linear equations by stagewise orthogonal matching pursuit[R].Tech.Rep.2006-2,Department of Statistics,Stanford University,2006.
[6]T.Blumensath,M.Davis.Gradient pursuits[J].IEEE Trans.Signal Processing,2008(06):2370-2382.
[7]A.Y.Yang,S.S.Sastry,A.Ganesh.A review of Fas l1-minimization algorithms and an application in robust face recognition[J].IEEE ICIP,2010.
[8]徐建,常志國.基于聚類的自適應(yīng)圖像稀疏表示算法及應(yīng)用[J].光子學(xué)報,2011(02):32-28.
[9]高磊,陳曾平.基于代理函數(shù)優(yōu)化的稀疏性字典學(xué)習(xí)[J].電子學(xué)報,2011(12):38-44.
[10]K.Labusch,E.Barth,T.Martinetz.Robust and fast learning of sparse codes with stochastic gradient descent[J].IEEE Trans.Selected Topics in Signal Processing,2011(05):1048-1060.
[11]J.Mairal,F(xiàn).Bach,J.Ponce,et al.Discriminative learned dictionaries for local image analysis[J].Proc.CVPR,2008.
[12]J.Mairal,F(xiàn).Bach,J.Ponce,et al.Supervised dictionary learning[J].Proc.NIPS,2009.
[13]L.Yang,R.Jin,R.Sukthankar,et al.Unifying discriminative visual codebook generation with classifier training for object category recognition[J].Proc.CVPR,2008.
[14]D.Pham,S.Venkatesh.Joint learning and dictionary construction for pattern recognition[J].Proc.CVPR,2008.
[15]Q.Zhang,B.X.Li.Discriminative K-SVD for dictionary learning in face recognition[J].Proc.CVPR,2010:2691-2698.
[16]Z.Jiang,Z.Lin,L.S.Davis.Learning a discriminative dictionary for sparse coding via label consistent K-SVD[J].Proc.CVPR,2011:1697-1704.
[17]M.Yang,L.Zhang,J.Yang,et al.Metaface learning for sparse representation based face recognition[J].Proc.ICIP,2010:1601-1604.
[18]M.Yang,L.Zhang,X.Feng,et al.Fisher discrimination dictionary learning for sparse representation[J].Proc.ICCV,2011:543-550.
[19]I.Ramirez,P.Sprechmann,G.Sapiro.Classification and clustering via dictionary learning with structured incoherence and shared features [J].Proc.CVPR,2010:3501-3508.
[20]N.Zhou,Y.Shen,J.Y.Peng,et al.Learning Inter-related visual dictionary for object recognition[J].Proc.CVPR,2012:3490-3497.
[21]L.Ma,C.Wang,B.Xiao,et al.Sparse representation for face recognition based on discriminative low-rank dictionary learning[J].Proc.CVPR,2012:2586-2593.
[22]J.Cai,E.Candes,Z.Shen.A singular value thresholding algorithm for matrix completion[J].SIAM Journal of Optimization,2010(04):1956-1982.
[23]S.Gao,I.Tsang,L.T.Chia.Laplacian sparse coding,hypergraphlaplacian sparse coding,and applications[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2013(01):92-104.
[24]M.Zheng,J.Bu,C.Chen,et al.Graph regularized sparse coding for image representation[J].IEEE Trans.Image Processing,2011(05):1327-1336.
[25]R.Mazhar,P.D.Gader.EK-SVD:Optimized dictionary design for sparse representations[J].Poc.19th Int.Conf.Pattern Recognition,2008:1-4.
[26]J.Feng,L.Song,X.Yang,et al.Sub clustering K-SVD:Size variable dictionary learning for sparse representations[J].Proc.16th IEEE Int.Conf.Image Processing,2009:2149-2152.
[27]J.Feng,L.Song,X.Yang,et al.Learning dictionary via subspace segmentation for sparse representation[J].Proc.18th IEEE Int.Conf.Image Processing,2011:1245-1248.
[28]L.Rebollo-Neira.Dictionary redundancy elimination[J].IEEE Proc.Vision,Image and Signal Processing,2004(01):31-34.
[29]V.Cevher,A.Krause.Greedy dictionary selection for sparse representation[J].IEEE Journal Selected Topics in Signal Processing,2011(05):979-988.
[30]C.Rusu,B.Dumitrescu.Stagewise K-SVD to design efficient dictionaries for sparse representation[J].IEEE Signal processing letters,2012(10):631-634.
[31]J.Yang,L.Zhang,Y.Xu,et al.Beyond sparsity:The role of L1-optimizer in pattern classification[J].Pattern Recognition,2012(03):1104-1118.
作者簡介:侯彥東(1971.12-),男,河南杞縣人,博士,副教授,主要研究方向為故障診斷、復(fù)雜系統(tǒng)安全性預(yù)測。
作者單位:河南大學(xué) 計算機與信息工程學(xué)院,河南開封 475004
基金項目:國家自然科學(xué)基金(項目編號:61374134,61300214,60974062)。