廖海斌,邱益鳴,陳慶虎
(1.湖北科技學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 咸寧 437100;2.武漢大學(xué) 電子信息學(xué)院,湖北 武漢 430072)
基于稀疏表示的人臉姿態(tài)估計(jì)研究
廖海斌1,邱益鳴2,陳慶虎2
(1.湖北科技學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 咸寧 437100;2.武漢大學(xué) 電子信息學(xué)院,湖北 武漢 430072)
針對(duì)人臉光照、遮擋、身份、表情等因素變化的人臉姿態(tài)估計(jì)難題,結(jié)合稀疏表示分類(SRC)方法的優(yōu)秀識(shí)別性能,對(duì)SRC理論進(jìn)行了深入分析,并將其應(yīng)用于人臉姿態(tài)分類。為了解決姿態(tài)估計(jì)中人臉光照、噪聲和遮擋變化問題,將人臉姿態(tài)離散化為不同的子空間,每個(gè)子空間對(duì)應(yīng)一個(gè)類別,據(jù)此,提出基于字典學(xué)習(xí)與稀疏約束的人臉姿態(tài)識(shí)別方法。通過在公開的XJTU和PIE人臉庫(kù)上實(shí)驗(yàn)表明:所研究的方法對(duì)人臉光照、噪聲和遮擋變化具有魯棒性。
人臉姿態(tài)估計(jì);稀疏表示;子空間學(xué)習(xí);人臉識(shí)別
人臉識(shí)別研究經(jīng)歷半個(gè)多世紀(jì)的發(fā)展,理論研究也接近成熟。目前人們逐漸將研究目光轉(zhuǎn)向人臉分析(人臉姿態(tài)、表情、性別和年齡分析等)研究。其中,人臉姿態(tài)估計(jì)就是根據(jù)圖像確定人臉在三維空間中姿態(tài)參數(shù)的過程。人臉姿態(tài)估計(jì)在智能視頻分析、人臉識(shí)別、人機(jī)交互和虛擬現(xiàn)實(shí)領(lǐng)域具有巨大的應(yīng)用前景。
可以將現(xiàn)有的人臉姿態(tài)估計(jì)算法大概分為三類:子空間分析方法、3D方法、其他類特殊方法。第一類方法通過對(duì)人臉紋理信息進(jìn)行子空間分析獲取具有鑒別性的低維特征向量,然后采用成熟的分類器(距離分類器,支持向量機(jī)等)進(jìn)行分類識(shí)別。因此,此類方法的重點(diǎn)與關(guān)鍵在于特征的提取與降維。其中,比較典型的有主成份分析(PCA)[1],線性判別(LDA)[2],獨(dú)立子空間分析方法[3]等。由于PCA是一種線性降維方法,而人臉的光照、表情、年齡和個(gè)體的變化導(dǎo)致人臉姿態(tài)呈現(xiàn)出非線性變化。因此,研究者們又提出使用核主成份分析(KPCA)[4],流型學(xué)習(xí)方法[5]等解決這種非線性變化問題。不盡人意的是,核方法和流型學(xué)習(xí)方法相對(duì)復(fù)雜,同時(shí)隨著人臉訓(xùn)練樣本增加,其分類能力將變?nèi)?。綜上,第一類方法具有處理速度快和容易實(shí)現(xiàn)的特點(diǎn)。但同時(shí)需要通過大量樣本的訓(xùn)練,對(duì)人臉的光照、表情等變化較為敏感。
第二類方法試圖利用三維人臉結(jié)構(gòu)空間信息進(jìn)行人臉姿態(tài)估計(jì)。這類方法往往需要利用三維重建技術(shù)或是使用三維掃描儀器獲取三維人臉模型,然后利用3D模型的任意旋轉(zhuǎn)性在三維空間實(shí)現(xiàn)人臉姿態(tài)估計(jì)[6-8]。此類方法由于充分利用了人臉3D模型,更接近于現(xiàn)實(shí)中頭部本質(zhì)。因此,取得了不錯(cuò)的準(zhǔn)確率。但是,這類方法往往對(duì)圖像的大小、數(shù)量和質(zhì)量要求很高,并且實(shí)時(shí)和實(shí)用性不高。特別地,視頻監(jiān)控中的超低分辨率和遮擋人臉圖像效果將急驟下降。
光照、噪聲、遮擋、分辨率、身份、表情等因素的變化都會(huì)對(duì)姿態(tài)估計(jì)的準(zhǔn)確性產(chǎn)生巨大的影響,如何消除這些因素的影響是目前亟需解決的問題。針對(duì)以上問題,本文提出基于稀疏表示的人臉姿態(tài)估計(jì)方法,解決人臉姿態(tài)估計(jì)中的光照、噪聲和遮擋等問題。
實(shí)驗(yàn)表明:基于稀疏表示的分類方法(SRC)具有很強(qiáng)的鑒別能力,特別是在人臉識(shí)別領(lǐng)域[12- 13]。但是這種方法存在的一個(gè)最大問題是對(duì)人臉姿態(tài)變化非常敏感[14]。這是因?yàn)椋?)SRC方法是基于線性組合的思想,線性組合要求基底對(duì)象之間是稠密對(duì)應(yīng)關(guān)系,而人臉的姿態(tài)變化會(huì)導(dǎo)致人臉之間形成錯(cuò)位的現(xiàn)象;2)研究學(xué)者們發(fā)現(xiàn),來自不同人的兩幅人臉圖像之間的相似度比來自同一個(gè)人的不同姿態(tài)條件下的兩幅人臉圖像之間的相似度還要大。
以上兩點(diǎn)原因分別從SRC本質(zhì)和人臉圖像本質(zhì)上分析了姿態(tài)變化對(duì)基于SRC的人臉識(shí)別的影響。如圖1所示,待測(cè)正臉由其相對(duì)應(yīng)類別樣本的線性組合表示(圖中矩形框),根據(jù)其非0組合系數(shù)可以對(duì)待測(cè)人臉進(jìn)行正確分類。但是當(dāng)待測(cè)樣本是有姿態(tài)變化的側(cè)臉時(shí),其非0系數(shù)就可能會(huì)分布在與待測(cè)人臉具有相同姿態(tài)的樣本中(見圖2矩形框)。因此,圖2所示情況為進(jìn)行人臉姿態(tài)估計(jì)提供了理論支持,也就是說只要將人臉姿態(tài)離散化后,采集每個(gè)姿態(tài)空間下足夠多的人臉圖像作為完備字典,然后通過稀疏約束的方法就能進(jìn)行姿態(tài)的正確估計(jì)。
圖1 基于稀疏表示的正臉識(shí)別示例
圖2 基于稀疏表示的側(cè)臉識(shí)別示例
SRC在本質(zhì)上等價(jià)于“全局分解”和“局部重構(gòu)”的結(jié)合利用。即一方面從“全局分解”過程中得到樣本的稀疏表示;另一方面又根據(jù)“局部重構(gòu)”誤差對(duì)測(cè)試樣本進(jìn)行分類。然而,一個(gè)潛在的困難在于,實(shí)現(xiàn)中很難獲取“足夠多”的訓(xùn)練樣本。因此,SRC常常面臨著“小樣本”問題,影響其分類性能。而基于SRC的姿態(tài)分類方法卻能克服“小樣本”問題。因?yàn)槿绻麑⑷四樧藨B(tài)離散化為19類,每類包含100個(gè)人臉圖像樣本,總共也只需1 900個(gè)樣本,這在現(xiàn)實(shí)中很容易滿足。因此,基于SRC的姿態(tài)分類不構(gòu)成“小樣本”問題。
1.1 人臉姿態(tài)稀疏表示
首先,將人臉姿態(tài)以10°(角度可以根據(jù)需要設(shè)定)偏轉(zhuǎn)為間隔進(jìn)行離散化,把人臉姿態(tài)化分為19種視點(diǎn)(以人臉左右偏轉(zhuǎn)為例);然后,將第i(i=1,2,…,19)類姿態(tài)訓(xùn)練樣本用特征向量矩陣表示為:Ai=[Si,1,Si,2,…,Si,ni]∈Rm×ni。其中,Si,1是第i類姿態(tài)中第1個(gè)人臉的特征向量;ni表示第i類姿態(tài)樣本數(shù)目;m表示樣本維數(shù)。根據(jù)線性組合原理,如果第i類姿態(tài)樣本足夠多,那么來自此類的測(cè)試樣本y可以由第i類姿態(tài)樣本的線性組合表示
y=ai,1Si,1+ai,2Si,2+…+ai,niSi,ni
(1)
其中,ai為線性組合系數(shù)。由于測(cè)試樣本y所屬的姿態(tài)類別未知,因此定義一個(gè)由19類訓(xùn)練樣本集組成的完備字典A
A=[A1,A2,…,A19]=[S1,1,S1,2,…,S19,n19]
(2)
那么測(cè)試樣本y可以重寫成完備字典A的線性組合
y=Ax∈Rm
(3)
其中,x=[0,…0,ai,1,ai,2,…,ai,ni,0,…,0]∈Rn是一個(gè)非常稀疏的系數(shù)向量。理論上,如果y屬于第i類姿態(tài),那么x的非0項(xiàng)全部集中在第i項(xiàng)。因此,根據(jù)x可以得到測(cè)試樣本y的姿態(tài)類別。其識(shí)別情況如圖3所示。
圖3 基于SRC人臉姿態(tài)分類識(shí)別
1.2 人臉姿態(tài)識(shí)別
從上節(jié)可以看出,系數(shù)向量x隱含著待測(cè)樣本y的姿態(tài)信息。因此,人臉姿態(tài)估計(jì)問題變成了y=Ax的求解問題。如果m>n,方程組將是over-determined,x有唯一的解或無解。如果m (4) 針對(duì)式(4)的最優(yōu)化求解目前有許多成熟方案可供選擇。 (5) 上節(jié)從理論上分析了基于稀疏表示的姿態(tài)分類方法的可行性并論述了整個(gè)姿態(tài)估計(jì)流程,本節(jié)將利用XJTU[16]與PIE[17]人臉庫(kù)驗(yàn)證本文提出的人臉姿態(tài)估計(jì)算法的有效性。 XJTU人臉庫(kù):本文從XJTU上挑選相同光照條件下130人的姿態(tài)圖像進(jìn)行實(shí)驗(yàn),其中100人用作訓(xùn)練,剩下30人用作測(cè)試,每人包括9幅不同姿態(tài)圖像(從19張視點(diǎn)圖像中間隔選取),圖4為實(shí)驗(yàn)人臉數(shù)據(jù)庫(kù)圖例。 圖4 XJTU人臉庫(kù)像示例 同時(shí),對(duì)測(cè)試圖像進(jìn)行加噪聲和遮擋的操作,以比較各方法對(duì)圖像噪聲和遮擋的魯棒性,圖像加0均值的加性高斯噪聲,噪聲強(qiáng)度分別為σ=0.01和σ=0.03像素。圖5為人臉圖像加噪和遮擋的示例樣本。 PIE人臉數(shù)據(jù)庫(kù):該數(shù)據(jù)庫(kù)在沿y軸上將人臉按左右旋轉(zhuǎn)分為9個(gè)不姿態(tài)類別,變化范圍為-90°~90°,如圖6所示。由于該數(shù)據(jù)庫(kù)每種姿態(tài)都有光照變化,因此,本文使用該人臉姿態(tài)庫(kù)驗(yàn)證算法對(duì)光照的魯棒性。 圖5 人臉圖像噪聲和遮擋示例樣本 圖6 PIE人臉庫(kù)示例 為了比較各方法對(duì)人臉圖像光照、噪聲和遮擋的魯棒性,本文首先對(duì)所有訓(xùn)練圖像進(jìn)行手動(dòng)對(duì)齊歸一化處理;然后在有光照、噪聲和遮擋的待測(cè)圖像上進(jìn)行人臉姿態(tài)判別,分別統(tǒng)計(jì)不同姿態(tài)的識(shí)別準(zhǔn)確率,得到的實(shí)驗(yàn)結(jié)果見圖7~11。實(shí)驗(yàn)時(shí),每類姿態(tài)進(jìn)行10次實(shí)驗(yàn),所有實(shí)驗(yàn)均重復(fù)10次,統(tǒng)計(jì)其平均識(shí)別率。 圖7 基于XJTU的不同姿態(tài)分類方法比較(無噪聲) 圖8 基于XJTU的不同姿態(tài)分類方法比較(有噪聲σ=0.01) 圖9 基于XJTU的不同姿態(tài)分類方法比較(有噪聲σ=0.03) 圖10 基于XJTU的不同姿態(tài)分類方法比較(有遮擋) 圖11 基于PIE的不同姿態(tài)分類方法比較(有光照變化) 從圖7可以看出:圖像無光照、噪聲和遮擋變化時(shí),3種方法都能得到很好的效果。但是當(dāng)圖像有光照、噪聲和遮擋的情況后,尤其是圖像有遮擋以后,基于 PCA 和 LDA 的姿態(tài)判別方法性能下降很快(見圖10)。從圖8,9,10和11可以看出:SRC的方法受人臉圖像噪聲、遮擋和光照的影響較小,能夠達(dá)到比較好的姿態(tài)判別結(jié)果。因此,本文提出的SRC人臉姿態(tài)估計(jì)方法對(duì)人臉光照、噪聲和遮擋變化具有魯棒性。 為了進(jìn)一步說明本文算法的性能,表1給出了幾種算法的平均運(yùn)行時(shí)間比較結(jié)果(配置為:HP Core i3 M330 2.13 GHz/內(nèi)存2 Gbyte, MATLAB 7.0)。 表1 運(yùn)行時(shí)間比較 ms 從表1中可以看出:雖然本文算法的運(yùn)行時(shí)間多于線性子空間方法,但并不影響其在應(yīng)用中的實(shí)時(shí)性。但是,本文算法對(duì)人臉遮擋和光照變化的魯棒性是線性子空間方法所不能比擬的。 經(jīng)過研究發(fā)現(xiàn),人臉姿態(tài)分類和人臉識(shí)別具有“異曲同工”之妙,為此,本文提出基于稀疏表示的人臉姿態(tài)分類方法。本方法不但具有稀疏表示人臉識(shí)別方法(SRC)中對(duì)光照和遮擋的魯棒性,同時(shí)還能克服SRC中的“小樣本”問題和“稠密對(duì)應(yīng)”問題。因此,相比于人臉識(shí)別問題,基于稀疏表示的分類方法更適合于姿態(tài)識(shí)別問題。 [1] SRINIVASAN S, BOYER K L. Head pose estimation using view based eigenspaces [C]// Proc. 16th International Conference on Pattern Recognition. [S.l.]:IEEE Press,2002:302-305. [2] 王華青.基于局部幾何結(jié)構(gòu)的人臉圖像姿態(tài)估計(jì)[D].西安:西安電子科技大學(xué),2013. [3] LIS Z. Learning multi-view face subspaces and facial pose estimation using independent component analysis [J]. IEEE Trans. Image Process,2005,14(6):705-712. [4] WU J, TRIVEDI M M. A two-stage head pose estimation framework and valuation [J]. Pattern Recognition,2008,41(5):1138-1158. [5] CHEN L, ZHANG L, HU Y M, et al. Head pose estimation using fisher manifold learning [C]// Proc. IEEE International Workshop on Analysis and Modeling of Faces and Gestures. [S.l.]:IEEE Press,2003: 203-207. [6] JIMéNEZ P, NUEVO J, BERGASA L, et al. Face tracking and pose estimation with automatic three-dimensional model construction [J]. IET Computer Vision,2009,3(2): 93-102. [7] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features [C]//Proc.CVPR.Hawaii:IEEE Press,2001:511-517. [8] JIMéNEZ P, BERGASA L M, NUEVO J, et al. Face pose estimation with automatic 3D model creation in challenging scenarios [J]. Image and Vision Computing,2012,30(9):589-602. [10] NUEVO J, BERGASA L M, JIMéNEZ P. RSMAT:robust simultaneous modeling and tracking [J]. Pattern Recognition Letters,2010,31(16):2455-2463. [11] 陳振學(xué),常發(fā)亮,劉春生, 等. 基于Adaboost算法和人臉特征三角形的姿態(tài)參數(shù)估計(jì)[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2011,36(10):1164-1167. [12] WRIGHT J, MA Y, MAIRAL J, et al. Sparse representation for computer vision and pattern recognition [J]. Proceedings of the IEEE,2010,98(6):1031-1044. [13] WRIGHT J, YANG A Y, GANESH A. Robust face recognition via sparse representation [J]. IEEE Trans. Pattern Analysis and Machine Intelligence, 2009, 31( 2): 210-227. [14] RIGAMONTI R, BROWN M A, LEPETIT V. Are sparse representations really relevant for image classification [C]//Proc.CVPR. [S.l.]:IEEE Press,2011: 1545-1552. [15] TIBSHIRANI R. Regression shrinkage and selection via the lasso [J]. Journal of the Royal Statistical Society,Series B (Methodological),1996,58(1): 267-288. [16] AI & R institute of artificial intelligence and robotics Xi’an Jiaotong University. oriental face database[EB/OL].[2014-10-20]. http://www.aiar.xjtu.edu.cn/groups/face/Chinese/Homepage.html. [17] CMU PIE database. [EB/OL].[2014-10-20].http://www.ri.cmu.edu/projects/project_418.html. 廖海斌(1982— ),博士,講師,主研圖像處理與智能識(shí)別、三維重建等; 丘益鳴(1974— ),博士生,主研圖像處理與模式識(shí)別; 陳慶虎(1957— ),教授,博士生導(dǎo)師,主研視頻處理與智能識(shí)別。 責(zé)任編輯:閆雯雯 Face Poses Estimation Based on Sparse Representation LIAO Haibin1,QIU Yiming2,CHEN Qinghu2 (1.SchoolofComputerScienceandTechnology,HubeiUniversityofScienceandTechnology,HubeiXianning437100,China;2.SchoolofElectronicInformation,WuhanUniversity,Wuhan430072,China) According to the challenges in face pose estimation under different illuminations, occlusions, identity, expressions, and so on,combining with the excellent classification performance of sparse representation classification (SRC), a deep analysis on the theory of SRC and its application in face pose classification are made. In order to handle challenges such as variation of face illumination, noises and occlusion, a robust face pose estimation method based on dictionary learning and sparse representation is presented. In which face poses are discrete into different subspaces, each subspace corresponding to a class. Several experiments are performed on XJTU and PIE databases. Recognition results show that the proposed method is suitable for efficient face pose recognition under illumination, noises and occlusion variations. face pose estimation; sparse representation; subspace learning; face recognition 【本文獻(xiàn)信息】廖海斌,邱益鳴,陳慶虎.基于稀疏表示的人臉姿態(tài)估計(jì)研究[J].電視技術(shù),2015,39(13). 國(guó)家自然科學(xué)基金項(xiàng)目(61271256);河南省重大科技攻關(guān)項(xiàng)目(072SGZS38042);湖北科技學(xué)院博士啟動(dòng)基金項(xiàng)目(BK1418) TP391 A 10.16280/j.videoe.2015.13.009 2014-10-212 實(shí)驗(yàn)與分析
3 總結(jié)