熊 欣,黃全振,盧金燕
XIONG Xin,HUANG Quanzhen,LU Jinyan
河南工程學(xué)院 電氣信息工程學(xué)院,鄭州 451191
School of Electrical Information Engineering,Henan University of Engineering,Zhengzhou 451191,China
人臉識(shí)別是當(dāng)前機(jī)器視覺和人工智能領(lǐng)域的研究熱點(diǎn),也是信息安全和社會(huì)安全的重要認(rèn)證手段。近年來,大量研究文獻(xiàn)將高維測試人臉圖像投影到低維特征空間,如特征臉(Eigenfaces)[1]、Fisher臉(Fisherfaces)[2]、拉普拉斯臉(Laplacianfaces)[3]等,所有這些算法都要求測試樣本必須裁剪適當(dāng)、對齊,并與訓(xùn)練樣本具有相同的規(guī)模大小。然而,人臉檢測器的實(shí)際輸出既不對準(zhǔn)也不受限制,并且在規(guī)模上變化較大,對這些數(shù)據(jù)進(jìn)行分類識(shí)別非常具有挑戰(zhàn)性。
稀疏描述在目標(biāo)跟蹤及識(shí)別領(lǐng)域受到極大的關(guān)注,基于稀疏描述的人臉識(shí)別是一種根據(jù)人臉的全局信息進(jìn)行分類識(shí)別的方法,雖然稀疏描述的模型簡單,但是對光照變化和有遮擋人臉的識(shí)別具有較強(qiáng)的魯棒性;該類算法忽略了人臉局部特征對識(shí)別效果的影響,還需要測試樣本與訓(xùn)練樣本人臉嚴(yán)格對齊,當(dāng)存在表情和姿態(tài)變化時(shí),其識(shí)別效果會(huì)明顯下降。文獻(xiàn)[4]研究表明,人類對視覺的感知是稀疏模型;文獻(xiàn)[5]提出了一種人臉稀疏描述建模方法;文獻(xiàn)[6]沒有將人臉表示為一個(gè)矢量,提出了區(qū)域協(xié)方差矩陣概念;文獻(xiàn)[7]提出了針對主成分測地分析(Principal Geodesic Analysis,PGA)的協(xié)方差描述符的降維方法,該描述符對于對齊和尺度變化是穩(wěn)健的,而該描述符屬于非向量對稱空間,對其進(jìn)行稀疏描述是不可行的,但可以通過對數(shù)映射將PGA描述符轉(zhuǎn)換到切向空間來實(shí)現(xiàn)。大量的研究表明,最稀疏的解對于人臉的分類是有效的,因?yàn)槊總€(gè)人臉都緊湊地表示為其訓(xùn)練集的線性組合,如果訓(xùn)練集很大,這樣的緊湊表示是非常有用的[8-9]。稀疏描述問題可以在壓縮感知環(huán)境下引入L1最小化或基追蹤來有效地解決[10]。
此外,絕大多數(shù)文獻(xiàn)采用歐氏距離作為人臉相似度量指標(biāo),但其在人臉姿態(tài)和表情變化時(shí)誤差較大;此時(shí),兩個(gè)像素點(diǎn)間存在障礙物,兩點(diǎn)之間存在一個(gè)最短的測地弧,該測地弧的長度(測地距離)接近于兩點(diǎn)間的實(shí)際距離,受人臉姿態(tài)和表情變化的影響較小[11-12]。
為了解決上述問題,本文在現(xiàn)有算法的基礎(chǔ)上做了一些改進(jìn),提出了基于測地映射分析(Geodesic Mapping Analysis,GMA)的特征提取方法,因?yàn)槿四槇D像是由無數(shù)個(gè)像素點(diǎn)和無數(shù)條弧線構(gòu)成,所以測地映射分析模型能夠很好地適應(yīng)人臉這一特殊結(jié)構(gòu),使得表情和姿態(tài)變化對識(shí)別的影響大大降低。此外,為了克服線性建模的局限性,引入核函數(shù)對稀疏特征空間進(jìn)行建模,并在非線性稀疏空間中執(zhí)行特征分類。最后,在ORL和Yale-B人臉數(shù)據(jù)庫中對本文提出的基于GMA的核稀疏描述人臉識(shí)別方法進(jìn)行姿態(tài)、表情和遮擋變化實(shí)驗(yàn),驗(yàn)證了該方法在應(yīng)對自由形式(非對齊、尺寸不一、遮擋、姿態(tài)和表情多樣化)的人臉圖像方面具有更高的識(shí)別準(zhǔn)確度和魯棒性。
連通黎曼流形的兩點(diǎn)之間的距離是連接兩點(diǎn)的曲線的最小長度,實(shí)現(xiàn)這個(gè)最小值的曲線被稱為測地線。如圖1所示,x、y為兩個(gè)像素點(diǎn),dxy為兩點(diǎn)之間的直線距離,即歐氏距離。當(dāng)x、y之間存在障礙物時(shí)(如表情變化較大),同類像素點(diǎn)邊界出現(xiàn)一定的凹凸現(xiàn)象,歐式距離便不能準(zhǔn)確地表示x、y的真實(shí)距離;此時(shí),在繞過障礙的所有曲線中,必然存在一條最短的測地弧d1(測地線),d1的長度即為x、y像素間的測地距離。
圖1 不同像素點(diǎn)間測地距離示意圖
根據(jù)微分方程理論,通過點(diǎn)x∈M,存在唯一的測地線,其切線向量為v∈TXM。將通過參考點(diǎn)x的測地線變換成切向空間上的直線,保持與曲線相似的距離。將切線向量v映射到測地線從x到流形上的點(diǎn)的函數(shù)稱為指數(shù)映射,如下式所示:
其中,γ(t)為測地線,將TXM的原點(diǎn)映射到x點(diǎn),即expx(0)=x;對于每個(gè)像素點(diǎn)x∈M,在TXM到鄰域間存在指數(shù)映射的逆運(yùn)算被稱為對數(shù)映射。
點(diǎn)y=γ(1)∈M到向量的映射如圖2所示。
圖2 測地距離映射圖
其中,向量v的長度即x和y之間的測地距離。
樣本方差由式(4)給出:
流形中的測地曲線是線性空間中直線的泛化,點(diǎn)x在測地子流形H上的投影是黎曼度量上最接近于x的點(diǎn),由式(5)給出:
給定一組像素點(diǎn)x1,x2,…,xn∈M,目標(biāo)是找到一個(gè)測地子流形,使得數(shù)據(jù)的投影方差最大化,可通過獲取跨越切向空間TXM的切向量正交基ζ1,ζ2,…,ζd實(shí)現(xiàn)。為使投影方差最大化,選擇指數(shù)映射下測地子流形第一個(gè)主成分由式(6)給出:
其中,H=expμ(span(ζ)),投影算子近似為:
其他測地子流形主成分定義為:
其中,系數(shù)λi,k計(jì)算如下:
將樣本i的GMA特征vi定義為:
將測試數(shù)據(jù)投影到該子流形上以獲得用于人臉識(shí)別的GMA分類特征,其使用以下度量:
通過式(15)即可實(shí)現(xiàn)基于測地映射分析的有效特征提取,該特征以測地距離為度量依據(jù),通過對數(shù)和指數(shù)映射將測試數(shù)據(jù)投影到切向空間,從而獲取更具辨別力的分類特征。
綜上所述,基于測地映射分析的特征提取實(shí)施步驟如下:
(1)將通過人臉圖像中像素x、y的測地線變換成切向空間上的向量v,完成指數(shù)映射和對數(shù)映射;
(2)通過梯度下降算法應(yīng)用式(3)計(jì)算黎曼流行的固有平均值μk+1,應(yīng)用式(4)計(jì)算樣本方差σ2;
(3)應(yīng)用式(5)獲取點(diǎn)x在測地子流形H上的投影,應(yīng)用式(8)使數(shù)據(jù)的投影方差最大化得到測地子流形的主要測地分量ζk;
(4)應(yīng)用式(11)生成新的主投影特征,并通過式(15)提取樣本i在測地子流形上投影的GMA分類特征。
人類對視覺的感知是稀疏的,每個(gè)人臉都可緊湊地表示為其訓(xùn)練集的線性組合,最稀疏的解對于人臉的識(shí)別分類是有效的,如果訓(xùn)練集很大,這樣的緊湊表示將非常具有辨別力,稀疏描述問題可以在壓縮感知環(huán)境下引入的L1最小化或基追蹤來有效地解決。當(dāng)測試人臉樣本發(fā)生嚴(yán)重的表情或姿態(tài)變化,使用線性模型是不準(zhǔn)確的。而非線性模型通過提供豐富的特征描述來捕獲高于二階的高階統(tǒng)計(jì)量,并利用這一點(diǎn)實(shí)現(xiàn)有效分類[13-14]。為了增強(qiáng)自由形式人臉識(shí)別的稀疏模型性能,本文使用非線性模型進(jìn)行稀疏描述,通過非線性映射將切向空間中的數(shù)據(jù)向量轉(zhuǎn)換為較高維特征空間,使用內(nèi)核技巧在GMA特征空間實(shí)現(xiàn)稀疏建模。
設(shè)φ是從輸入空間到特征空間的任意非線性映射,即φ:TμM→F。c是類的數(shù)量,vj,k是第k個(gè)訓(xùn)練樣本圖像的第j個(gè)GMA特征,ni是樣本i的圖像數(shù)量,n=n1+n2+…+nc是總的圖像數(shù)量,l是測試圖像的GMA特征,訓(xùn)練圖像的GMA特征矩陣變換為Ψ=[φ(v1,1),φ(v2,1),φ(vn1,1),…,φ(vnc,c)],可以將變換后的測試向量φ(l)表示為:
由于式(16)是超定的,維數(shù)很高,可利用核降維技術(shù)轉(zhuǎn)化為欠定問題,有利于高效地執(zhí)行高維度的計(jì)算:
其中R是切向空間TμM中降維后的矩陣。令Cφ為特征空間的協(xié)方差矩陣:
其中vi為GMA特征,前d個(gè)最大特征值表示為u1,u2,…,ud,將對應(yīng)于非零特征值的所有特征向量轉(zhuǎn)換為訓(xùn)練樣本的線性組合:
其中,列向量 [βk,1,βk,2,…,βk,n]T是第k個(gè)特征向量描述,可得:
對于?r=1,2,…,n,式(20)兩邊都乘以φ(vr)T得:
該組方程可以簡化為以下矩陣形式:
上述問題可通過式(25)解決:
則核降維投影矩陣為R=[u1u2…ud],其中第k個(gè)特征向量為因此式(17)可轉(zhuǎn)化為:
此時(shí):
其中r=1→d,c=1→n,式(27)可以進(jìn)一步寫成:
上式可簡化為:
如果α的解足夠稀疏,求解L0范數(shù)的最小化就等價(jià)于求解如下L1范數(shù)的優(yōu)化問題:
考慮到噪聲對稀疏模型的影響,修改優(yōu)化問題如下:
定義r(i)為第i類測試樣本l的重建誤差,δi(α)是α中對應(yīng)于類i的非零系數(shù)構(gòu)成的向量,可得:
綜上所述,基于GMA特征的核稀疏建模實(shí)施步驟如下:
(1)將訓(xùn)練圖像的GMA特征矩陣變換為高維測試向量φ(l);
(2)通過式(17)獲得切向空間的核降維矩陣Rβ;
(3)將對應(yīng)于非零特征值的所有特征向量轉(zhuǎn)換為訓(xùn)練樣本的線性組合uk,并應(yīng)用式(26)得到主特征向量描述;
(4)通過式(31)求解L1范數(shù)的最小化問題;
(5)通過式(32)計(jì)算第i類測試樣本l的重建誤差r(i),若則算法結(jié)束,將測試樣本l分到第c類。
姿態(tài)與表情變化實(shí)驗(yàn)采用ORL人臉數(shù)據(jù)庫完成驗(yàn)證,該數(shù)據(jù)庫包含40個(gè)人的400個(gè)灰度圖像。每個(gè)樣本的圖像在變化的光照強(qiáng)度、面部表情(開/閉的眼睛、微笑/不笑)、面部細(xì)節(jié)(戴眼鏡/無眼鏡)和黑暗均勻的背景拍攝,姿態(tài)變化高達(dá)20°,尺寸變化高達(dá)10%。該數(shù)據(jù)庫的樣本圖像如圖3所示。
圖3 ORL數(shù)據(jù)庫姿態(tài)與表情變化樣本圖像
每一對象隨機(jī)抽取5張圖像作為訓(xùn)練樣本(共200張),剩余的5張圖像作為測試樣本(共200張),共進(jìn)行4000次識(shí)別實(shí)驗(yàn),計(jì)算每個(gè)測試樣本的平均識(shí)別率和總體樣本平均識(shí)別率。對比本文提出的基于GMA特征的核稀疏識(shí)別方法與其他方法(KPCA[15]、Gabor[16]、GDA[17])面對不同姿態(tài)、不同表情測試樣本的平均識(shí)別率,如表1所示。
表1 ORL數(shù)據(jù)庫平均識(shí)別率的對比
由于本文算法以人臉圖像特征點(diǎn)間的測地距離代替?zhèn)鹘y(tǒng)的歐氏距離,然后計(jì)算特征點(diǎn)的平均值并映射到切向空間,通過投影方差最大化獲得主要測地分量,從而生成新的主投影特征。該特征可以準(zhǔn)確地表征人臉的特殊曲面結(jié)構(gòu),在應(yīng)對姿態(tài)和表情變化的測試樣本時(shí)具有較強(qiáng)的泛化能力。
由表1數(shù)據(jù)可知,本文提出的GMA方法識(shí)別率均高于其他3種方法,表明測地映射分析模型能夠很好地適應(yīng)人臉的特殊結(jié)構(gòu),使得表情和姿態(tài)變化對識(shí)別精度的影響大大降低,算法更具魯棒性。
本實(shí)驗(yàn)測試了本文方法面臨重度遮擋條件下的魯棒性。選取Yale-B人臉數(shù)據(jù)庫的兩個(gè)子集用于訓(xùn)練,另外一個(gè)子集用于測試。每個(gè)測試樣本將插入一個(gè)不相關(guān)的圖像作為遮擋塊,遮擋率為50%,圖4為不同遮擋位置的測試樣本圖像。
圖4 Yale-B數(shù)據(jù)庫50%遮擋樣本圖像
對比本文提出的基于GMA特征的核稀疏識(shí)別方法與KPCA、Gabor、GDA方法在50%遮擋條件下的識(shí)別率,如圖5所示。
圖5 Yale-B數(shù)據(jù)庫50%遮擋的識(shí)別率對比
隨著特征維數(shù)的增加,4種方法的識(shí)別率不斷提高,Gabor與GDA方法的識(shí)別率比較接近,本文GMA算法在樣本50%遮擋條件下獲得最高82.47%的識(shí)別精度,高于其他3種方法。此外,在實(shí)驗(yàn)過程中,在同一遮擋比例下,遮擋塊的形狀與位置對算法性能影響不大;平均識(shí)別率與遮擋塊的遮擋比例成反比,隨著遮擋比例的加大帶來具有辨別力的特征點(diǎn)減少,從而導(dǎo)致識(shí)別精度下降;當(dāng)測試人臉樣本發(fā)生較大的特征變化時(shí),通過非線性映射將切向空間中的數(shù)據(jù)向量轉(zhuǎn)換為較高維特征空間,在GMA特征空間實(shí)現(xiàn)核稀疏建模,可以在重度遮擋條件下實(shí)現(xiàn)人臉的有效分類。
本文針對當(dāng)前非控制條件下人臉識(shí)別的突出問題,完成以下研究工作:
(1)提出了一種基于測地映射分析(GMA)的特征提取方法,該模型能夠較好地適應(yīng)人臉的特殊曲面結(jié)構(gòu),可以準(zhǔn)確地測量出人臉圖像在表情、姿態(tài)和重度遮擋條件下兩個(gè)像素點(diǎn)的真實(shí)距離,大大降低了復(fù)雜條件變化對識(shí)別性能的影響,使算法更具魯棒性。
(2)為了克服線性模型的局限性,引入核函數(shù)對稀疏特征空間進(jìn)行建模,并在非線性稀疏空間中求解L1范數(shù)的優(yōu)化問題實(shí)現(xiàn)人臉的準(zhǔn)確分類。
(3)在ORL和Yale-B人臉數(shù)據(jù)庫中對本文提出的基于GMA的核稀疏描述人臉識(shí)別方法進(jìn)行了大量的實(shí)驗(yàn),結(jié)果驗(yàn)證了該方法在應(yīng)對重度遮擋、姿態(tài)和表情變化的人臉圖像方面具有更高的識(shí)別準(zhǔn)確度,大大提高了人臉識(shí)別系統(tǒng)應(yīng)對真實(shí)復(fù)雜環(huán)境的能力。