賈項南, 于鳳芹, 楊慧中, 陳 瑩
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
近年來,級聯(lián)形狀回歸模型在人臉特征點定位[1~5]領(lǐng)域取得了重大突破。Dollar P于2012年首次提出了級聯(lián)姿態(tài)回歸(cascaded pose regression,CPR)模型[6]預(yù)測物體的形狀。Cao X等人在CPR的基礎(chǔ)上提出了顯性形狀回歸算法(explicit shape regression,ESR)[7],并用于人臉特征點定位,模型總體計算量大且未考慮物體的遮擋問題。對此,Burgos-Artizzu X P等人提出了魯棒性級聯(lián)回歸方法(robust cascaded pose regression,RCPR)[8],采用智能重啟的初始化方法,并將遮擋信息引入到模型當(dāng)中,實現(xiàn)了有遮擋的特征點定位,但模型仍然復(fù)雜。Ren S等人對級聯(lián)回歸進(jìn)行了改進(jìn),提出了局部二值化特征(local binary features,LBF)回歸算法[9],采用平均形狀作為初始形狀,引入隨機森林作為局部學(xué)習(xí)器,但隨機森林結(jié)構(gòu)復(fù)雜不利于構(gòu)造,雖然提高了速度,但精度未改善。
本文針對以上問題,對級聯(lián)回歸模型進(jìn)行改進(jìn)研究:對模型的初始化方法進(jìn)行改進(jìn),充分利用圖像的紋理信息,并提取特征點局部區(qū)域的方向梯度直方圖(histogram of oriented gradient,HOG)特征,采用普氏分析法得到最初人臉形狀與真實人臉形狀間的最佳仿射變換參數(shù),建立圖像特征與仿射參數(shù)之間的映射關(guān)系,通過變換得到更接近真實人臉形狀的初始形狀提高模型的收斂速度和精度;在各個特征點局部區(qū)域構(gòu)造隨機蕨局部學(xué)習(xí)器代替全局回歸器,并學(xué)習(xí)得到計算簡單且高度稀疏的局部二值化特征以提高模型的速度;采用全局線性回歸對局部學(xué)習(xí)得到的二值化特征進(jìn)行計算得到形狀增量,更新每一級的預(yù)測形狀,實現(xiàn)人臉特征點定位。
人臉特征點定位是由初始形狀通過加上一系列回歸得到的形狀增量一步一步收斂于真實人臉形狀的過程。假設(shè)一幅人臉圖像有L個人臉特征點,人臉形狀可以表示為S=[x1,y1;x2,y2;…;xL,yL],S為2L維的矩陣,用于存儲人臉形狀在整幅圖像中的位置信息。給定人臉圖像I和初始人臉形狀S0,S的更新迭代過程如下
St=St-1+WtΨt(I,St-1),t=1,2,…,T
(1)
式中St為第t次迭代后的人臉形狀;Wt為線性回歸矩陣;Ψt(I,St-1)為特征映射函數(shù),與人臉特征和上一級估計的形狀有關(guān)。
本文從初始化和模型回歸器的構(gòu)造方式入手,對級聯(lián)回歸模型進(jìn)行改進(jìn),使初始人臉形狀逐步收斂于真實人臉形狀,實現(xiàn)人臉特征點的定位。
二維仿射變換用于改變?nèi)四樞螤畹男D(zhuǎn)角度、尺度和位置。整個仿射變換過程可以表示[10]
(2)
式中 (x0,y0)為原始坐標(biāo);(xn,yn)為變換后的新坐標(biāo);(xr,yr)為旋轉(zhuǎn)中心;θ為旋轉(zhuǎn)角度;txr,tyr為根據(jù)旋轉(zhuǎn)中心得到的水平和垂直方向偏移量;sx,sy分別為水平和垂直方向縮放尺度。通過普氏分析[11]得到最佳的仿射變換參數(shù)β1~β6,從初始人臉形狀每個特征點的3×3局部區(qū)域塊抽取HOG特征,通過學(xué)習(xí)6個線性回歸器建立從HOG特征到仿射變換參數(shù)β1~β2間的映射。訓(xùn)練過程中,β1~β6表示如下
y1=β1,y2=β2,y3=β3+β1xr+β2yr
(3)
y4=β4,y5=β5,y6=β6+β4xr+β5yr
(4)
通過式(5)學(xué)習(xí)線性回歸模型
(5)
式中i為訓(xùn)練樣本的圖片數(shù)量;φi為從最初的人臉特征點局部區(qū)域抽取的HOG特征;rk為權(quán)重向量;bk為偏移量。式(5)為線性最小方差問題。通過線性回歸模型的求解過程可以從訓(xùn)練集中得到rk,bk。對于輸入的任意圖片,只需計算特征點局部區(qū)域的HOG特征,用訓(xùn)練得到的回歸參數(shù),即可求出仿射變換參數(shù),進(jìn)而求得變換后的初始形狀。
(6)
由于對各個特征點進(jìn)行局部學(xué)習(xí)存在彼此之間相互獨立缺乏全局性約束且學(xué)習(xí)得到的二值化特征高度自由的情況。因此,采用全局線性回歸,聯(lián)合所有特征點的二值化特征,對其進(jìn)行計算并求得形狀增量。將式(1)的求解過程轉(zhuǎn)化為目標(biāo)函數(shù)式(7)的求最優(yōu)值的過程
(7)
在學(xué)習(xí)過程中引入L2范數(shù)的正則項,λ控制正則化力度防止模型過擬合。通過式(7)學(xué)習(xí)得到全局回歸矩陣,回歸矩陣相乘得到形狀增量ΔSt=Ψt*Wt,結(jié)合上一級估計的形狀,即可得到本次迭代預(yù)測的形狀St=St-1+ΔSt,進(jìn)入下一次迭代,直到預(yù)測的形狀收斂于真實人臉形狀,結(jié)束回歸過程。
改進(jìn)的級聯(lián)回歸模型人臉特征點定位具體步驟為:
1)輸入人臉圖片I和人臉形狀S,計算仿射變換參數(shù),提取HOG特征,建立映射關(guān)系,求出6個回歸器,計算變換后的初始形狀S0;
2)在人臉特征點周圍隨機選取P個像素,產(chǎn)生P2個像素差值特征,從中選出與回歸目標(biāo)相關(guān)的F對像素差值特征和F個閾值;
3)根據(jù)步驟(2)選取的像素差值特征和閾值構(gòu)造隨機蕨,對每一個特征點生成M個隨機蕨構(gòu)成隨機蕨叢林,通過隨機蕨叢林對特征點周圍的紋理進(jìn)行學(xué)習(xí),得到二值化特征;
4)對于所有訓(xùn)練樣本得到的二值化特征,采用全局線性回歸學(xué)習(xí)得到全局回歸矩陣,計算得到全局形狀增量ΔSt=Ψt*Wt,更新當(dāng)前階段預(yù)測的形狀St=St-1+ΔSt;
6)輸入測試樣本I,隨機選擇S0,初始化S0,加載訓(xùn)練集當(dāng)前階段構(gòu)造好的隨機蕨,對特征點局部區(qū)域的紋理進(jìn)行編碼,得到二值化特征,加載在訓(xùn)練過程中學(xué)習(xí)的全局回歸矩陣Wt,計算全局形狀增量,更新當(dāng)前預(yù)測的形狀;
7)進(jìn)入下一級回歸,重復(fù)步驟(6),直到初始人臉形狀收斂于真實人臉形狀,測試結(jié)束。
實驗運行環(huán)境為Windows7 64位,Intel Core i3—2310M CPU處理器,6GB內(nèi)存,MATLAB R2016a仿真系統(tǒng)。采用公認(rèn)的主流測試數(shù)據(jù)庫LFPW[12],HELEN[13],AFW[14]進(jìn)行仿真實驗。LFPW包含了811張訓(xùn)練圖像,224張測試圖像;HELEN庫包含了2 000張訓(xùn)練圖像,330張測試圖像;AFW包含330張圖像,300張用于訓(xùn)練,30張用于測試。3個數(shù)據(jù)集包含了大量遮擋,表情姿態(tài)豐富和光照變化的圖像,且數(shù)據(jù)集中均已給定了68個特征點作為真實人臉形狀,無需重新標(biāo)定。由于數(shù)據(jù)庫中的圖像大小不一,本文通過人臉檢測框?qū)颖静眉舫?20×120大小。
設(shè)置人臉特征數(shù)L為68,最大的迭代次數(shù)T為7,隨機蕨叢林包含的蕨數(shù)M為10,每一株蕨的深度F為5,半徑r為距離特征點的偏移量,每一級最佳特征提取的區(qū)域半徑和每一級隨機選取的像素特征個數(shù)P如表1設(shè)置。
表1 參數(shù)設(shè)置
為了從定量的角度驗證本文算法的有效性,在數(shù)據(jù)庫LFPW,HELEN,F(xiàn)W上分別與文獻(xiàn)[7~9],3種算法進(jìn)行了對比。以樣本測試時定位速度作為時間的評價標(biāo)準(zhǔn),均一化誤差[7]作為人臉形狀預(yù)測誤差的衡量標(biāo)準(zhǔn)
(8)
式中Si為預(yù)測的人臉形狀;i為真實人臉形狀;di為每個樣本瞳孔間的歐氏距離,用于對樣本誤差進(jìn)行歸一化,以公平對比樣本之間的誤差。從表2可知,3個庫上,本文算法較文獻(xiàn)[7]定位誤差分別降低了25 %,15 %,13 %,較文獻(xiàn)[8]定位誤差分別降低了14 %,7 %,6 %。由于文獻(xiàn)[7,8]采用100級以上的回歸,所以,造成模型速度慢不能滿足實時性要求。3個庫中,本文算法與現(xiàn)公認(rèn)定位效果較好的文獻(xiàn)[9]相比,誤差分別降低了15 %,7 %,12 %,時間分別減少了18 %,7 %,17 %。本文算法明顯優(yōu)于其他3種算法。
表2 4種算法在3數(shù)據(jù)庫中誤差與時間對比
為了更直觀地評價本文算法的正確性和有效性,采用文獻(xiàn)[15]的評價標(biāo)準(zhǔn),畫出積分誤差分布(cumulative error distribution,CED)曲線,如圖1所示,縱坐標(biāo)為定位誤差小于均一化誤差的測試樣本數(shù)量占總的測試樣本數(shù)量的比率,CED曲線更能直觀展現(xiàn)在某一誤差上本文算法和其他3種算法特征點定位的正確率。圖1(a)為在數(shù)據(jù)庫LFPW上的CED曲線,圖1(b)為在數(shù)據(jù)庫HELEN上的CED曲線。從圖1(a)可以看出:本文算法總體上都優(yōu)于其他3種算法,當(dāng)樣本誤差為0.1時,本文算法實現(xiàn)了98 %的定位精度,而文獻(xiàn)[7~9]分別實現(xiàn)了89 %,94 %,97 %的定位精度。從圖1(b)可以看出:當(dāng)樣本誤差為0.1時,本文算法實現(xiàn)了93 %的定位精度,而文獻(xiàn)[7~9]分別實現(xiàn)了88 %,91 %,93 %的定位精度。
圖1 2種數(shù)據(jù)庫上CED曲線
從定性的角度進(jìn)一步分析實驗效果。圖2為在數(shù)據(jù)庫LFPW上的最終定位效果,第一行姿態(tài)偏轉(zhuǎn)較大,本文定位效果良好,由于姿態(tài)偏轉(zhuǎn),導(dǎo)致文獻(xiàn)[7]嘴角定位失敗,文獻(xiàn)[8]左邊的顴骨定位失敗;第二行為表情豐富的圖像,由于本文充分利用紋理信息并在局部區(qū)域選擇具有判別性的特征,定位效果好于其他幾種算法;第三行分辨率較低,幾種方法對于兩頰的定位效果均不理想,文獻(xiàn)[7,8]對鼻孔定位失敗,文獻(xiàn)[9]對眉毛定位失敗;第四行光照變化,由于本文使用了像素差值特征對于光照有很好的魯棒性,較其他幾種算法實現(xiàn)了更好的定位效果;第五行右眼有遮擋,由于人臉未發(fā)生偏轉(zhuǎn),幾種算法均實現(xiàn)了良好的定位效果。
圖2 LFPW庫上最終定位效果對比
提出了一種改進(jìn)的級聯(lián)回歸模型人臉特征點定位方法,在多個具有挑戰(zhàn)性的數(shù)據(jù)庫上進(jìn)行了仿真實驗,通過仿真實驗將本文算法與其他幾種算法進(jìn)行了對比。實驗證明:本文算法具有模型規(guī)模小、運算速度快、定位精度高、實時性強等優(yōu)點。但本文算法對于具有背景干擾的人臉圖像上特征點定位仍然存在不足,為今后主要研究的內(nèi)容。
參考文獻(xiàn):
[1] 孫君頂,劉曉惠,陳鵬鵬.基于改進(jìn)局部方向模式的人臉識別[J].傳感器與微系統(tǒng),2016,35(6):52-55.
[2] 李月龍,靳 彥,汪建鳴,等.人臉特征點提取方法綜述[J].計算機學(xué)報,2016,39(7):1356-1374.
[3] Ningbo H,Haibin L,Yiming Q,et al.Face super-resolution reconstruction and recognition using non-local similarity dictionary learning based algorithm[J].IEEE Journal of Automatica Sinica,2016,3(2):213-224.
[4] 黃 進(jìn),冬奇,陳毅能,等.混合現(xiàn)實中的人際交互綜述[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2016,28(6):869-880.
[5] Meng Y,Lei Z,Jian Y,et al.Regularized robust coding for face recognition[J].IEEE Transactions on Image Processing,2013,22(5):1753-1766.
[6] Dollar P,Welinder P,Perona P.Cascaded pose regression[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010:1078-1085.
[7] Cao X,Wei Y,Sun J.Face alignment by explicit shape regres-sion[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:2887-2894.
[8] Burgos-Artzzu X P,Perona P,Dollar P.Robust face landmark estimation under occlusion[C]∥IEEE International Conference on Computer Vision,2013:1-8.
[9] Ren S,Cao X,Wei Y,et al.Face alignment at 3 000 fps via regressing local binary features[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:1685-1692.
[10] Xuan L,Yidan X,Qi L,et al.Affine-transformation parameters regression for face alignment[C]∥IEEE Signal Processing Letters,2016:55-59.
[11] Gower J C.Generalized procrustes analysis[M].Vienna,Austria:Springer-Verlag,1975:33-51.
[12] Belhumeur P N,Jacobs D W,Kriegman D J,et al.Localizing parts of faces using a consensus of exemplars[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:545-552.
[13] Brandt V L,Lin Z,Bourdev L,et al.Interative facial feature localization[C]∥The 12th European Conference on Computer Vision,2012:679-692.
[14] Zhu X,Ramanan D.Face detection,pose estimation,and landmark localization in the wild[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:2879-2886.
[15] Shizhan Z,Cheng L,Chen C L,et al.Face alignment by coarse-to-fine shape searching[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:4998-5005.