邱麗梅 ,邱思杰
(1.三明學院 機電工程學院,福建 三明,365004;2.機械現(xiàn)代設計制造技術福建省高校工程研究中心,福建 三明,365004)
近年來,雖然隨著深度攝像機技術的發(fā)展及微軟Kinect的問世,打破了以往深度攝像頭高昂價格的局面,人臉姿態(tài)估計領域也出現(xiàn)了ETH Face Pose和 Biwi Kinect兩個新的深度圖像數(shù)據(jù)庫[1],但在海關、機場、展覽館等公共場合及公安追捕罪犯系統(tǒng)等實際應用中,對于單幅二維人臉圖像的多姿態(tài)識別仍居主流[2]。目前,正面人臉識別系統(tǒng)已取得了較好的識別效果,但是多姿態(tài)人臉圖像的有效識別,效果仍然欠佳。據(jù)統(tǒng)計大約 75%的人臉圖像為非正面的人臉圖像[2],除此以外,人臉姿態(tài)還在智慧城市、司機疲勞檢測系統(tǒng)和智能輪椅等方面都有著廣泛的應用[3]。
根據(jù)實現(xiàn)原理和方式的不同,現(xiàn)有的人臉姿態(tài)估計方法大體上可以分為六類[4]:⑴形狀模板匹配的方法[5-6];⑵檢測分類器的方法[7-8];⑶特征回歸的方法[9-10];⑷流形嵌入的方法[11-12];⑸局部約束模型的方法[13];⑹臉部特征點幾何關系的方法[14-16]。其中,臉部特征點幾何關系的方法具有簡單、耗時短、效率高等優(yōu)點,而且隨著人臉特征點提取算法的日趨成熟,臉部關鍵特征點的檢測和定位精度已逐漸獲得保障[17]。
針對單幅人臉圖像,依據(jù)以下幾點:⑴多姿態(tài)二維人臉圖像識別仍居主流;⑵臉部特征點幾何關系方法具有簡單、耗時短、效率高等優(yōu)點;⑶現(xiàn)有的姿態(tài)估計方法大多存在缺乏人臉特征深度信息而造成姿態(tài)估計過程病態(tài)化的問題;⑷最小二乘法不能很好地區(qū)分內(nèi)點和外點,提出了基于深度值和M-估計的人臉姿態(tài)估計方法。
對于單幅人臉圖像在不知道人臉特征點深度值及其它信息的前提下,只利用臉部特征點幾何關系估計人臉空間姿態(tài)是不易實現(xiàn)的。若能得知人臉特征點的深度值,就能豐富人臉預知信息,精準實現(xiàn)對單張照片中人臉的姿態(tài)估計。
采用CMU PIE人臉圖像為研究對象,進行了相關預處理后,得到大小為64×64的圖像。先利用改進的活動形狀模型(Active Shape Model,簡稱ASM)方法提取人臉特征點[17],再利用透視原理和迭代算法計算得到人臉特征點的深度值。
假設一特征點的3D空間坐標為yn=(yn1yn2yn3)T和相應的2D投影坐標為un=(un1un2)T,旋轉矩陣 R=(r1,r2, r3)T,平移矢量 t=(t1,t2, t3)T,f為像機焦距,則:
在相機坐標系中,根據(jù)透視成像有:
yn經(jīng)過旋轉R,平移t后得到xn,則:
在相機坐標系中,假設xn的深度值為dn,n=1,2,3,Λ,N則:
(1)選取xn的初始深度值為是人臉特征點與透視中心的距離;
其中,ε2為方差,{wn|n=1,Λ,N}是非零因子,滿足 wn>0,在此定義 wn相等且 wn=1/N。 Rk和 tk分別是第步時所對應的人臉旋轉矩陣和平移矩陣,即人臉姿態(tài)值。
可見,要使式(5)取得最小值,那么:
此時,(5)式就變成了:
把式(3)代入(8)式,可得:
由于特征點提取誤差不可避免的產(chǎn)生個別誤差較大的外點,最小二乘法不能很好地區(qū)分內(nèi)點和外點,從而影響估計精度和魯棒性,因此,在最小二乘法的基礎上,加入M-估計算法進一步優(yōu)化。
隨機的估計值Tk,可由下式最小化形式表示:
或可通過下列隱式方程表示:
其中,ρ是原函數(shù):
把式(12)寫成以下等式形式:
其中:
所以,Tk可以被表示成:
本文采用Huber的ρ和Ψ算子,表示如下:
a是調(diào)整常數(shù),取殘差絕對值的常數(shù)倍,在此處a=1.5。
非線性回歸問題可以描述如下:
假設函數(shù) fi:Em→E,i=1,2,3,Λ,n;θ=(θ1,θ2,Λ,θm)T∈Em是未知的 m 維向量,則:
求解方程式(18),即求解式(19)
有數(shù)種不同的方法,為了構造一種呈比例變化的M-估計,估計比例因子取值如下:
通過修正殘差值的方法來解式(19)最小問題,確定θ的步驟如下:
(1) 選擇初始的 θ0;
(2)假設第k步的迭代值是θk,則按以下步驟來解決:
(a)計算殘差值 ri*,i=1,2,3,Λ,n,則:
(b)求解最小二乘問題 Xδ=r*,其中,是梯度矩陣,即:
采用一般的最小二乘法便可求解此方程;如果采用奇異值分解法,則X=UΣVT,那么其解為=
(c)θk+1=θk+。
本次實驗在Matlab 2012a環(huán)境下編程所得,其實現(xiàn)步驟如圖1所示。
圖1 人臉姿態(tài)估計流程圖
⑴輸入待估計姿態(tài)人臉圖像。
⑵把輸入的彩色圖像轉化成灰度圖像、灰度值歸一化為[0,1],并進行去噪和標準化處理,圖像大小統(tǒng)一處理為64×64。
⑶對處理好的人臉圖像,引入仿射變換不變性初始化原則(ATIIA)建立初始模型,改進傳統(tǒng)的活動形狀模型(ASM)方法[17],提取左右眼內(nèi)外角點、左右嘴角點、鼻尖點、兩鼻翼點和下巴頂點等共十個主要人臉特征點的二維值。
⑷根據(jù)透視成像原理,利用迭代算法,求得特征點的深度值。
⑸選用左右眼內(nèi)外角點、左右嘴角點、鼻尖點、兩鼻翼點和下巴頂點等共十個主要特征點來表示人臉,利用透視成像原理,建立人臉姿態(tài)估計目標函數(shù)。
⑹利用兩外眼點、鼻下點和嘴角點等四個特征點進行姿態(tài)一次估計,作為對目標函數(shù)進行最小二乘優(yōu)化運算的輸入值,輸出二次估計的姿態(tài)結果,并把它們作為下步M-估計的初始值。
⑺利用M-估計算法對最小二乘法得到的估計值作進一步優(yōu)化,輸出最終估計結果。
實驗采用CMU PIE人臉數(shù)據(jù)庫,該數(shù)據(jù)庫包含了68個人的人臉,均為彩色圖像,以PPM格式存儲,分辨率為640×486,人臉圖像大小不一,背景多樣,4種不同表情,43種不同光照,13個離散姿態(tài),共41368幅人臉圖像。
實驗前,我們把彩色圖像轉化成灰度圖像、灰度值歸一化為[0,1],并進行去噪和標準化處理,圖像大小統(tǒng)一處理為 64×64。 對其中的 β=0°,±22.5°,±45°5個姿態(tài)共 170幅人臉圖像進行了測試,其中也包含了部分“自遮擋”(眼鏡和少量頭發(fā)遮擋)。隨機選取了部分實驗圖像,如圖2所示。
一般的應用系統(tǒng)中,對繞Y軸旋轉(β)的側面圖像應用較多,因此,隨機選取部分真值為β=0°,±22.5°,±45°這5種姿態(tài)圖像,如圖3所示。圖中第一組數(shù)據(jù)為本文算法(最小二乘法+M-估計優(yōu)化算法)估計得出的姿態(tài)值,第二組數(shù)據(jù)為最小二乘算法估計得出的姿態(tài)值,結果表示形式為(α,β,γ),單位為度(°),隨機選取部分測試結果如圖3所示。
圖2 部分預處理后的實驗圖像
圖3 部分估計結果
對于人臉姿態(tài)估計的性能評價指標通常有:平均絕對誤差、絕對誤差標準差和方向估計精度3種[4],平均絕對誤差是估計精度最為簡單的評價指標,也是估計系統(tǒng)通用的指標,一般誤差在5°以內(nèi),認為是有效估計。表1中分別給出了本文算法和最小二乘法的β平均絕對誤差。
表1 β的平均絕對誤差對比表
通過對比圖3和表1可以發(fā)現(xiàn):兩種算法的姿態(tài)估計誤差隨著角度的增加而增大,其中真值為β=0°,±22.5°時,兩種算法估計誤差相差不大,都控制在 3°內(nèi)的高精度估計;真值為 β=±45°的情況下,本文算法誤差仍穩(wěn)定地控制在3°內(nèi)的高精度,而最小二乘算法則出現(xiàn)了不穩(wěn)定現(xiàn)象,誤差時而在3°以內(nèi),時而超過4°,但平均絕對誤差也都控制在5°以內(nèi)的有效估計。
本文提出的基于深度值的單幅圖像人臉姿態(tài)估計方法,利用了透視原理和迭代算法計算出特征點的深度值,克服了現(xiàn)有姿態(tài)估計方法大多存在缺乏人臉特征深度信息而造成姿態(tài)估計過程病態(tài)化的缺陷;利用M-估計算法解決了最小二乘法不能很好地區(qū)分內(nèi)點和外點的問題,保證了估計精度和魯棒性。通過CMU PIE人臉數(shù)據(jù)庫進行實驗,結果表明:對于β=-45°~+45°的單幅二維人臉圖像,本算法具有良好的估計精度和魯棒性。
參考文獻:
[1]JOHN DARBY,MARI'A B SA'NCHEZ,PENELOPE B.BUTLER,et al.An evaluation of 3D head pose estimation using the Microsoft Kinect V2[J].Gait Posture,2016,48(4):83-88.
[2]馬丙鵬,山世光,陳熙霖,等.一種基于圖像表觀的魯棒姿態(tài)估計方法[J].軟件學報,2009,20(6):1651-1663.
[3]WU SIYU,LIANG JIE,JASON HO.Head pose estimation and its application in TV viewers'behavior analysis[C]//Electrical and Computer Engineering.IEEE, 2016:1-6.
[4]唐云祁,孫哲南,譚鐵牛.頭部姿勢估計研究綜述[J].模式識別與人工智能,2014,27(3):213-225.
[5]PADELERIS P,ZABULIS X,ARGYROS A A.Head pose estimation on depth data based on particle swarm optimization [C]//Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.2012:42-49.
[6]NHAT QUAN,HUYNH NGUYEN,THAI HOANG LE.Pose estimation using local binary patterns for face recognition[C]//Springer International Publishing Switzerland 2015.
[7]ROBERTO VALLE,JOS′E MIGUEL BUENAPOSADA,ANTONIO VALDE′S,et al.Head-pose wstimation inthe-wild using a random forest[C]//Springer International Publishing Switzerland 2016.
[8]SRIJA CHOWDHURY,JAYA SIL.Head pose estimation for recognizing face images using collaborative representation based classification[C]//Proc of the Conference on Advances in Computing,Communications and Informatics (ICACCI),2016:571-575.
[9]FANELLI G,DANTONE M,GALL J,et al.Random forests for real time 3D face analysis[J].International Journal of Computer Vision,2013,101(3):437-458.
[10]MA B P,CHAI X J,WANG T J.A novel feature descriptor based on biologically inspired feature for head pose estimation[J].Neuro-computing,2013,115(4):1-10;
[11]LU J W,TAN Y P.Ordinary preserving manifold analysis for human age and head pose estimation[J].IEEE Trans on Human Machine Systems,2013,43(2):249-258.
[12]范進富,陳鍛生.流形學習與非線性回歸結合的頭部姿態(tài)估計[J].中國圖象圖形學報,2012,17(8):1002-1010.
[13]ZHU X X,RAMANAN D.Face detection,pose estimation,and landmark localization in the wild[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2012:2879-2886;
[14]HARI C V,PRAVEEN SANKARAN.A clustered locally linear approach on face manifolds for pose Estimation[C]//Springer Verlag London 2016.
[15]LIANG X N,TONG W Q.Face pose estimation using near-infrared images[C]//Proc of the International Conference on Communication Systems and Network Technologies,2012:216-220.
[16]ANWAR SAEED,AYOUB AL HAMADI,SEBASTIAN HANDRICH.Advancement in the head pose estimation via depth-based face spotting[C]//IEEE Symposium Series on Computational Intelligence,2016.
[17]WAN K W,LAM K M,CHONG K.An accurate active shape model for facial feature extraction[J].Pattern Recognition Letters,2005,26(12):2409-2423.