任延富,劉奇聰
(1.四川大學視覺合成圖形圖像技術(shù)國防重點實驗室,成都 610065;2.四川大學計算機學院,成都 610065)
人臉檢測是人臉相關(guān)任務(wù)的最基本的步驟,在實際應用中,移動端對算法的實時性要求越來越高,人臉識別任務(wù)需要人臉檢測、人臉特征點檢測作為前提,然而人臉特征點檢測還與頭部姿態(tài)估計有密切的關(guān)系。所以我們利用人臉特征點和頭部姿態(tài)估計與人臉檢測的內(nèi)在關(guān)系提出基于多任務(wù)的人臉檢測算法。
十多年前V-J真正的把人臉檢測算法從理論應用到了實際,利用Haar的人工特征的級聯(lián)結(jié)構(gòu)和集成算法進行快速的人臉檢測。但是該人臉檢測算法由于采用的人工設(shè)計的特征,表達能力有限,所以對頭部姿態(tài)比較大的人臉檢出率非常低,并且對光照的變化也不是很魯棒,但是基本達到了實時的檢測速度。
在傳統(tǒng)方法中,聯(lián)合多任務(wù)的人臉檢測也有許多研究學者進行研究。他們發(fā)現(xiàn)人臉相關(guān)的任務(wù)很大程度上與人臉檢測相關(guān),并且他們之間可以相輔相成。孫劍等進行人臉特征點檢測與人臉檢測的聯(lián)合任務(wù)的研究,實驗證明了利用人臉特征點特征來同時判斷人臉檢測結(jié)果可以有效的降低誤檢率和提高召回率。他們利用像素差值特征進行提取人臉關(guān)鍵點特征,進而進行人臉特征點和是否是人臉的判斷。像素差值特征表達能力弱,對于頭部姿態(tài)極端的人臉非常受限。
考慮到頭部姿態(tài)與人臉檢測的關(guān)系,朱翔宇等提出多視角人臉模型進行頭部姿態(tài)和人臉特征點檢測的人臉檢測算法,首次把三個任務(wù)結(jié)合到一個算法中,通過不同視角的模型進行不同頭部姿態(tài)的估計,同時檢測出對應視角的人臉特征點,進而來判斷是否是人臉。雖然把三個任務(wù)結(jié)合到一個框架中,但是測試速度非常慢,一張圖片需要幾秒才能完全得出結(jié)果,完全應用不到實際當中。
近幾年,卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域取得了非常大的進步。例如圖像分類和人臉識別任務(wù)。利用卷積神經(jīng)網(wǎng)絡(luò)可以自動的提取訓練數(shù)據(jù)中的特征,相比于手工設(shè)計的特征表達更具有泛化性。但是使用卷積神經(jīng)網(wǎng)絡(luò)會導致速度瓶頸問題,所以我們采用兩個策略,首先盡量使用淺層網(wǎng)絡(luò)進行提取特征,但是這樣會導致提取的特征泛化性弱,可能對訓練集樣本表達不完全,所以我們采用級聯(lián)結(jié)構(gòu)從粗到細進行人臉檢測,淺層網(wǎng)絡(luò)把容易負樣本和正樣本進行粗略的選擇,把更加難判斷的負樣本讓后面較深的網(wǎng)絡(luò)進行判斷。
利用級聯(lián)結(jié)構(gòu)在淺層網(wǎng)絡(luò)中可以快速地拒絕簡單的負樣本,而把困難負樣本和正樣本在更加深的網(wǎng)絡(luò)層去判斷,深的網(wǎng)絡(luò)特征表達能力更強,而淺層網(wǎng)絡(luò)檢測速度更快。在最終的ONet網(wǎng)絡(luò)中,輸出人臉關(guān)鍵點和頭部姿態(tài)。三個網(wǎng)絡(luò)都輸出邊框回歸,通過回歸人臉候選框可以更好地進行非極大值抑制算法,盡可能地保持召回率和減少誤檢的可能。
Conv表示卷積層,后面數(shù)字表示卷積核,并且卷積層全部采用步長為1。MP表示最大值池化層,后面數(shù)字表示池化層核。對于人臉分類任務(wù)采用交叉熵損失函數(shù),其他任務(wù)均采用歐氏距離損失函數(shù),并且它們的權(quán)重都設(shè)置為1。詳細網(wǎng)絡(luò)結(jié)構(gòu)參考圖1。
圖1
測試階段通過圖像金字塔進行尺度不變轉(zhuǎn)換,對每個尺度進行PNet,把PNet得到的結(jié)果進行邊框回歸得到更準確的候選框并送入RNet的輸入,最后通過ONet網(wǎng)絡(luò)得到候選框的人臉特征點和人臉位置和頭部姿態(tài)。頭部姿態(tài)為三維信息,分別為俯仰角(Pitch)、旋轉(zhuǎn)角(Yaw)和偏轉(zhuǎn)角(Roll),詳細過程參考圖2。
訓練人臉檢測采用WIDER-FACE數(shù)據(jù)庫,人臉特征點數(shù)據(jù)利用CelebA數(shù)據(jù)庫,頭部姿態(tài)數(shù)據(jù)采用AFLW數(shù)據(jù)庫進行數(shù)據(jù)的取樣,評估添加多任務(wù)的方法對人臉檢測的提升。只有在ONet中才添加人臉特征點和頭部姿態(tài)數(shù)據(jù),并且這兩個任務(wù)都采用回歸方式進行輸出。
在FDDB數(shù)據(jù)庫對人臉檢測結(jié)果進行評估。采用離散和連續(xù) IoU(Intersection-over-Union)方式進行評估。
圖2
圖3
圖4
圖3和圖4分別表示離散ROC曲線和連續(xù)ROC曲線,通過兩個圖可知添加多任務(wù)可以增加人臉檢測的召回率,并且可以減少誤檢。
圖5
本文給出了級聯(lián)結(jié)構(gòu)聯(lián)合多任務(wù)進行人臉檢測算法,把人臉特征點與頭部姿態(tài)與人臉檢測的內(nèi)在關(guān)系聯(lián)系起來提升人臉檢測任務(wù),同時可以得到相對準確的人臉特征點信息和三維的頭部姿態(tài)信息。該方法對于遮擋、光照和姿態(tài)等多種挑戰(zhàn)具有很好的魯棒性。并且相比于其他深度神經(jīng)網(wǎng)絡(luò)人臉檢測方法有更快速度,完全可以應用到實際場景中。未來我們要討論其他的人臉任務(wù)與人臉檢測的關(guān)系來進一步提升人臉檢測的效果。
[1]P.Viola,M.J.Jones.Robust Real-time Face Detection,International Journal of Computer Vision,2004,57(2):137-154.
[2]D.Chen,S.Ren,Y.Wei,X.Cao,J.Sun,Joint Cascade Face Detection and Alignment,in:European Conference on Computer Vision(ECCV)2014,2014.
[3]X.Zhu,D.Ramanan,Face Detection,Pose Estimation,and Landmark Localization in the Wild,in:Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on,IEEE,2012:2879-2886.
[4]V.Jain,E.Learned-Miller,FDDB:A Benchmark for Face Detection in Unconstrained Settings,Tech.Rep.,University of Massachusetts,Amherst(2010).
[5]A.Krizhevsky,I.Sutskever,G.E.Hinton.Imagenet Classification with Deep Convolution Neural Networks.in Advances in Neural Information Processing Systems,2012:1097-1105.
[6]Y.Sun,Y.Chen,X.Wang,X.Tang.Deep Learning Face Representation by Joint Identification-Verification.in Advances in Neural Information Processing Systems,2014:1988-1996.
[7]S.Yang,P.Luo,C.C.Loy,X.Tang.WIDER FACE:A Face Detection Benchmark.arXiv Preprint arXiv:1511.06523.
[8]Z.Liu,P.Luo,X.Wang,X.Tang.Deep Learning Face Attributes in the Wild.in IEEE International Conference on Computer Vision,2015:3730-3738.
[9]M.K Stinger,P.Wohlhart,P.M.Roth,H.Bischof.Annotated Facial Landmarks in the Wild:A Large-Scale,Real-World Database for Facial Land-Mark Localization.in IEEE Conference on Computer Vision and Pattern Recognition Workshops,2011:2144-2151.