劉淇緣,盧樹華,蘭凌強
中國人民公安大學(xué) 警務(wù)信息工程與網(wǎng)絡(luò)安全學(xué)院,北京 102600
人臉檢測作為人像比對[1]、人臉屬性識別[2]、面部行為分析[3]、視頻人像追蹤[4]等計算機視覺任務(wù)的基本步驟,在過去50余年的時間里,取得了長足發(fā)展。20世紀70 年代中期,人臉檢測逐漸從目標檢測中獨立發(fā)展起來[5-6],但由于當(dāng)時存在硬件設(shè)備發(fā)展滯后,特征提取算法不成熟,訓(xùn)練數(shù)據(jù)集不完備等技術(shù)瓶頸,檢測算法在精度、速度方面表現(xiàn)不足。20世紀90年代開始,科學(xué)界對這一領(lǐng)域的關(guān)注度明顯升高,諸多優(yōu)質(zhì)算法,如V-J人臉檢測器(Viola-Jones Face Detector,V-J FD)[7]、混合因子分析(Mixture of Factor Analyzers,MFA)[8]、多視覺人臉檢測器(Multi-View Face Detection,MVFD)[9]和特征描述符,如哈爾特征(Haar-like Features)[10-12]、局部二值特征(Local Binary Pattern,LBP)[13]、尺度不變特征變換(Scale-invariant Feature Transform,SIFT)[14]、方向梯度直方圖(Histogram of Oriented Gradient,HOG)[15]等在這一時期設(shè)計提出,支持向量機(Support Vector Machine,SVM)[16]、提升算法(Boosting)[17]等經(jīng)典機器學(xué)習(xí)方法也在這一時期發(fā)展并趨于完善。近十幾年,新的面部特征描述子如加速穩(wěn)健特征(Speeded Up Robust Features,SURF)[18]、積分通道特征(Integral Channel Features,ICF)[19]和優(yōu)質(zhì)模型如樹結(jié)構(gòu)模型(Mixture of Trees Model,MTM)[20]等用于人臉檢測,取得了顯著的進展,特別是深度學(xué)習(xí)技術(shù)[21-24]廣泛應(yīng)用于人臉檢測領(lǐng)域,促使人檢測準確率和速度不斷提高,如Li 等人[25]提出的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Cascade Convolutional Neural Network,C-CNN)在自然標注人臉數(shù)據(jù)集(Annotated Faces in the Wild,AFW)[20]上達到了98%的平均精度。但是,上述人臉檢測算法大多是以受限條件下的圖片為檢測對象進行的,在面向現(xiàn)實場景的應(yīng)用時,人臉檢測仍然面臨諸多挑戰(zhàn)[26-28]:如光照變化、人群高密度、圖像低分辨率、小人臉、姿態(tài)變化以及遮擋問題等,其檢測準確率和實時性仍有待進一步提高。
人臉遮擋問題在現(xiàn)實生活中普遍存在,包括佩戴飾品或面具引起的實物遮擋,身體姿態(tài)變化引起的自遮擋,外界光照引起的光遮擋,以及幾種遮擋類型同時出現(xiàn)的混合遮擋等。上述遮擋可由自然(光照、角度等)或人為(裝飾、偽裝等)原因引起,值得一提的是,有些不法(暴恐)分子通過各種手段遮擋或偽裝人臉,給相關(guān)人員搜集線索、固定證據(jù)帶來較大困難。遮擋人臉檢測的難點在于由遮擋造成的特征缺失和噪聲混疊等,不同遮擋情況對人臉檢測算法造成不同程度的影響,導(dǎo)致誤檢甚至漏檢,嚴重影響基于人臉檢測相關(guān)應(yīng)用的進行。近年來,隨著受限條件下人臉檢測算法趨于成熟,研究人員逐漸向遮擋條件下的人臉檢測發(fā)起了挑戰(zhàn)[29-30],并取得了顯著的進展,為人臉檢測和識別在現(xiàn)實場景下的應(yīng)用奠定了良好的基礎(chǔ)。本文聚焦于遮擋條件下的人臉檢測方法研究進展,借鑒文獻[31]的思想,將遮擋人臉檢測算法根據(jù)特征設(shè)計與提取的方式不同分為基于手工設(shè)計特征的經(jīng)典方法和基于深度學(xué)習(xí)的現(xiàn)代方法,具體方法體系如圖1 所示。文章對比分析了不同算法的基本原理、性能評價以及存在的問題,探討了未來可能的研究方向,期望能為遮擋人臉檢測相關(guān)研究提供一定的參考。
特征提取是計算機視覺任務(wù)中的重要一環(huán),特征可辨性對模型性能有直接影響。手工設(shè)計特征是特征提取的經(jīng)典方法,設(shè)計者根據(jù)先驗知識,參考人眼視覺特點來設(shè)計特征?;谑止ぴO(shè)計特征的模型應(yīng)用廣泛,在人臉檢測方面成果較多。近年來,隨著人臉檢測面向?qū)嵕皯?yīng)用發(fā)展,有遮擋人臉檢測逐漸成為活躍的研究課題[32-34]。本章僅就基于手工設(shè)計特征的遮擋人臉檢測算法的研究進展進行論述,依據(jù)方法原理可將其分為兩類:一類是基于Adaboost 的級聯(lián)結(jié)構(gòu)算法體系;另一類是基于DPM的模板匹配算法體系。以下主要從不同算法體系的實現(xiàn)原理、模型性能及存在的問題等方面進行總結(jié)分析(下文中表1為算法性能匯總)。
圖1 遮擋人臉檢測方法簡圖
Adaboost[35]是一種通過自適應(yīng)模式調(diào)整樣本權(quán)重,將訓(xùn)練得到的弱分類器組合為強分類器的提升算法。Viola-Jones(VJ)[7]作為基于Adaboost級聯(lián)結(jié)構(gòu)的經(jīng)典算法,在人臉檢測的發(fā)展歷程中具有里程碑意義,VJ在保證精度的同時將速率提升了兩個數(shù)量級,實時性方面的突破性進展使得人臉檢測技術(shù)得以投入現(xiàn)實應(yīng)用。VJ檢測器采用類Haar 描述子描述人臉特征,為降低計算成本,提高效率,引入了積分圖的方法,即取用一張與原圖像等大的圖片,其中每一點的像素值用原圖中該點左上角的所有像素和表示,這樣即可方便算出一個區(qū)域的像素值。隨后采用Adaboost算法,先訓(xùn)練只能分辨一個特征的弱分類器,再根據(jù)訓(xùn)練結(jié)果增加錯誤分類樣本的權(quán)重和分類正確的分類器的權(quán)重進行迭代,將訓(xùn)練好的分類器按權(quán)重線性相加達到提升分類性能的目的,最后將幾個強分類器按復(fù)雜程度排序構(gòu)成級聯(lián)結(jié)構(gòu)。由于Haar 特征的固有局限性,VJ 算法難以用于任意角度變化、遮擋等復(fù)雜場景的檢測[36],但其在檢測速率方面的大幅提升和在受限條件檢測方面的突出表現(xiàn),為后來基于Adaboost 的級聯(lián)結(jié)構(gòu)面向包含遮擋在內(nèi)的現(xiàn)實場景檢測發(fā)展奠定了基礎(chǔ)。
此后一段時間,基于Adaboost的級聯(lián)結(jié)構(gòu)集中于正面人臉的遮擋問題上[37-39]。以改進Adaboost 檢測器為例,Chen等[40]統(tǒng)計特征數(shù)據(jù)后發(fā)現(xiàn),利用Haar特征訓(xùn)練的基于Adaboost 的人臉檢測器學(xué)習(xí)到的特征集中在人眼周圍,當(dāng)眼部信息被遮擋時,級聯(lián)檢測器將無法作出正確判斷,為解決部分遮擋人臉的檢測問題,其在Ada-boost 的人臉檢測器上作出改進:首先將樣本切割成不重疊的圖像補?。粸樵鰪姍z測器對圖像補丁的敏感度,通過計算補丁與眼部特征重合部分的占比,手工設(shè)置閾值,將弱分類器學(xué)到的特征映射到具體的圖像補丁;再計算圖像補丁權(quán)重,公式(1)為1 時即判定圖像補丁與弱分類器的關(guān)系為高度相關(guān),并通過公式(2)計算補丁權(quán)重,繼而判斷輸入窗中是否包含人臉。
改進后的級聯(lián)檢測器在網(wǎng)上收集的包含各種遮擋人臉的數(shù)據(jù)集上進行實驗,結(jié)果表明,改進后的人臉檢測器較原檢測器在遮擋檢測方面性能大幅提升,也印證了圖像補丁與弱分類器的映射可以很大程度上克服Haar特征對區(qū)域依賴性強的問題,不足之處在于這種檢測器限定待測人臉角度并且由于當(dāng)時缺乏專門的遮擋數(shù)據(jù)集和評測標準,模型沒能在通用遮擋數(shù)據(jù)集上進行測試。
隨著新的特征描述子和包含遮擋數(shù)據(jù)集的提出,基于Adaboost的檢測算法在遮擋問題上取得了一些進展。Liao 等[41]根據(jù)韋伯分數(shù)提出標準像素差(Normalized Pixel Difference,NPD)圖像特征,NPD通過計算像素相對差值得到,具有縮放不變性、特征有界性及原圖重構(gòu)性,該算法利用深度二叉樹對模型進行訓(xùn)練,并用Adaboost篩選最具可辨性的特征級聯(lián)成強分類器用于人臉檢測,在FDDB上的檢測結(jié)果優(yōu)于同期相關(guān)的人臉檢測器。該模型對遮擋人臉檢測問題的有效性來源于NPD對全局像素的無差別關(guān)注,即通過加強面部信息可辨性處理遮擋問題,模型的高效性及NPD 特征的先進性對遮擋人臉檢測的研究發(fā)揮了積極作用。高樹靜等[42]對Adaboost算法進一步優(yōu)化,將浮點數(shù)轉(zhuǎn)為定點數(shù)以減少運算成本,優(yōu)化后的Adaboost算法在ZYNQ平臺實現(xiàn)實時檢測,結(jié)合感知哈希算法實現(xiàn)并行人像檢測及跟蹤。實驗表明,這種改進方法極大地降低了實現(xiàn)成本。
在應(yīng)用方面,手工設(shè)計特征結(jié)合Adaboost算法的優(yōu)勢在于檢測高效性和正臉遮擋有效性,這些特點都與ATM 的現(xiàn)實環(huán)境相契合[43],Zhang 等[44]提出 Adaboost 結(jié)合皮膚顏色特征形成強分類器的方法處理ATM環(huán)境中的遮擋人臉檢測,研究人員面向ATM犯罪問題,用高斯函數(shù)擬合頭部輪廓構(gòu)建勢能函數(shù)用于頭部檢測,為進一步鑒定人臉是否被遮擋,用Adaboost算法級聯(lián)膚色分類器和輪廓分類器,形成精度更高的強分類器。實驗證明,級聯(lián)后的強分類器遮擋檢測性能更優(yōu),然而其受檢測場景制約較大,應(yīng)用于現(xiàn)實場景的實時檢測仍有較大局限。
形變部件模型(DPM)[45]是基于手工設(shè)計特征的經(jīng)典人臉方法中又一具有里程碑式意義的算法模型,該模型連續(xù)3年在PASCAL VOC挑戰(zhàn)賽數(shù)據(jù)集上取得綜合表現(xiàn)最優(yōu)的結(jié)果[46-48]。在DPM的組成中,局部模型[49]概念極為重要,其獨創(chuàng)性的將物體描述為一組部件,并用彈簧模擬各個部件之間的聯(lián)系,如圖2(a)所示,這就是著名的彈簧形變模型。2005 年,F(xiàn)elzenszwalb 等[50]將這一模型概念運用到圖形結(jié)構(gòu)算法(PS)中用于物體描述,PS算法找到最優(yōu)匹配過程即為最小化L的過程:
式(3)中,L表示模型,I表示圖像,通過一個無向圖G=(V,E) 來描述面部圖形結(jié)構(gòu),如圖2(b)所示,V={v1,v2,…,vn}代表模型的個組件,E表示組件的連接,即當(dāng)vi,vj相連時,有(vi,vj)∈E,li表示vi在圖像中的對應(yīng)位置,mi(li)則表示vi與li的不匹配程度,dij(li,lj)用來度量vi,vj與li,lj的形變程度。L最小時對應(yīng)的I即為最優(yōu)匹配。
圖2 面部模型圖
PS 模型采用樹形彈簧結(jié)構(gòu)模型解決形變問題,通過動態(tài)編碼提高效率,是目標檢測中的優(yōu)質(zhì)模型。不足之處在于在較難數(shù)據(jù)集上的性能易被特征袋、剛性模板等簡單模型超越且檢測速度較慢。問題是由于復(fù)雜模型通常含有大量隱藏信息,訓(xùn)練難度更大,為此,F(xiàn)elzenszwalb 在PS 模型框架中融合隱藏變量支持向量機(Latent Support Vector Machines,LSVM),采用一種難例挖掘方法,并用式(4)對樣本x進行評分:
其中,β是模型參數(shù)向量,z是隱藏變量,是特征向量。針對PS算法檢測速度慢的問題,文獻[49]引入特征金字塔,將模型擴展成星型結(jié)構(gòu),并通過主成分分析在不產(chǎn)生明顯信息丟失的情況下進行特征降維,以提高檢測速度。經(jīng)過這兩方面改進,PS 模型演進成混合多尺度可變形部件模型(Mixture Multi-Scale DPM,MMS-DPM),檢測精度和速度均有較大提升。但由于星型結(jié)構(gòu)的引入,計算量仍很大,F(xiàn)elzenszwalb等人對星型結(jié)構(gòu)進行級聯(lián)判斷,快速剔除無用配置,檢測效率躍升20倍[51]。至此,基于DPM的目標檢測框架基本完成,為后續(xù)基于形變模板的遮擋人臉檢測奠定了基礎(chǔ)。
2012 年,Zhu 和 Ramanan[20]針對現(xiàn)實環(huán)境中人臉因角度變化引起的自遮擋問題,提出可以同時用于人臉檢測、姿勢估計、標記估計的混合樹模型MTM。該模型傳承了PS 算法中樹形結(jié)構(gòu)和動態(tài)編碼的思想,提出帶有部件共享池V 的MTM,樹形結(jié)構(gòu)在獲取全局彈性形變方面有突出優(yōu)勢,全局混合可捕獲由于視點引起的拓撲變化,如圖3所示。該模型尋找最佳匹配的過程可描述為式(5)中計算部件L的組態(tài)得分S(I,L,m)最大值的過程。
式(5)中,面部樹形結(jié)構(gòu)仍用無向圖(V,E)表示,m表示增加的混合,即Tm=(Vm,Em),I表示圖片,li=(xi,yi)是部件i的像素位置。式(6)表示在部件的像素位置上放置模板微調(diào)參數(shù)m后的外觀表現(xiàn)總和,?(I,li)表示在圖片的li處提取的特征向量,式(7)表示部件L特定混合下的空間排列,dx=xi-xj,dy=yi-yj表示第部分對第j部分的位移,式中每一項都可表示一對部件間引入的空間約束的彈簧,(a,b,c,d)表示彈簧的靜止位置和剛度,最后一項?m是與視點混合m相關(guān)的標量偏置,S的最大取值即對應(yīng)最佳匹配。實驗結(jié)果表明,MTM的性能優(yōu)于數(shù)10億數(shù)據(jù)訓(xùn)練出的商用算法Google Picasa and face.com。遮擋人臉檢測是從對自然環(huán)境下人臉檢測的關(guān)注中發(fā)展起來的,MTM模型將DPM用于現(xiàn)實場景檢測并關(guān)注到了自遮擋問題,為基于模板匹配的遮擋人臉檢測算法的發(fā)展奠定了基礎(chǔ)。
基于部件的模型處理遮擋的通用方法是用部件特征得分與固定閾值比較[52],然而設(shè)置閾值的標準難以確定。針對這一問題,Ghiasi 等[53]提出一種可以明確模擬部件遮擋的級聯(lián)形變部件模型(Hierarchical deformable Part Model,HPM)。HPM 的結(jié)構(gòu)如圖 4 所示,與DPM和MTM 模型不同的地方在于其添加了不包含“根過濾器”的部件節(jié)點以及使用混合模型模擬遮擋模式,即每個部件采用一組形狀狀態(tài)和遮擋狀態(tài)來表示。
HPM的樹形結(jié)構(gòu)得分函數(shù)為:
式(8)中,l、s、o分別表示面部部件和關(guān)鍵點的假設(shè)位置,形狀和遮擋,Φ表示在位置li處編碼的局部外觀得分,Ψ是二次變形罰分,成對參數(shù)bij編碼共現(xiàn)的特定遮擋模式和形狀偏差。外觀得分計算過程為:
由于外觀模型僅與模型中的葉節(jié)點有關(guān),所以式(9)僅對葉節(jié)點進行相加。其中,是使式(9)線性參數(shù)化的權(quán)重,如果第i個關(guān)鍵點未被遮擋,則外觀特征Φ由在位li處提取的HOG 特征給出,否則該特征被設(shè)置為0。Ψ可線性參數(shù)化的表示為:
式(10)實際上是根據(jù)關(guān)鍵點j相對于其父部件i的位移對關(guān)鍵點的得分,ωij為標準的二次彈簧。實驗結(jié)果表明,HPM 在定位遮擋人臉關(guān)鍵點方面性能優(yōu)越。如圖5所示,圖(a)是用Zhu等的MTM模型定位遮擋人臉,不僅模型扭曲,未被遮擋的部分也因遮擋而定位不準;圖(b)則是用HPM 定位相同圖片的表現(xiàn)結(jié)果,可見HPM對遮擋進行顯式建模的方式能明顯改善扭曲定位并準確預(yù)測遮擋部位的關(guān)鍵點,然而部件節(jié)點的加入和動態(tài)建模的方法也大大增加了模型的計算量,嚴重影響實時性。
圖3 視點變化引起的拓撲變化
圖4 HPM結(jié)構(gòu)模型圖
圖5 HPM與MTM檢測結(jié)果對比圖
Ghiasi等[54]為應(yīng)對數(shù)據(jù)集中經(jīng)常出現(xiàn)的圖片低分辨率問題,在HPM 的基礎(chǔ)上做了進一步的模型拓展和實驗擴展,在HPM 基礎(chǔ)上提出一個多分辨率變體模型(M-R HPM)。高分辨率模型僅在原模型基礎(chǔ)上改變胞元大小為(3,3),低分辨率模型則將面部分為7個部件,并選用(7,7)的胞元大小。實驗拓展方面,在HPM基礎(chǔ)上改進參數(shù),將原本的每個訓(xùn)練樣例生成的4個合成遮擋樣例擴充為8個,為驗證M-R HPM模型的性能,分別在FDDB和自制含遮擋面部數(shù)據(jù)集UCI-OFD上與其他優(yōu)質(zhì)算法進行多方面比較,結(jié)果顯示,M-R HPM 在遮擋子集里有明顯的性能優(yōu)勢。
為進一步提升檢測速度,Yan等[55]在級聯(lián)DPM的基礎(chǔ)上進行了三步改進,引入判別低秩根濾波器降低根分數(shù)計算成本,引入鄰閾感知級聯(lián)降低部件的計算成本,引入矩陣索引降低HOG特征生成的計算成本。實驗表明,該算法保證精度的同時,速度較MTM提升了2個數(shù)量級。
DPM 融合了彈簧形變模型,對人臉角度、姿態(tài)變化較為魯棒,HOG 特征本身具有的光照不變性使基于DPM 的算法體系對光照變化不敏感,而DPM 在通過滑窗檢測時構(gòu)建尺度金字塔,解決尺度變化問題,故該算法體系具備一定的處理人臉角度、姿態(tài)、光照及尺度變化等復(fù)雜場景的能力。此外,基于DPM 的算法體系還關(guān)注到了自然場景下的人臉檢測問題,對檢測環(huán)境的限制要求較低,且表現(xiàn)出在遮擋定位方面的優(yōu)越性能,然而復(fù)雜的計算使其檢測速度仍然較慢,難以實時應(yīng)用。
表1 展現(xiàn)了基于Adaboost 和基于DPM 兩種遮擋人臉檢測算法體系的性能:
在檢測速度方面,基于Adaboost的算法體系更具優(yōu)勢,在檢測一張FDDB 圖片時,基于ZYNQ 平臺的Adaboost算法的檢測速度較MTM提升了2個數(shù)量級,即使是最快的DPM 算法,速度仍稍遜于基于Adaboost 的算法體系。
在應(yīng)對復(fù)雜場景方面,相較基于Adaboost的算法體系,形變部件模型的優(yōu)勢得以體現(xiàn),基于DPM的算法體系針對遮擋人臉檢測問題提出優(yōu)化模型并在專門的遮擋人臉數(shù)據(jù)集上進行評測,給出更為直觀的量化結(jié)果。在適用環(huán)境方面,基于Adaboost的算法體系優(yōu)勢在場景相對簡單的單個正面遮擋人臉檢測方面,如ATM環(huán)境、海關(guān)出入境卡口等,基于DPM 的算法體系適合于人流較為密集、人臉角度姿態(tài)變化更為豐富且實時性需求不高的環(huán)境。
表1 基于手工設(shè)計特征的經(jīng)典算法性能匯總
深度神經(jīng)網(wǎng)路的發(fā)展[56-57]促使深度學(xué)習(xí)成為實現(xiàn)人工智能的重要技術(shù)方法,現(xiàn)已成功地應(yīng)用于諸多領(lǐng)域,如自然語言處理、自動駕駛和生物特征識別等[58-59],其在計算機視覺領(lǐng)域表現(xiàn)十分突出[60-64],在處理遮擋人臉檢測這一難點問題上也取得了較好結(jié)果,相關(guān)方法匯總?cè)绫? 所示?;谏疃葘W(xué)習(xí)檢測遮擋人臉的研究可歸為三方面的工作:(1)加強未被遮擋的面部信息可辨性;(2)模仿人眼視覺機制,結(jié)合面部以外信息進行輔助檢測;(3)完善人臉數(shù)據(jù)庫,提高模型性能,這里著重從上述方面進行總結(jié)分析。
Faceness-Net[65]是較早按屬性提取面部特征用于遮擋人臉檢測的代表,該模型從人臉屬性的角度解決遮擋人臉檢測的問題,先用屬性感知網(wǎng)絡(luò)提取面部屬性特征,各屬性特征圖聯(lián)合形成面部特征用于候選區(qū)域的提取;隨后利用面部空間結(jié)構(gòu)唯一性為候選區(qū)域評分并排序,大量誤報窗在此步驟被剔除;最后訓(xùn)練一個多任務(wù)的CNN 來同時完成人臉二分類和邊界框回顧。Faceness-Net對遮擋的魯棒得益于面部屬性特征分類提取,從而實現(xiàn)當(dāng)某部分被遮擋時,其他部分仍可被精確定位。大量實驗表明,F(xiàn)aceness-Net性能優(yōu)越,既保證了運行速率,又在提出人臉候選窗、召回率、平均精度等方面優(yōu)于參與比較的其他先進算法,這印證了面部屬性分析對遮擋人臉的檢測具正向加成作用,然而這種方法也存在一定的局限性,實際應(yīng)用中,許多遮擋人臉圖像本身也屬于低分辨率圖像,遮擋面積較大或圖片質(zhì)量不高時會對面部評分帶來困難。
Wang 等[66]通過整合 one-shot RetinaNet[67]和 anchorlevel attention 提出的人臉注意力網(wǎng)絡(luò)(Face Attention Network,F(xiàn)AN)也是通過加強未遮擋部分的面部特征來實現(xiàn)遮擋人臉檢測的。Retina Net由特征金字塔網(wǎng)絡(luò)[68]和ResNet 結(jié)合而成,具有豐富的語義信息,F(xiàn)AN 在其5個檢測層的每一層中的像素范圍里參照標準人臉為anchor配有1∶1.5的寬高比。FAN的創(chuàng)新性在于設(shè)計了錨級注意力網(wǎng)絡(luò),并使傳統(tǒng)的特征圖與錨點圖的乘法操作變更為指數(shù)操作,從而增強面部特征可辨性同時抑制面部以外的信息。注意力機制多用于語意分析,圖像描述等領(lǐng)域,F(xiàn)AN的成功使注意力機制作用于困難人臉檢測成為可能。
Zhu等[69]提出一種遮擋自適應(yīng)深層網(wǎng)絡(luò)(Occlusionadaptive Deep Networks,ODN)來實現(xiàn)遮擋人臉檢測。ODN由三個模塊組成:幾何感知模塊、蒸餾模塊和低秩學(xué)習(xí)模塊。圖片經(jīng)過殘差模塊生成的特征圖同時輸入到幾何感知模塊和蒸餾模塊,分別獲得幾何信息和清晰的特征表示,蒸餾模塊可以在估計面部外觀和形狀之間關(guān)系的過程中自動學(xué)習(xí)并推斷出高級特征中每個位置的遮擋概率,遮擋概率充當(dāng)高級特征的自適應(yīng)權(quán)重,以減少遮擋的影響并獲得清晰的特征表示。由于清晰的特征表示缺乏語義特征,無法表示整體面孔,為了獲得詳盡而完整的特征表示,這兩部分信息又作為低秩學(xué)習(xí)模塊的輸入,通過人臉特征間關(guān)系恢復(fù)丟失的特征。經(jīng)過實驗驗證,ODN性能優(yōu)越,并對遮擋和極端姿勢魯棒。
人臉檢測器對具有強分辨性的特征子塊具有強依賴性,當(dāng)這些部分被遮擋時,人臉常會被漏檢,而另外一些不具有區(qū)分性的子部甚至?xí)谡?xùn)練集上產(chǎn)生負中值響應(yīng)。Opitz 等[70]針對這一現(xiàn)象為CNNs 提出一個可強化弱分辨力特征的損失層Grid loss,不同于以往的損失函數(shù)直接對整張圖片計算損失的做法,Grid loss將人臉特征圖分成若干網(wǎng)格,將每一格的損失與整張圖的損失加和作為最終損失,強化了每一格的特征可辨性,進而訓(xùn)練CNNs 檢測遮擋人臉。損失函數(shù)強化了特征圖中每一個小網(wǎng)格的識別特性,即使遮擋住的部位是傳統(tǒng)檢測器所依托的強可辨性部位,仍能通過檢測其他部位解決。實驗驗證運用Grid loss 構(gòu)建的檢測器可以大幅度提升對遮擋人臉的檢測效果,并且Grid loss能起到正則化作用,在小樣本訓(xùn)練時有更好的表現(xiàn),可用于實時檢測。值得注意的是Grid loss專為檢測遮擋人臉設(shè)計,且不產(chǎn)生額外的時間代價,可與多種優(yōu)秀的遮擋人臉檢測框架結(jié)合,訓(xùn)練出更優(yōu)質(zhì)的模型,但其也存在難以應(yīng)對大的姿態(tài)變化的缺陷。
由于大面積遮擋會使面部信息丟失較多,有限的特征會給檢測帶來困難,研究人員指出面部以外的信息用于輔助檢測對提高模型性能非常重要。Zhu等人[71]指出只根據(jù)面部特征信息檢測遮擋人臉的方法難以處理大面積遮擋問題,為此提出參考人眼視覺機制的基于語境的多尺度區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Contextual Multi-Scale Region-based CNN,CMS-RCNN),即面部和身體同時被檢測到并符合特定的空間關(guān)系時才判定人臉存在。此方法的關(guān)鍵步驟在于如何融合好提取到的身體信息和面部信息,身體信息和面部信息的融合采用后期融合策略融合成一個長特征向量,使得網(wǎng)絡(luò)能參考更多的語義信息。對比實驗驗證了融合身體信息后可以更好地應(yīng)對遮擋這一類困難情況,CMS-RCNN 與包含F(xiàn)aceness-Net在內(nèi)的其他4種先進算法進行了實驗比較。實驗結(jié)果表明,CMS-RCNN 無論在簡單情況還是困難情況,都較其他算法有極為突出的優(yōu)勢,且測試數(shù)據(jù)集難度越高,系統(tǒng)表現(xiàn)越好,因此CMS-RCNN是R-CNN家族中更接近人眼檢測的網(wǎng)絡(luò)架構(gòu)。PyramidBox 引入了一個語境敏感結(jié)構(gòu)(Context-sensitive Prediction Module,CPM)[72]將語境信息整合到目標人臉周圍,并增加預(yù)測網(wǎng)絡(luò)容量從而提高對遮擋人臉的檢測準確性。雙射人臉檢測器(Dual Shot Face Detection,DSFD)[73]在PyramidBox的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)中結(jié)合感受野模塊(Receptive Field Block,RFB)[74]提出性能更魯棒的特征增強模塊(Feature Enhance Module,F(xiàn)EM),同時改進了錨框設(shè)計和損失函數(shù)。這種多角度的改進很大程度上消除了遮擋和尺寸帶來的檢測障礙,并使DSFD 成為當(dāng)時的最優(yōu)算法,在Wider-Face和FDDB評測標準上都取得最優(yōu)結(jié)果,多角度融合的改進策略可以有針對性地讓經(jīng)過驗證的有效模塊發(fā)揮作用,提升模型性能,然而這種多角度優(yōu)化也可能在一定程度上增加計算時間。
表2 基于深度學(xué)習(xí)的遮擋人臉檢測算法匯總表
Ge 等[75]提出的局部線性嵌入式卷積神經(jīng)網(wǎng)絡(luò)(Locally Liner Embedding CNN,LLE-CNN)也是從探索面部以外區(qū)域的信息來實現(xiàn)遮擋人臉檢測的。檢測流程如圖6所示,輸入的圖片先經(jīng)Proposal Module提取面部候選框,并用噪聲描述符表示;隨后在Embedding module中,經(jīng)由大量圖片構(gòu)成的人臉字典和非人臉字典訓(xùn)練出的最近鄰來細化描述符,由遮擋造成的遮擋面部信息在這一步得以補全;最后,Verification Module同時給出分類和回歸的結(jié)果。經(jīng)過大量的實驗,LLE-CNN在遮擋數(shù)據(jù)集上MAFA上的表現(xiàn)中比次優(yōu)算法AP值提高了15.6%,并在12種遮擋程度、類型,面部朝向下均優(yōu)于其他6種方法。
2018 年,Chen 等[76]提出對抗性遮擋感知人臉檢測器(Adversarial Occlusion-aware Face Detector,AOFD),利用深層對抗網(wǎng)絡(luò)來模擬現(xiàn)實場景中的遮擋面部特征,并用生成的面部樣本訓(xùn)練檢測器,同時利用上下文信息在實現(xiàn)遮擋人臉檢測的同時完成遮擋區(qū)域分割,為后續(xù)基于面部特征的相關(guān)任務(wù)提供幫助;AOFD在MAFA上結(jié)果與 FA-Net 和 LLE-CNN 進行比較,AP 分別提高了3.6%和31.3%,顯示出AOFD在遮擋人臉檢測方面的優(yōu)越性能。Zhang等[77]提出一種基于上下文信息的生成對抗網(wǎng)絡(luò)(Contextual based Generative Adversarial Network,C-GAN),充分利用面部周圍信息訓(xùn)練GAN,以提高檢測器性能,進而完成人臉檢測。GAN 包含一個生成模型G和一個鑒別模型D,生成器生成樣本供鑒別器鑒別,鑒別結(jié)果再反饋給生成器用于性能優(yōu)化,G 和D在博弈的過程中交替優(yōu)化。生成網(wǎng)絡(luò)包含上采樣子網(wǎng)和優(yōu)化子網(wǎng),低分辨率圖像通過上采樣子網(wǎng)輸出高分辨率圖像,優(yōu)化子網(wǎng)完善高分辨率圖像;鑒別網(wǎng)絡(luò)的分類子網(wǎng)完成人臉-非人臉,真實圖像-虛假圖像的鑒別,回歸子網(wǎng)用于完善較難人臉的邊框檢測,通過多種類別的實驗,消融驗證了C-GAN對遮擋人臉,小人臉這類難點問題的有效性。GAN在應(yīng)對姿態(tài)變化方面上有突出優(yōu)勢,結(jié)合語境信息對抗生成更適宜復(fù)雜場景的人臉檢測模型,但同時GAN也存在訓(xùn)練難度大、模型設(shè)計困難的問題。
需要特別指出的是,目前,諸多算法在遮擋人臉檢測方面的表現(xiàn)被用作評價其應(yīng)對困難場景能力的指標之一,這些算法并不專門針對遮擋情況提出,但經(jīng)WiderFace復(fù)雜數(shù)據(jù)集測試,具有檢測遮擋人臉的能力,從這些算法中可以提取對遮擋人臉檢測有益的參考。SSH[78]在每個預(yù)測模塊上通過濾波器對上下文信息建模,并消融驗證明了上下文模塊的加入使其在Wider-Face數(shù)據(jù)集上的測試精度平均提高了0.5%。選擇性細化網(wǎng)絡(luò)(Selective Refinement Network,SRN)[79]在淺層特征映射上通過選擇性兩部分類器(Selective Twostep Classification,STC)進行錨框分類,在深層特征上通過選擇性兩步回歸器(Selective Two-step Regression,STR)進行錨框調(diào)整,加入感受野增強模塊(Receptive Field Enhancement,RFE),使用1×k,k×1 的卷積層提供多種矩形感受野來融合上下文信息以達到優(yōu)化檢測性能的目的,SRN 在WiderFace 上的性能超越了PyramidBox。
圖6 LLE-CNN框架圖
值得一提的是在SRN算法上進一步優(yōu)化得到的改進選擇性細化網(wǎng)絡(luò)(Improved Selective Refinement Network,ISRN)[80]和在PyramidBox 上通過對既有模塊改進提出的平衡數(shù)據(jù)錨采樣(Balanced Data Anchor Sampling),密集上下文模塊(Dense Context Module)和多任務(wù)訓(xùn)練(Multi-task Training)得到PyramidBox++[81]。這兩個算法都是當(dāng)前最頂尖的檢測算法,ISRN 在世界最大合照上檢測到900張人臉,PyramidBox++的檢測結(jié)果是916 張,這兩個算法都充分利用了既有優(yōu)質(zhì)算法,發(fā)揮模塊最佳效能,針對算法中的薄弱環(huán)節(jié)逐個有針對性的優(yōu)化,進行整體檢測性能的提升,如PyramidBox++中的BDAS 數(shù)據(jù)增強模塊是SSD[82]采樣模塊與數(shù)據(jù)錨采樣(Data-Anchor-Sampling,DAS)的結(jié)合,ISRN 在數(shù)據(jù)增強方面則是在SRN的基礎(chǔ)上融合了DAS模塊。這種薄弱環(huán)節(jié)的融合改進使算法在不損失速度的情況下提高了應(yīng)對復(fù)雜人臉的檢測精度。
基于深度學(xué)習(xí)的人臉檢測方法通過設(shè)計網(wǎng)絡(luò)框架自動學(xué)習(xí)圖片特征,在充分挖掘未遮擋部分檢測遮擋人臉的算法中,專注于面部特征,對姿態(tài)變化和局部遮擋有較好的處理能力,然而也因?qū)γ娌繀^(qū)域的依賴性,性能受圖像分辨率影響較大;在利用復(fù)合信息檢測遮擋人臉的算法中,神經(jīng)網(wǎng)絡(luò)模擬人眼視覺機制,身體特征的加入使其對姿態(tài)、角度、尺寸、遮擋的檢測性能更優(yōu)。
表2 綜合比對了基于深度學(xué)習(xí)的遮擋人臉檢測算法的性能:
在檢測速度方面,基于深度學(xué)習(xí)的算法體系雖仍較基于Adaboost的算法體系存在一些差距,但深度神經(jīng)網(wǎng)絡(luò)和GPU的運用已使該部分算法的檢測速度整體得到較大提升。
在應(yīng)對復(fù)雜場景的處理方面,基于深度學(xué)習(xí)的遮擋人臉檢測算法在WiderFace Val_hard 子集和MAFA 上的AP突破90%,在FDDB上突破99%,說明了基于深度學(xué)習(xí)的遮擋人臉檢測算法在處理背景復(fù)雜、姿態(tài)多變的自然場景人臉檢測問題方面具有卓越性能。
在適用環(huán)境方面,基于深度學(xué)習(xí)的遮擋人臉檢測算法因檢測準確率高和抗干擾能力強的綜合優(yōu)勢,適用于人流密集、姿態(tài)不受限的現(xiàn)場場景人流檢測。
數(shù)據(jù)集及評價標準對模型性能的提升和量化評估具有極為重要的作用,就遮擋面部的檢測問題而言,一個數(shù)據(jù)完備,標注清楚的遮擋面部數(shù)據(jù)集是提升模型性能的有效方法。網(wǎng)絡(luò)上開源的通用人臉數(shù)據(jù)集較多[83-85],然而針對遮擋人臉問題設(shè)計的數(shù)據(jù)集較為缺乏,目前可較好地用于訓(xùn)練和測評遮擋人臉檢測器的開源數(shù)據(jù)集有 FDDB[86]、AFW、AFLW、300W、Wider Face[87]、MAFA[75]和COFW(Caltech Occluded Faces in the Wild)[88],匯總結(jié)果如表3所示。
其中,F(xiàn)DDB、AFW、AFLW 和300W 是自然場景下的人臉數(shù)據(jù)集,由于數(shù)據(jù)成像場景豐富,適用于遮擋人臉檢測問題,WiderFace、MAFA、COFW 則專門標注了人臉的遮擋屬性。
FDDB 數(shù)據(jù)集及評價標準自2010 年公布以來被廣泛使用。數(shù)據(jù)是由雅虎新聞網(wǎng)站上收集到的2 845張圖片組成,包含了大量遮擋、低分辨率、異常姿態(tài)等情況。FDDB 與大部分數(shù)據(jù)集不同之處在于其采用的是更貼合面部輪廓的橢圓形標注,根據(jù)橢圓中心位置、長軸短軸長度以及人臉方向確定橢圓框具體位置,并提供單獨評分(Discrete Score,DS)和連續(xù)評分(Continuous Score,CS)兩種評分方式,不同算法的分值通過ROC曲線直觀比較。
表3 遮擋人臉數(shù)據(jù)集匯總表
AFW是早期為測評模型在自然場景下檢測能力而提出的數(shù)據(jù)集,標注了矩形邊界框,6個關(guān)鍵點及3種姿態(tài)變化,由于數(shù)據(jù)量較小,僅有205張圖片,故多被直接用作測試集。
AFLW 同時標注了橢圓框、矩形框和21 個特征點,其中橢圓框的標注方法與FDDB相同,AFLW數(shù)據(jù)集包含21 997張圖片,其中男女比例3∶2,人像外表和成像環(huán)境變化較大,數(shù)據(jù)豐富,標注清晰,對人臉屬性分析、人臉檢測和識別等領(lǐng)域的研究具有推進作用。
300W則是用半監(jiān)督的方式統(tǒng)一標注AFW、Helen、IBUG 等多個數(shù)據(jù)集的圖像,特征點為68 個,由于數(shù)據(jù)來源多樣,故而對受檢模型的泛化能力具有較好的評估性。
WiderFace 數(shù)據(jù)集包含 32 203 張圖片和 393 703 個標注人臉,10倍于當(dāng)時最大的人臉檢測數(shù)據(jù)集,大量變化的標簽?zāi)樤谕庥^、比例、姿勢和遮擋等方面具有較高的復(fù)雜度和豐富度,使其成為目前開源數(shù)據(jù)集中檢測難度最大,數(shù)據(jù)豐富度最高的數(shù)據(jù)集之一。WiderFace 中158 989被選為訓(xùn)練子集,39 496為驗證子集,其余為測試子集,其中驗證集和測試集又根據(jù)檢測的難易程度分為簡單、中等、困難3個等級以供分類測試。
COFW 是較早設(shè)計的遮擋檢測數(shù)據(jù)集,規(guī)模較小,設(shè)計初衷是為了檢測遮擋下的面部標志點定位,包含1 852 張含遮擋的注釋人臉。其中訓(xùn)練集包含1 345 張不包含遮擋的圖片,測試集包含507 張包含遮擋的圖片,平均遮擋率約23%,經(jīng)過Grid loss[68]中的二次統(tǒng)計,其中329 張圖片被遮擋的點位超過30%,屬重度遮擋,剩余的178張則是輕微遮擋。
MAFA是專門針對遮擋(蒙面)人臉構(gòu)建的數(shù)據(jù)集,包含從網(wǎng)上搜集來的30 811張圖片,每張圖片至少包含一張遮擋面,這一點是通用人臉數(shù)據(jù)集所不具備的。數(shù)據(jù)集手動標注6種屬性,分別是人臉位置、眼鏡位置、遮擋位置、面孔朝向(左,中,右,左前,右前)、遮擋程度(強,中,弱)和遮擋類型(簡單面具:純色人造遮擋物,復(fù)雜面具:復(fù)雜紋路的人造遮擋物,人體遮擋及混合遮擋),該數(shù)據(jù)集對更為復(fù)雜的遮擋人臉檢測數(shù)據(jù)集構(gòu)建以及深度學(xué)習(xí)模型訓(xùn)練和優(yōu)化具有較好的參考意義。
遮擋人臉檢測是人臉識別、面部屬性分析、視頻人像追蹤等計算機視覺任務(wù)面向現(xiàn)實場景應(yīng)用難以回避的問題,受到較多關(guān)注,研究人員利用基于手工設(shè)計特征和深度學(xué)習(xí)的方法對遮擋人臉檢測開展了深入的探索,并取得了顯著進展。但是相比于一般人臉檢測方法在通用數(shù)據(jù)集上的優(yōu)異表現(xiàn),有遮擋人臉檢測算法在專門數(shù)據(jù)集上的準確率和效率尚存在一定不足。
表4綜合比對了文中的三類算法體系的性能,可以看出,基于手工設(shè)計特征的兩類經(jīng)典算法在性能上尚存一定缺陷,基于Adaboost的算法級聯(lián)弱分類器形成檢測性能更優(yōu)的強分類器,優(yōu)點在于檢測速度較快,實時性強,對硬件設(shè)備要求低,然而受手工設(shè)計特征靈活性不高和可靠性差的影響,對檢測場景和待檢人臉角度有較高要求。基于DPM的算法體系在發(fā)展過程中依次提出了克服模型訓(xùn)練難度大,檢測速度慢,計算復(fù)雜度高,閾值標準難以確定,圖像分辨率低等一系列問題的方案,逐步提高檢測效率、精度及對遮擋的魯棒性能,不足之處則在于基于局部模型的算法體系提取的均是圖片的HOG特征,HOG特征本身存在抗噪聲能力差,描述子生成時間冗長等局限,優(yōu)化后的模型算法計算復(fù)雜度仍然較高,算法模型難以用于實時檢測。
基于深度學(xué)習(xí)的遮擋人臉檢測算法近年來被大量提出并取得較大進展,深度卷積神經(jīng)網(wǎng)絡(luò)框架用于提取目標圖像深層次特征和語義信息,實現(xiàn)特征的非線性表達和描述,結(jié)合數(shù)據(jù)增強、錨框設(shè)計和損失函數(shù)設(shè)計等模塊,實現(xiàn)充分挖掘未被遮擋的面部信息和結(jié)合上下文信息加強感受野輔助檢測,提高算法的抗干擾能力,在復(fù)雜場景檢測和檢測實時性方面都有較好的表現(xiàn)。其不足之處在于訓(xùn)練難度較大,算力要求較高。
數(shù)據(jù)集對于模型訓(xùn)練和優(yōu)化非常重要,特別是對深度學(xué)習(xí)模型的應(yīng)用和泛化,起著必要的基礎(chǔ)作用。相對于常規(guī)的人臉檢測數(shù)據(jù)集,專門用于遮擋人臉檢測的大規(guī)模數(shù)據(jù)集仍然較少,可能是因為數(shù)據(jù)收集困難,標注費時費力,導(dǎo)致用于遮擋人臉檢測的數(shù)據(jù)集還很不完備,數(shù)據(jù)量少。而現(xiàn)實環(huán)境下,人臉面臨遮擋、偽裝甚至混合遮擋的情況并不少見,干擾背景也更為復(fù)雜,故構(gòu)建數(shù)據(jù)量大,姿勢、光照、遮擋、尺寸等復(fù)雜變化的標注和屬性準確描述的數(shù)據(jù)集尚需進一步研究。
表4 各算法體系性能匯總
遮擋人臉檢測在面向現(xiàn)實場景的實時應(yīng)用時,對模型魯棒性及檢測速度、精度都有較高要求,基于手工設(shè)計特征的經(jīng)典方法應(yīng)注重提升算法的抗干擾能力,提高模型應(yīng)對維度變化時的穩(wěn)定性和檢測時效性問題。
基于Adaboost 的算法重在提高特征靈活性及穩(wěn)健型,在手工設(shè)計特征時可參考3D 人臉特點設(shè)計[89]更貼合面部的特征以應(yīng)對維度變化,基于DPM 的算法模型應(yīng)注重降低模型計算復(fù)雜度應(yīng)對實時性問題,可通過結(jié)合深度神經(jīng)網(wǎng)絡(luò)和應(yīng)用GPU 來降低時間成本。此外,開發(fā)設(shè)計新型算法應(yīng)對各種遮擋及復(fù)雜場景等特征損失或噪聲干擾的魯棒性問題也值得關(guān)注。
基于深度學(xué)習(xí)的遮擋人臉檢測算法中,深度卷積神經(jīng)網(wǎng)絡(luò)框架用于圖像特征提取和噪聲抑制,準確率和魯棒性較好,但是目前基礎(chǔ)框架訓(xùn)練難度大,對硬件設(shè)備性能依賴性較強的問題仍然存在,故應(yīng)加強對基礎(chǔ)框架的創(chuàng)新及優(yōu)化,包括設(shè)計輕量型網(wǎng)路架構(gòu)。在這一點上,羅明柱等[90]微調(diào)AlexNet 使其突破圖片尺寸限制和張等[91]設(shè)計輕量級網(wǎng)絡(luò)的做法值得借鑒。加強對GAN、注意力機制和信息融合等方面的探索,在保證檢測精度的同時降低模型訓(xùn)練難度,如GAN 在應(yīng)對姿態(tài)變化和雜亂背景方面有突出優(yōu)勢,然而其設(shè)計還不成熟,易在訓(xùn)練時出現(xiàn)學(xué)習(xí)崩潰和模型不可控的問題,應(yīng)加強對網(wǎng)絡(luò)性能的探索,使其更易量化地判斷模型的優(yōu)劣,注意力機制則具有參數(shù)少,模型簡單,容易訓(xùn)練的特點,易與其他網(wǎng)絡(luò)層融合提高局部特征可辨性和抑制噪聲[94];充分利用圖像信息,注重面部屬性信息的同時參考人眼視覺機制,融合語境信息進行檢測,以提高檢測準確率。
眾所周知,數(shù)據(jù)集對模型訓(xùn)練意義重大,構(gòu)建用于遮擋人臉檢測的專門數(shù)據(jù)集和評測標準以優(yōu)化深度模型的訓(xùn)練,提高模型的精確度、魯棒性和實時性也是未來的重要工作之一。但是包含遮擋等復(fù)雜場景的數(shù)據(jù)集不可能包含所有場景,數(shù)據(jù)量也不可能過大,故未來半監(jiān)督、無監(jiān)督或遷移學(xué)習(xí)方法在遮擋人臉檢測領(lǐng)域值得重點研究。
綜上所述,相信隨著人工智能的快速發(fā)展,面向現(xiàn)實場景的遮擋人臉檢測一定可以實現(xiàn)高精度實時應(yīng)用。