王成濟(jì),羅志明,鐘準(zhǔn),李紹滋
(1. 廈門大學(xué) 智能科學(xué)與技術(shù)系,福建 廈門 361005; 2. 廈門大學(xué) 福建省類腦計(jì)算技術(shù)及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,福建 廈門361005)
人臉識(shí)別技術(shù)作為智能視頻分析的一個(gè)關(guān)鍵環(huán)節(jié),在視頻監(jiān)控、網(wǎng)上追逃、銀行身份驗(yàn)證等方面有著廣泛的應(yīng)用。人臉檢測(cè)是人臉識(shí)別的基礎(chǔ)關(guān)鍵環(huán)節(jié)之一,在智能相機(jī)、人機(jī)交互等領(lǐng)域也有著廣泛的應(yīng)用。人臉檢測(cè)是在輸入圖像中判斷是否存在人臉,同時(shí)確定人臉的具體大小、位置和姿態(tài)的過(guò)程。作為早期計(jì)算機(jī)視覺(jué)的應(yīng)用之一,人臉檢測(cè)的相關(guān)研究可以追溯到1970年[1]。由于真實(shí)場(chǎng)景中人臉的復(fù)雜性和背景的多樣性,人臉檢測(cè)技術(shù)在復(fù)雜場(chǎng)景下還存在著許多挑戰(zhàn)。
近年來(lái)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)使圖像識(shí)別、目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)任務(wù)取得長(zhǎng)足進(jìn)步[2-4]。目標(biāo)檢測(cè)問(wèn)題可以看作兩個(gè)子問(wèn)題的組合:目標(biāo)定位問(wèn)題和目標(biāo)分類問(wèn)題。目標(biāo)定位問(wèn)題主要確定物體在圖像中的具體位置,目標(biāo)分類問(wèn)題將確定目標(biāo)相應(yīng)的類別。受ren等[4]提出的區(qū)域候選框提取網(wǎng)絡(luò)(region proposal network, RPN)的啟發(fā),Huang等[5]和Yu等[6]認(rèn)為用于解決圖像分割問(wèn)題的框架同樣適用于目標(biāo)檢測(cè)問(wèn)題,它們對(duì)于圖片中的每一個(gè)像素點(diǎn)都判斷該像素是否屬于人臉區(qū)域以及當(dāng)屬于人臉區(qū)域時(shí)相對(duì)于人臉區(qū)域邊界坐標(biāo)的偏移量(當(dāng)前像素點(diǎn)與人臉邊界在空間坐標(biāo)上的相對(duì)偏移)。UnitBox[6]將用于圖像分類的VGG16[7]網(wǎng)絡(luò)改造為全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[8],在pool4特征層的基礎(chǔ)上預(yù)測(cè)像素點(diǎn)的分類得分,在pool5特征層的基礎(chǔ)上預(yù)測(cè)人臉區(qū)域內(nèi)像素點(diǎn)坐標(biāo)的偏移量。UnitBox[6]首次使用重疊率評(píng)價(jià)人臉區(qū)域內(nèi)像素點(diǎn)坐標(biāo)偏移量回歸的好壞,重疊率損失函數(shù)將人臉區(qū)域內(nèi)每個(gè)像素點(diǎn)的上下左右4個(gè)偏移量當(dāng)作一個(gè)整體,利用了這4個(gè)偏移量之間的關(guān)聯(lián)性。Yu[6]認(rèn)為用于預(yù)測(cè)人臉區(qū)域內(nèi)像素點(diǎn)坐標(biāo)偏移量的特征需要比預(yù)測(cè)人臉?lè)诸惖奶卣饔懈蟮母惺芤埃运麄儍H利用了pool5層特征預(yù)測(cè)坐標(biāo)偏移量,在預(yù)測(cè)每一個(gè)像素點(diǎn)的分類得分時(shí)UnitBox使用橢圓形的人臉區(qū)域的標(biāo)注,在測(cè)試時(shí)在分類得到的得分圖上做橢圓檢測(cè),然后提取檢測(cè)出的橢圓的中心點(diǎn)對(duì)應(yīng)的矩形框作為最終檢測(cè)結(jié)果。在實(shí)驗(yàn)中我們發(fā)現(xiàn)在使用橢圓標(biāo)注訓(xùn)練得到的得分圖像無(wú)法擬合出標(biāo)準(zhǔn)的橢圓,尤其當(dāng)多個(gè)人臉區(qū)域有重疊時(shí),無(wú)法分開(kāi)多個(gè)人臉區(qū)域。實(shí)驗(yàn)中還發(fā)現(xiàn),使用pool5層的特征雖然有很好的感受野但在處理小人臉時(shí)會(huì)因?yàn)楦惺芤斑^(guò)大造成小人臉區(qū)域內(nèi)坐標(biāo)偏移量回歸不準(zhǔn)確,影響最終檢測(cè)結(jié)果。
基于以上工作,本文使用矩形的人臉區(qū)域標(biāo)注,擯棄了UnitBox[6]后處理中的橢圓檢測(cè)的部分, 轉(zhuǎn)而使用非極大值抑制算法過(guò)濾大量重復(fù)的矩形框;當(dāng)兩個(gè)人臉區(qū)域重疊率超過(guò)非極大值抑制算法的閾值時(shí),以前的非極大值抑制算法只能夠保留一個(gè)人臉會(huì)造成漏檢,為了避免這個(gè)問(wèn)題,本文根據(jù)矩形框的重疊率對(duì)預(yù)測(cè)矩形框的得分加權(quán)降低非最大矩形框的置信度,然后使用置信度閾值來(lái)過(guò)濾矩形框,這樣當(dāng)兩個(gè)人臉檢測(cè)出的矩形框重疊率大于制定閾值時(shí)也不會(huì)直接過(guò)濾掉, 避免漏檢。在特征的感受野過(guò)大的問(wèn)題上,本文重新探索了不同卷積層在人臉檢測(cè)任務(wù)中的重要性,同比較不同大小感受野的特征組合方法對(duì)準(zhǔn)確率的影響, 發(fā)現(xiàn)結(jié)合pool4層的特征和pool5層的特征能同時(shí)處理大人臉和小人臉。
人臉檢測(cè)大致可以分為3個(gè)部分:候選框提取、圖像分類、邊框坐標(biāo)回歸。傳統(tǒng)方法采用滑動(dòng)窗口提取候選框,然后使用Harr_[9]、SIFT[10]、HOG[11]等手工提取的特征結(jié)合SVM[12]、boosting[9,13]等機(jī)器學(xué)習(xí)算法對(duì)候選框進(jìn)行分類。這種窮舉的策略雖然包含了目標(biāo)所有可能出現(xiàn)的位置,但是缺點(diǎn)也是明顯的:1)基于滑動(dòng)窗口的區(qū)域選擇策略沒(méi)有針對(duì)性,時(shí)間復(fù)雜度高,窗口冗余;2)手工設(shè)計(jì)的特征對(duì)于多樣性的變化并沒(méi)有很好的魯棒性。
為了解決滑動(dòng)窗口計(jì)算復(fù)雜度高的問(wèn)題,出現(xiàn)了利用圖像中的紋理、邊緣、顏色等信息的基于區(qū)域候選框的解決方案[14-15],這種方案可以保證在選取較少窗口的情況下保持較高的召回率。這大大降低了后續(xù)操作的時(shí)間復(fù)雜度,并且獲取的候選窗口要比滑動(dòng)窗口的質(zhì)量更高。Ross B. Girshick等[2]提出的RCNN框架,使得目標(biāo)檢測(cè)的準(zhǔn)確率取得極大提升,并開(kāi)啟了基于深度學(xué)習(xí)目標(biāo)檢測(cè)的熱潮。Fast RCNN[3]方法利用特征圖提取候選框極大地降低了基于深度學(xué)習(xí)目標(biāo)檢測(cè)方法的時(shí)間復(fù)雜度。Faster R-CNN[4]方法更進(jìn)一步,首次提出了自動(dòng)提取圖片中區(qū)域候選框的RPN網(wǎng)絡(luò),并將傳統(tǒng)的提取候選框的操作集成到特征學(xué)習(xí)網(wǎng)絡(luò)中,使得目標(biāo)檢測(cè)問(wèn)題可以達(dá)到end-to-end。CascadeCNN[16]使用3個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)分級(jí)過(guò)濾候選框。DDFD[17]首次將全卷積神經(jīng)網(wǎng)絡(luò)[8]成功地應(yīng)用于人臉檢測(cè)問(wèn)題中。
2014年J. Long等[8]提出全卷積神經(jīng)網(wǎng)絡(luò)(fully convolution network, FCN)并成功地應(yīng)用在圖像分割任務(wù)中,直到現(xiàn)在FCN依然是圖像分割的主流框架。全卷積神經(jīng)網(wǎng)絡(luò)(FCN)與卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)的主要不同是FCN將CNN中的全連接層通過(guò)卷積層實(shí)現(xiàn),并使用反卷積操作得到與輸入同樣大小的輸出,因此網(wǎng)絡(luò)的輸出由原始CNN的關(guān)于整張圖像上的分類結(jié)果變成了FCN中關(guān)于整張圖像的像素級(jí)的分類,也就是輸入圖像的每一個(gè)像素點(diǎn)都對(duì)應(yīng)有一個(gè)分類的輸出結(jié)果。FCN是直接對(duì)像素點(diǎn)進(jìn)行操作,在經(jīng)過(guò)一系列的卷積和反卷積的操作后得到與原始輸入圖像同樣大小的中間結(jié)果,最后經(jīng)過(guò)softmax操作輸出類別概率。FCN的主要網(wǎng)絡(luò)是在現(xiàn)有的AlexNet[18]、VGGNet[7]和ResNet[19]等用于圖像分類的CNN網(wǎng)絡(luò)模型上增加反卷積操作來(lái)實(shí)現(xiàn)的。DenseBox[5]在文獻(xiàn)[15]基礎(chǔ)上將人臉區(qū)域坐標(biāo)回歸問(wèn)題視為在特征圖的每一個(gè)像素位置預(yù)測(cè)這個(gè)像素坐標(biāo)相對(duì)于人臉區(qū)域邊界坐標(biāo)的偏移量的問(wèn)題,然后使用類似圖像分割的方法來(lái)處理,并采用了l2損失函數(shù)作為坐標(biāo)回歸的損失函數(shù),UnitBox[6]認(rèn)為同一個(gè)像素的4個(gè)偏移量之間是相互關(guān)聯(lián)的,為了體現(xiàn)這種關(guān)聯(lián)性提出了使用重疊率損失函數(shù),通過(guò)不斷優(yōu)化預(yù)測(cè)人臉矩形框與真實(shí)人臉矩形框的重疊率,使得最終預(yù)測(cè)的矩形框與真實(shí)矩形框的重疊率不斷增加。
本節(jié)主要介紹整體算法流程,如圖1所示。在訓(xùn)練階段有3個(gè)輸入:RGB的訓(xùn)練圖片、單通道的區(qū)域像素分類標(biāo)簽和四通道的人臉區(qū)域內(nèi)像素點(diǎn)坐標(biāo)偏移標(biāo)簽。經(jīng)過(guò)FCN網(wǎng)絡(luò)后有兩個(gè)輸出:第一個(gè)是像素級(jí)分類得分的概率圖,判斷該像素點(diǎn)是否屬于某個(gè)人臉區(qū)域;另一個(gè)是1個(gè)4通道的像素點(diǎn)坐標(biāo)偏移圖,4通道的像素點(diǎn)坐標(biāo)偏移圖中的4個(gè)通道分別對(duì)應(yīng)每一個(gè)像素值與離它最近的人臉區(qū)域的上下左右4個(gè)邊框坐標(biāo)的偏移量。最后使用交叉熵?fù)p失函數(shù)和重疊率損失函數(shù)指導(dǎo)網(wǎng)絡(luò)訓(xùn)練,我們使用聯(lián)合訓(xùn)練。標(biāo)簽形式見(jiàn)2.1節(jié),網(wǎng)絡(luò)的具體細(xì)節(jié)見(jiàn)2.2節(jié)。每一個(gè)像素都需要計(jì)算交叉熵?fù)p失,但僅僅對(duì)包含在標(biāo)注的人臉區(qū)域內(nèi)的像素點(diǎn)計(jì)算重疊率損失。在測(cè)試階段輸入圖片經(jīng)過(guò)訓(xùn)練好的FCN模型輸出每一個(gè)像素點(diǎn)的分類得分和人臉區(qū)域內(nèi)像素點(diǎn)坐標(biāo)偏移量,對(duì)每一個(gè)得分大于閾值的像素點(diǎn)我們從對(duì)應(yīng)四通道坐標(biāo)偏移圖取出該像素點(diǎn)相對(duì)于離它最近的人臉區(qū)域邊界坐標(biāo)的偏移量,假設(shè)像素點(diǎn) p(xi,yi)的預(yù)測(cè)得分si大于閾值且預(yù)測(cè)的坐標(biāo)偏移為則像素點(diǎn) p(xi,yi)的預(yù)測(cè)矩形框坐標(biāo)為使用 NMS算法過(guò)濾重復(fù)檢測(cè)的矩形框,得到最終檢測(cè)結(jié)果。
圖 1 算法流程Fig. 1 Algorithm procedure
訓(xùn)練標(biāo)簽如圖2所示。
圖 2 訓(xùn)練標(biāo)簽Fig. 2 Ground truth
對(duì)于每一張訓(xùn)練的圖像,將圖像上每一個(gè)人臉標(biāo)注的矩形區(qū)域,以1填充,其他區(qū)域填充0,作為每一個(gè)像素點(diǎn)的人臉置信度得分。假設(shè)像素點(diǎn)p(xi,yi)包含在某個(gè)人臉區(qū)域中,假設(shè)這個(gè)人臉區(qū)域左上角坐標(biāo)為pt(xt,yt),右下角坐標(biāo)為pb(xb,yb),則像素 點(diǎn) p(xi,yi)的標(biāo)簽向量形式:
網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示,使用的是去掉了全連接層和softmax層的VGG16網(wǎng)絡(luò)[7]作為模型共享的特征提取網(wǎng)絡(luò)。在共享的特征提取網(wǎng)絡(luò)的基礎(chǔ)上,在pool4特征層后添加了兩個(gè)獨(dú)立的卷積層sc_conv4和bbx_conv4,每一個(gè)卷積層包括32個(gè)3×3的卷積核,并保持特征圖分辨率大小不變,在pool5特征層后同樣添加了含有32個(gè)3×3的卷積核的卷積層bbx_conv5。因?yàn)閜ool4特征層的分辨率是輸入的1/16,為了得到與輸入同樣大小的輸出,對(duì)sc_conv4和bbx_conv4分別做了步長(zhǎng)為16的反卷積操作,將sc_conv4和bbx_conv4兩個(gè)特征層的分辨率放大16倍并保持特征維度不變,對(duì)bbx_conv5使用反卷積放大32倍使分辨率與輸入相同。sc_conv4層輸出的特征首先被放大16倍,輸入到含有32個(gè)3×3卷積核的卷積層和1個(gè)卷積核大小為1×1的卷積層,最后輸入到sigmoid激活函數(shù)得到每一個(gè)像素點(diǎn)的類別分類得分。為了得到預(yù)測(cè)的4維坐標(biāo)偏移圖,將反卷積后的bbx_conv4和bbx_conv5兩個(gè)特征層串聯(lián)后經(jīng)過(guò)連續(xù)兩層含有32個(gè)3×3卷積核的卷積層得到4維人臉區(qū)域內(nèi)的坐標(biāo)偏移圖。
圖 3 模型結(jié)構(gòu)Fig. 3 Model structure
在卷積神經(jīng)網(wǎng)絡(luò)中pooling層主要起降低分辨率的作用,越往后特征層的分辨率會(huì)越小,也越能夠提取出抽象的語(yǔ)義信息,但越抽象的特征細(xì)節(jié)信息丟失越多,在處理像素級(jí)分類任務(wù)時(shí)僅使用高層抽象的特征會(huì)導(dǎo)致邊緣部分分類不準(zhǔn)確。但是若完全依靠前面層的特征,雖然能夠提高對(duì)人臉區(qū)域邊緣的像素點(diǎn)的分類能力,但是由于淺層特征的抽象能力不夠使得整體上分類結(jié)果不準(zhǔn)確。文獻(xiàn)[8,20]的研究表明通過(guò)融合不同的特征層能夠顯著提升網(wǎng)絡(luò)的效果,F(xiàn)CN[8]中的實(shí)驗(yàn)也證明融合不同特征層特征的有效性,主要融合方式有FCN-32、FCN-16、FCN-8。UnitBox[6]認(rèn)為人臉區(qū)域邊框回歸需要抽象的語(yǔ)義信息,所以僅使用了pool5層的特征用于處理邊框回歸任務(wù),但實(shí)際實(shí)驗(yàn)中表明融合pool5和pool4兩個(gè)特征層的特征能顯著提升結(jié)果。
本文的模型共享特征層后對(duì)于不同的任務(wù)添加了多個(gè)3×3的獨(dú)立卷積操作,像素級(jí)分類得分的標(biāo)簽是[0, 1],而人臉區(qū)域內(nèi)坐標(biāo)偏移量的標(biāo)簽是[0,+w](這里的w代表所有標(biāo)注人臉區(qū)域的寬或高的最大值),pool5特征層的分辨率是輸入的1/32,pool4是輸入的1/16,使用與輸出同樣數(shù)量的卷積操作會(huì)丟失大量信息,不僅不會(huì)幫助模型訓(xùn)練反而會(huì)將前面學(xué)習(xí)到的錯(cuò)誤結(jié)果放大降低網(wǎng)絡(luò)的性能,而使用更多的卷積操作雖然會(huì)增加模型的表達(dá)能力但也會(huì)增加模型的時(shí)間復(fù)雜度。
人臉檢測(cè)問(wèn)題可以看作兩個(gè)子問(wèn)題的組合:人臉區(qū)域定位問(wèn)題和圖像分類問(wèn)題。圖像分類是對(duì)整張輸入圖像分一個(gè)類別,而圖像分割是標(biāo)注圖片每一個(gè)像素到對(duì)應(yīng)類別的任務(wù),本文將人臉檢測(cè)問(wèn)題中的圖像分類問(wèn)題看成人臉區(qū)域分割問(wèn)題。當(dāng)將圖像中的每一個(gè)像素都分配一個(gè)對(duì)應(yīng)的候選框,那么人臉檢測(cè)問(wèn)題可以分解為圖像分割問(wèn)題和候選框回歸問(wèn)題兩個(gè)子問(wèn)題,分別對(duì)應(yīng)候選框得分和候選框回歸。每一個(gè)像素的分類得分也是這個(gè)像素對(duì)應(yīng)預(yù)測(cè)矩形框的得分。本文使用多任務(wù)聯(lián)合訓(xùn)練,主要包括人臉區(qū)域分割任務(wù)和人臉區(qū)域內(nèi)像素點(diǎn)坐標(biāo)偏移回歸任務(wù)。針對(duì)分類任務(wù)我們使用的是交叉熵?fù)p失函數(shù) Lce,人臉區(qū)域的坐標(biāo)偏移量回歸使用重疊率損失函數(shù) Liou,為了使兩個(gè)損失函數(shù)在訓(xùn)練的過(guò)程中的梯度保持在同一個(gè)量級(jí)上,我們引入了一個(gè)權(quán)值λ,使得最終的損失函數(shù)L為
像素級(jí)分類問(wèn)題是要得到每一個(gè)像素輸入屬于每個(gè)類別的概率,人臉檢測(cè)問(wèn)題是二分類問(wèn)題,即人臉與非人臉。本文使用sigmoid激活函數(shù)實(shí)現(xiàn)從特征空間到[0, 1]概率空間的映射,得到每一個(gè)像素分類得分的概率,然后使用交叉熵?fù)p失函數(shù)指導(dǎo)網(wǎng)絡(luò)訓(xùn)練。sigmoid激活函數(shù)為
式中的 wjx+bj表示在激活函數(shù)前的卷積核大小為1×1的卷積層。假設(shè)像素點(diǎn) p(xi,yi)被預(yù)測(cè)為人臉的概率為 pfi,則非人臉的概率為1 ?pfi,若該像素點(diǎn)在人臉區(qū)域內(nèi)該像素點(diǎn)的標(biāo)簽 gi=1,否則 gi=0。具體的交叉熵?fù)p失函數(shù)為
l2損失函數(shù)為
重疊率損失函數(shù)為
圖 4 重疊率Fig. 4 Intersection-over-union
非極大值抑制方法(non-maximum suppression,NMS)是目標(biāo)檢測(cè)中常用的后處理方法,當(dāng)算法對(duì)同一個(gè)目標(biāo)檢測(cè)出多個(gè)重疊率較高的框,需要使用NMS來(lái)選取重疊區(qū)域里分?jǐn)?shù)最高的矩形框(人臉的概率最大),非極大值抑制方法采用的是排序—遍歷—消除的過(guò)程,在這個(gè)過(guò)程中檢測(cè)出來(lái)的矩形框的得分不變,在一定程度上會(huì)影響算法性能。N.Bodla等[21]發(fā)現(xiàn)在排序階段對(duì)重疊率高于閾值且得分較低的預(yù)測(cè)框的得分進(jìn)行加權(quán),再過(guò)濾掉得分低的矩形框能有效解決非極大值抑制算法導(dǎo)致的漏檢問(wèn)題。
受文獻(xiàn)[21]的啟發(fā),我們?cè)诜菢O大值抑制的過(guò)程中使用兩次遍歷和消除過(guò)程,在第一次遍歷過(guò)程中,當(dāng)兩個(gè)框的重疊率大于時(shí),將得分較低的窗口的得分乘以一個(gè)權(quán)值,然后根據(jù)加權(quán)后的得分過(guò)濾掉低于的窗口,完成后再次使用沒(méi)有加權(quán)的非極大值抑制方法得到最終檢測(cè)結(jié)果。在實(shí)驗(yàn)過(guò)程中,測(cè)試了兩種不同的加權(quán)方法:線性加權(quán)和高斯加權(quán)。兩種加權(quán)方法的具體計(jì)算:當(dāng)兩個(gè)窗口交并比小于 α,則得分低的窗口的得分要乘以權(quán)值weight。
線性加權(quán)為
高斯加權(quán)為
為了驗(yàn)證方法的有效性,我們使用Wider Face數(shù)據(jù)集[22]的訓(xùn)練集訓(xùn)練,并在FDDB數(shù)據(jù)集[23]和Wider Face數(shù)據(jù)集[22]的驗(yàn)證集上評(píng)測(cè)結(jié)果,并與當(dāng)前領(lǐng)先的算法進(jìn)行比較,此外本文還比較了使用不同加權(quán)方式的非極大值抑制方法的性能。
FDDB人臉評(píng)測(cè)[23]平臺(tái)的測(cè)試集有2 845張圖片,共有5 171張標(biāo)注人臉,范圍包括不同姿態(tài)、不同分辨率、不同遮擋情況的圖像。評(píng)測(cè)指標(biāo)是檢測(cè)出的矩形區(qū)域和標(biāo)注區(qū)域的重疊率,重疊率大于等于0.5表示檢測(cè)正確。
Wider Face數(shù)據(jù)集[22]是由香港中文大學(xué)公開(kāi)發(fā)布的人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集,包含訓(xùn)練集、驗(yàn)證集和測(cè)試集3部分,是現(xiàn)有FDDB數(shù)據(jù)集中標(biāo)注的圖像數(shù)量的10倍。共包含3.2萬(wàn)張圖像,39.3萬(wàn)張手工標(biāo)注的人臉,平均每張圖像有12個(gè)標(biāo)注的人臉。Wider Face數(shù)據(jù)集中的人臉姿態(tài)、大小、遮擋情況變化多樣,數(shù)據(jù)集以小人臉為主且人臉區(qū)域的分辨率偏低。整個(gè)Wider Face數(shù)據(jù)集中的圖像分為61個(gè)事件類別,根據(jù)標(biāo)注人臉的大小,數(shù)據(jù)集中的人臉檢測(cè)任務(wù)分為3個(gè)難度等級(jí)Easy、Medium、Hard,所以有3條評(píng)測(cè)曲線。
本文使用的訓(xùn)練數(shù)據(jù)來(lái)自Wider Face[22]的訓(xùn)練集,總共有12 880張圖像,統(tǒng)一將訓(xùn)練圖像的寬和高用ImageNet[24]上的圖像均值填充為32的倍數(shù),測(cè)試時(shí)同樣對(duì)圖像填充為32的倍數(shù)。訓(xùn)練是以標(biāo)注的人臉區(qū)域中心周圍占整個(gè)人臉區(qū)域3/5的區(qū)域?yàn)檎龢颖?,該區(qū)域關(guān)于標(biāo)注的人臉區(qū)域中心對(duì)稱。其他像素點(diǎn)設(shè)為負(fù)樣本。由于原始的UnitBox[6]論文沒(méi)有公布測(cè)試模型和源代碼,在本文中我們復(fù)現(xiàn)了UnitBox[6]代碼作為比較對(duì)象。在使用多任務(wù)聯(lián)合訓(xùn)練,由于人臉區(qū)域分類的損失和人臉區(qū)域邊框回歸的損失函數(shù)不在同一個(gè)數(shù)量級(jí)上,本文對(duì)分類損失賦權(quán)0.001。訓(xùn)練是在WiderFace訓(xùn)練集上訓(xùn)練,每次使用一張圖像,使用Adam算法[25]在整個(gè)數(shù)據(jù)集上迭代訓(xùn)練30輪,本文使用加權(quán)的非極大值抑制算法做后處理。
圖5中比較了本文的算法與原始UnitBox[6]算法在FDDB數(shù)據(jù)集上的性能,同時(shí)對(duì)比了另外7個(gè)經(jīng)典的人臉檢測(cè)算法:DDFD[17]、CascadeCNN[16]、ACF-multiscale[26]、Pico[27]、HeadHunter[28]、Joint-Cascade[29]、Viola-Jones[9],實(shí)驗(yàn)表明本文的多級(jí)特征串聯(lián)能明顯提升算法性能。本文的方法在共享的卷積層和串聯(lián)的特征層后都添加了卷積層,同時(shí)本文單獨(dú)對(duì)pool5層的特征添加同樣的卷積層作為對(duì)比實(shí)驗(yàn)(UnitBox-refine)。從圖5 中可以看出,僅僅在pool5層輸出的特征后添加卷積操作的結(jié)果為0.859,而在結(jié)合pool4和pool5層特征后再添加卷積操作的結(jié)果為0.906,說(shuō)明僅僅對(duì)單層特征進(jìn)行多次卷積和池化操作不能有效提升檢測(cè)結(jié)果。
圖 5 FDDB數(shù)據(jù)集ROC曲線Fig. 5 ROC Curve on FDDB dataset
同樣的,在WiderFace數(shù)據(jù)集的驗(yàn)證集上測(cè)試比較了本文算法與其他領(lǐng)先算法的性能。圖6展示了本文算法在WiderFace驗(yàn)證集的Easy、Medium和Hard三個(gè)難易程度上的性能曲線。還對(duì)比了多個(gè)先進(jìn)的人臉檢測(cè)算法:LDCF+[30]、Multiscale Cascade CNN[22]、Faceness-WIDER[31]、ACF-WIDER[26],在Easy難度上本文算法比LDCF+[30]高0.5個(gè)百分點(diǎn),在UnitBox[6]的基礎(chǔ)上提高了9個(gè)百分點(diǎn),在Medium難度上取得了0.737的檢測(cè)結(jié)果,在Hard難度上比UnitBox[6]提升了9.8個(gè)百分點(diǎn)。圖7展示了本文算法的部分檢測(cè)結(jié)果。
圖 6 WiderFace驗(yàn)證集上的準(zhǔn)確率-召回率曲線Fig. 6 Percision-recall curve on Wider Face Val set
表1比較了加權(quán)得分的非極大值抑制方法和不加權(quán)的極大值抑制方法的后處理結(jié)果,這里高斯加權(quán)中使用的方差sigma=0.5??梢钥闯鲈贔DDB數(shù)據(jù)集中使用高斯加權(quán)和線性加權(quán)獲得的提升一樣,在WiderFace數(shù)據(jù)中使用高斯加權(quán)的提升明顯大于線性加權(quán),說(shuō)明高斯加權(quán)的方法更適合于小人臉檢測(cè)問(wèn)題。在圖8中我們展示了部分不同的NMS方法的處理結(jié)果。
圖 7 檢測(cè)結(jié)果Fig. 7 Detection results
表 1 NMS對(duì)比實(shí)驗(yàn)準(zhǔn)確率Table 1 The accuracy of contrast experiment
圖 8 不同NMS的后處理結(jié)果對(duì)比Fig. 8 The comparesion of NMS methods
目標(biāo)檢測(cè)和圖像分割問(wèn)題是計(jì)算機(jī)視覺(jué)中兩個(gè)重要的基本問(wèn)題, 本文的人臉檢測(cè)方法試圖將解決圖像分割問(wèn)題的算法框架嘗試應(yīng)用于人臉檢測(cè)問(wèn)題。在前人的基礎(chǔ)上本文探索了不同的特征串聯(lián)方法對(duì)人臉區(qū)域坐標(biāo)回歸的影響,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)并不是特征組合得越多結(jié)果越好,本文使用pool4和pool5兩個(gè)特征層的特征取得了很大的提升。在后處理階段,本文通過(guò)比較分析不同的非極大值抑制策略的性能,發(fā)現(xiàn)通常使用的不加權(quán)的非極大值抑制方法雖然高效,但會(huì)在一定程度上影響目標(biāo)檢測(cè)方法的性能。本文在人臉區(qū)域分類問(wèn)題和人臉區(qū)域內(nèi)像素點(diǎn)坐標(biāo)偏移量回歸兩個(gè)問(wèn)題實(shí)際上是分開(kāi)處理,在今后的研究中如何發(fā)現(xiàn)并使用這兩個(gè)問(wèn)題之間的關(guān)聯(lián)性是一個(gè)很重要的研究思路。本文雖然使用加權(quán)得分的方法在一定程度上緩解了非極大值抑制方法檢測(cè)算法的影響,但沒(méi)有得出一般性的結(jié)論,這個(gè)問(wèn)題同樣值得深入研究。
[1]ZAFEIRIOU S, ZHANG Cha, ZHANG Zhengyou. A survey on face detection in the wild: past, present and future[J]. Computer vision and image understanding, 2015, 138:1–24.
[2]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,USA, 2014: 580–587.
[3]GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago,Chile, 2015: 1440–1448.
[4]REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster RCNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems.Montreal, Canada, 2015, 1: 91–99.
[5]HUANG Lichao, YANG Yi, DENG Yafeng, et al. Dense-Box: unifying landmark localization with end to end object detection[J]. arXiv preprint arXiv: 1509.04874, 2015.
[6]YU Jiahui, JIANG Yuning, WANG Zhangyang, et al. Unit-Box: An advanced object detection network[C]//Proceedings of the 2016 ACM on Multimedia Conference. Amsterdam, The Netherlands, 2016: 516–520.
[7]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//Proceedings of the International Conference on Learning Representations. Oxford, USA, 2015.
[8]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 3431–3440.
[9]VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai, HI, USA, 2001, 1: I-511–I-518.
[10]LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision,2004, 60(2): 91–110.
[11]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA, 2005, 1: 886–893.
[12]OSUNA E, FREUND R, GIROSIT F. Training support vector machines: an application to face detection[C]//Proceedings of the 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Juan,Argentina, 1997: 130–136.
[13]FRIEDMAN J, HASTIE T, TIBSHIRANI R. Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors)[J]. The annals of statistics, 2000, 29(5): 337–407.
[14]ZITNICK C L, DOLLáR P. Edge boxes: locating object proposals from edges[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland,2014: 391–405.
[15]UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T,et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154–171.
[16]LI Haoxiang, LIN Zhe, SHEN Xiaohui, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 5325–5334.
[17]FARFADE S S, SABERIAN M J, LI Lijia. Multi-view face detection using deep convolutional neural networks[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. Shanghai, China, 2015: 643–650.
[18]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012. Lake Tahoe,Nevada, USA, 2012: 1097–1105.
[19]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778.
[20]HARIHARAN B, ARBELáEZ P, GIRSHICK R, et al. Hypercolumns for object segmentation and fine-grained local-ization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA,2015: 447–456.
[21]BODLA N, SINGH B, CHELLAPPA R, et al. Improving object detection with one line of code[J]. arXiv preprint arXiv: 1704.04503, 2017.
[22]YANG Shuo, LUO Ping, LOY C C, et al. Wider Face: A face detection benchmark[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV, USA, 2016: 5525–5533.
[23]JAIN V, LEARNED-MILLER E. FDDB: A benchmark for face detection in unconstrained settings[R]. UMass Amherst Technical Report UMCS-2010-009, 2010.
[24]DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA, 2009: 248–255.
[25]KINGMA D P, BA J L. Adam: A method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations. Toronto, Canada, 2015.
[26]YANG Bin, YAN Junjie, LEI Zhen, et al. Aggregate channel features for multi-view face detection[C]//Proceedings of the 2014 IEEE International Joint Conference on Biometrics (IJCB). Clearwater, FL, USA, 2014: 1–8.
[27]MARKUS N, FRLJAK M, PANDZIC I S, et al. A method for object detection based on pixel intensity comparisons organized in decision trees[J]. CoRR, 2014.
[28]MATHIAS M, BENENSON R, PEDERSOLI M, et al.Face detection without bells and whistles[C]//Proceedings of the 13th European Conference on Computer Vision.Zurich, Switzerland, 2014: 720–735.
[29]CHEN Dong, REN Shaoqing, WEI Yichen, et al. Joint cascade face detection and alignment[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich,Switzerland, 2014: 109–122.
[30]OHN-BAR E, TRIVEDI M M. To boost or not to boost?On the limits of boosted trees for object detection[C]//Proceedings of the 23rd International Conference on Pattern Recognition (ICPR). Cancun, Mexico, 2016: 3350–3355.
[31]YANG Shuo, LUO Ping, LOY C C, et al. From facial parts responses to face detection: A deep learning approach[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 3676–3684.