孫 銳,闞俊松*,吳柳瑋,王 鵬
級(jí)聯(lián)網(wǎng)絡(luò)和金字塔光流的旋轉(zhuǎn)不變?nèi)四槞z測(cè)
孫 銳1,2,闞俊松1,2*,吳柳瑋1,2,王 鵬3
1合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;2工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230009;3合肥進(jìn)毅智能技術(shù)有限公司,安徽 合肥 230088
在無(wú)約束的開(kāi)放空間中,由于面部姿態(tài)變化、背景環(huán)境復(fù)雜、運(yùn)動(dòng)模糊等,人臉檢測(cè)仍是一個(gè)具有挑戰(zhàn)性的任務(wù)。本文針對(duì)視頻流中人臉檢測(cè)存在的平面內(nèi)旋轉(zhuǎn)問(wèn)題,將人臉關(guān)鍵點(diǎn)與金字塔光流相結(jié)合,提出了基于級(jí)聯(lián)網(wǎng)絡(luò)和金字塔光流的旋轉(zhuǎn)不變?nèi)四槞z測(cè)算法。首先利用級(jí)聯(lián)漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻流中前一幀進(jìn)行人臉位置和關(guān)鍵點(diǎn)的定位;其次為獲取關(guān)鍵點(diǎn)與人臉候選框間光流映射,使用獨(dú)立的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)對(duì)當(dāng)前幀進(jìn)行再次定位;之后計(jì)算前后兩幀之間關(guān)鍵點(diǎn)光流位移;最后通過(guò)關(guān)鍵點(diǎn)光流位移與人臉候選框的映射關(guān)系,對(duì)視頻中檢測(cè)到的人臉進(jìn)行校正,從而完成平面內(nèi)旋轉(zhuǎn)人臉不變性檢測(cè)。實(shí)驗(yàn)經(jīng)FDDB公開(kāi)數(shù)據(jù)集上測(cè)試,證明該方法精確度較高。并且,在Boston面部跟蹤數(shù)據(jù)集上進(jìn)行動(dòng)態(tài)測(cè)試,證明該人臉檢測(cè)算法能有效解決平面內(nèi)旋轉(zhuǎn)人臉檢測(cè)問(wèn)題。對(duì)比其它檢測(cè)算法,該算法檢測(cè)速度有較大優(yōu)勢(shì),同時(shí)視頻中窗口抖動(dòng)問(wèn)題得到了很好解決。
旋轉(zhuǎn)不變性;關(guān)鍵點(diǎn)檢測(cè);級(jí)聯(lián)漸進(jìn)網(wǎng)絡(luò);金字塔光流;人臉檢測(cè)
人臉識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域比較成功的應(yīng)用之一。隨著視頻監(jiān)控在城市空間的快速普及,公安部門采集了海量無(wú)約束開(kāi)放環(huán)境下的視頻,視頻流中的人臉檢測(cè)存在尺度變化、局部遮擋、運(yùn)動(dòng)模糊以及光照變化等復(fù)雜問(wèn)題,特別是人臉旋轉(zhuǎn)會(huì)影響整個(gè)人臉識(shí)別系統(tǒng)性能和效率。本文針對(duì)平面內(nèi)人臉旋轉(zhuǎn)問(wèn)題展開(kāi)研究并提出一種新穎的人臉檢測(cè)方法。
傳統(tǒng)的人臉檢測(cè)方法主要在Viola和Jones[1]的工作基礎(chǔ)上進(jìn)行改進(jìn),該框架也被擴(kuò)展到處理旋轉(zhuǎn)人臉檢測(cè)[2],通過(guò)手工設(shè)計(jì)不同特征[3-4]在一定程度上改進(jìn)人臉檢測(cè)性能,但是這些特征增加了計(jì)算復(fù)雜度,對(duì)環(huán)境適應(yīng)能力差。近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展進(jìn)步,傳統(tǒng)手工設(shè)計(jì)特征方法逐步演化到深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征[5-6]。人臉檢測(cè)中如關(guān)鍵點(diǎn)定位[7]、面部空間結(jié)構(gòu)學(xué)習(xí)[8]、克服嚴(yán)重遮擋[9]等,通過(guò)采用深度卷積神經(jīng)網(wǎng)絡(luò)[13-14],大大提高了人臉檢測(cè)的精度。
現(xiàn)階段,經(jīng)典的檢測(cè)算法都針對(duì)通用目標(biāo)提出。將Faster R-CNN[10]、SSD[11]、YOLO[12]等系列通用網(wǎng)絡(luò)框用到人臉檢測(cè)(如Face R-CNN、S3FD等)。雖然對(duì)比傳統(tǒng)方法在準(zhǔn)確性上有較高的優(yōu)勢(shì),但并沒(méi)有很好地針對(duì)人臉旋轉(zhuǎn)問(wèn)題,常見(jiàn)的旋轉(zhuǎn)不變性人臉檢測(cè)還是以傳統(tǒng)方法為主[15-16]。實(shí)際應(yīng)用中,雖然通用檢測(cè)網(wǎng)絡(luò)的檢測(cè)效果得到提高,但是單純運(yùn)用較深的網(wǎng)絡(luò)會(huì)使處理速度較慢,同時(shí)缺乏時(shí)間一致性。一些最新文獻(xiàn)中以cascade CNN[17]為基本模型設(shè)計(jì)人臉檢測(cè),如文獻(xiàn)[18-20],但cascade CNN在視頻流中進(jìn)行人臉檢測(cè)缺少一種方法來(lái)保存面部信息,不僅可能出現(xiàn)人臉位置的跳變,而且如果一個(gè)面部短暫扭曲或發(fā)生遮擋,會(huì)導(dǎo)致檢測(cè)突然失敗。深度學(xué)習(xí)也推動(dòng)了目標(biāo)跟蹤的發(fā)展,如文獻(xiàn)[21-22]等將光流引入卷積神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)目標(biāo)跟蹤。本文將光流引入人臉檢測(cè),提出了一種擴(kuò)展級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的方法,以實(shí)現(xiàn)一種適應(yīng)隨時(shí)間推移的平面內(nèi)旋轉(zhuǎn)不變檢測(cè)。
綜上所述,本文主要貢獻(xiàn)如下:
1) 優(yōu)化級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)
由于關(guān)鍵點(diǎn)的位置對(duì)人臉候選框的校正有直接影響。為了讓校正結(jié)果更加準(zhǔn)確,一方面將前一幀人臉關(guān)鍵定位任務(wù)進(jìn)行分離并去除了部分網(wǎng)絡(luò)的最大池化以提高人臉關(guān)鍵點(diǎn)定位精度;另一方面,為了加速當(dāng)前幀中人臉的檢測(cè)效率,設(shè)計(jì)了獨(dú)立的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),并對(duì)部分關(guān)鍵點(diǎn)進(jìn)行校驗(yàn),排除檢測(cè)異常的關(guān)鍵點(diǎn)。
2) 加入金字塔光流映射
通用網(wǎng)絡(luò)框架由于沒(méi)有考慮到時(shí)間信息,產(chǎn)生的人臉邊界框不穩(wěn)定。盡管臉部不發(fā)生移動(dòng),邊界框的大小和位置也會(huì)有變化,有時(shí)會(huì)因此丟失一些中間幀的跟蹤。為了克服這些問(wèn)題,我們使用一個(gè)光流映射來(lái)保存人臉以及先前計(jì)算的信息,從而減少因面部短暫扭曲或遮擋時(shí)而產(chǎn)生的檢測(cè)失敗。
解決人臉旋轉(zhuǎn)不變性的常見(jiàn)方式有:1) 通過(guò)高度復(fù)雜網(wǎng)絡(luò)學(xué)習(xí)旋轉(zhuǎn)不變特征;2) 對(duì)樣本進(jìn)行劃分,訓(xùn)練多個(gè)模型;3) 在檢測(cè)到人臉之后,對(duì)人臉進(jìn)行校正。前兩種方式會(huì)大大降低檢測(cè)效率。本文根據(jù)特征點(diǎn)位置進(jìn)行候選框的調(diào)整,實(shí)現(xiàn)人臉的不變性檢測(cè)。視頻流中人臉的旋轉(zhuǎn)不變性檢測(cè)整體流程圖框架如圖1。
本文的思路是初始化過(guò)程加載級(jí)聯(lián)漸進(jìn)網(wǎng)絡(luò),其中級(jí)聯(lián)漸進(jìn)網(wǎng)絡(luò)分為三個(gè)階段,階段一、階段二為區(qū)分人臉與非人臉,階段三區(qū)分人臉和非人臉和人臉關(guān)鍵點(diǎn)定位。視頻流中前一幀經(jīng)過(guò)三層級(jí)聯(lián)漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識(shí)別和關(guān)鍵點(diǎn)定位后,再用獨(dú)立的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)對(duì)當(dāng)前幀人臉區(qū)域進(jìn)行關(guān)鍵點(diǎn)再次定位,計(jì)算前一幀與當(dāng)前幀之間光流映射。通過(guò)關(guān)鍵點(diǎn)光流位移與人臉候選框的映射關(guān)系,對(duì)視頻中檢測(cè)到的人臉進(jìn)行校正,完成視頻流中旋轉(zhuǎn)不變性人臉檢測(cè)。
圖1 整體流程圖
本文先對(duì)輸入圖像進(jìn)行雙線性插值,調(diào)整到不同比例,構(gòu)建圖像金字塔,再通過(guò)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)獲得回歸邊界框和關(guān)鍵點(diǎn)坐標(biāo),最后通過(guò)光流校正獲得回歸邊界框。該算法先構(gòu)造圖像金字塔,用于兩部分:
1) 檢測(cè)人臉中利用到了圖像金字塔。檢測(cè)人臉過(guò)程中這些不同比例的圖像作為三個(gè)階段的輸入進(jìn)行訓(xùn)練,目的是可以檢測(cè)不同尺寸的人臉。
2) 計(jì)算光流,用于人臉校正。兩幀之間利用金字塔光流信息差獲得光流映射,進(jìn)行人臉定位與校正。
在文獻(xiàn)[23]中,使用多個(gè)CNN來(lái)進(jìn)行人臉檢測(cè)。但是本文方法針對(duì)旋轉(zhuǎn)不變性的人臉檢測(cè),需要更精準(zhǔn)的關(guān)鍵點(diǎn)定位和圖像邊緣信息的提取。為此,將面部檢測(cè)任務(wù)與關(guān)鍵點(diǎn)定位任務(wù)進(jìn)行分離,設(shè)計(jì)了三階段級(jí)聯(lián)漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)示意圖如圖2所示。
如圖2(a)所示,第一階段基本的構(gòu)造是一個(gè)全連接網(wǎng)絡(luò)。上一步構(gòu)建完成的圖像金字塔通過(guò)一個(gè)全卷積網(wǎng)絡(luò)進(jìn)行初步特征提取與邊框標(biāo)定,獲取候選窗口以及其邊界框回歸向量,使用邊界框回歸的方法校準(zhǔn)候選邊框,經(jīng)非極大值抑制合并高度重疊的候選框。
圖2 三階段級(jí)聯(lián)漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)。(a) 第一階段;(b) 第二階段;(c) 第三階段
如圖2(b)(即第二階段)為一個(gè)卷積神經(jīng)網(wǎng)絡(luò),相比圖2(a)(即第一階段)增加了全連接層,對(duì)輸入數(shù)據(jù)的篩選更加嚴(yán)格。其中所有候選邊框來(lái)源于第一階段,對(duì)候選框重新選擇,拒絕大量假候選框,經(jīng)邊界框回歸校準(zhǔn),用非極大值抑制對(duì)候選框合并。圖2(c)(第三階段)一個(gè)卷積神經(jīng)網(wǎng)絡(luò),相比圖2(a),增加了卷積層與全連接層,該階段不僅需要進(jìn)行人臉?lè)侨四樀姆诸惡瓦吔缈虻幕貧w還需要進(jìn)行人臉關(guān)鍵點(diǎn)定位。
在第一階段中獲取候選窗口以及其邊界框回歸向量,校準(zhǔn)候選邊框向量,經(jīng)非極大值抑制合并候選框。第二階段中所有備候選邊框來(lái)源于第一階段,對(duì)備選框進(jìn)行重新選擇,拒絕大量假候選框。
人臉?lè)诸悾?/p>
邊界框回歸:
由于人臉特征點(diǎn)占圖像比例較小,雖然最大池化操作能減小輸入大小,使神經(jīng)網(wǎng)絡(luò)能專注于重要元素,但是容易導(dǎo)致人臉特征點(diǎn)的信息損失。本論文取消了最大池化,同時(shí)網(wǎng)絡(luò)將輸出五個(gè)面部特征位置。對(duì)比階段一、二,第三階段中不僅需要進(jìn)行人臉?lè)侨四樀姆诸惡瓦吔缈虻幕貧w還需要進(jìn)行人臉關(guān)鍵點(diǎn)的定位:
式(5)為通過(guò)歐氏距離計(jì)算的回歸損失。是左上角坐標(biāo)(、)、長(zhǎng)、寬四個(gè)元素(參數(shù))所組成。計(jì)算網(wǎng)絡(luò)預(yù)測(cè)的地標(biāo)位置和真實(shí)地標(biāo)的歐氏距離,并最小化。
第三階段輸入源的訓(xùn)練:
級(jí)聯(lián)漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)在檢測(cè)圖像序列中人臉時(shí),每一幀都是單獨(dú)處理的。這意味著,通過(guò)在整個(gè)圖像上移動(dòng)不同大小的窗口并對(duì)其進(jìn)行評(píng)估。由于沒(méi)有考慮到時(shí)間信息,產(chǎn)生的人臉邊界框也不穩(wěn)定。
光流是相鄰幀之間描述物體運(yùn)動(dòng)信息的一種方法,常運(yùn)用于視頻中對(duì)物體的跟蹤。本算法引入光流的概念,通過(guò)光流場(chǎng)模式分類對(duì)運(yùn)動(dòng)人臉的檢測(cè)。同時(shí)解決了在人臉跟蹤過(guò)程中新出現(xiàn)了人臉。而無(wú)法檢測(cè)到的情況?;镜墓饬鞣匠蹋?/p>
算法使用光流映射防止人臉的丟失,同時(shí)防止跟蹤的臉部區(qū)域發(fā)生不規(guī)律變化。假設(shè)人臉圖像上一個(gè)小的空間鄰域內(nèi)具有相同的光流速度,且存在有限點(diǎn),根據(jù)光流約束方程,可得:
在圖像一個(gè)小空間鄰域內(nèi),光流估計(jì)誤差為
在前面的步驟中已經(jīng)獲得了初始人臉位置和人臉關(guān)鍵點(diǎn),對(duì)視頻中人臉關(guān)鍵點(diǎn)做相應(yīng)標(biāo)記。為了加速視頻幀處理,本文設(shè)計(jì)了單獨(dú)的人臉關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),在前一幀經(jīng)級(jí)聯(lián)漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)所產(chǎn)生的人臉候選框和關(guān)鍵點(diǎn)位置的基礎(chǔ)上,對(duì)當(dāng)前幀人臉區(qū)域進(jìn)行人臉關(guān)鍵點(diǎn)檢測(cè)。特征點(diǎn)提取網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,該網(wǎng)絡(luò)基本構(gòu)造是包含全連接層的神經(jīng)網(wǎng)絡(luò),完成對(duì)關(guān)鍵點(diǎn)定位任務(wù)。
圖3 特征點(diǎn)提取網(wǎng)絡(luò)
圖像金字塔算法處理圖像,將在圖像開(kāi)始時(shí)金字塔頂層,即較小的空間尺度上進(jìn)行關(guān)鍵點(diǎn)的預(yù)測(cè)跟蹤,再通過(guò)金字塔迭代向下直到金字塔的底層的處理來(lái)修正初始運(yùn)動(dòng)向量的假定。
獲得圖像金字塔后,通過(guò)計(jì)算關(guān)鍵點(diǎn)的偏移映射來(lái)校正人臉。為了防止錯(cuò)誤的校正,對(duì)于檢測(cè)到的特征點(diǎn)本文采用正反向誤差檢測(cè)判斷是否有效。利用人臉關(guān)鍵點(diǎn)結(jié)合檢測(cè)到的人臉中心點(diǎn),將這些點(diǎn)作為有效的特征點(diǎn)。通過(guò)LK稀疏光流法對(duì)下一幀進(jìn)行特征點(diǎn)和候選框的預(yù)測(cè),同時(shí)采用金字塔搜索,保證了在獨(dú)立關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)中下一幀檢測(cè)的速度和準(zhǔn)確度。
經(jīng)過(guò)這樣由粗到細(xì)的光流估計(jì),對(duì)于每個(gè)關(guān)鍵點(diǎn)賦予速度矢量,形成視頻中人臉圖像的運(yùn)動(dòng)場(chǎng),使視頻流中運(yùn)動(dòng)的人臉關(guān)鍵點(diǎn)獲得準(zhǔn)確的定位。
每當(dāng)調(diào)用金字塔光流映射時(shí),它會(huì)生成一個(gè)包含人臉位置與人臉關(guān)鍵點(diǎn)的映射面,通過(guò)獲取的特征點(diǎn)與面部的映射關(guān)系校正人臉邊界框。為了降低人臉不變性檢測(cè)器對(duì)計(jì)算能力的要求,視頻流中級(jí)聯(lián)漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)每間隔幀執(zhí)行一次,每幀都進(jìn)行誤差檢測(cè),判斷是否更新映射圖。光流映射圖如圖5所示。
算法遵循圖1所示的流程圖。在初始化階段,程序打開(kāi)視頻輸入原始人臉圖像,如圖5(a)所示,加載級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò),并通過(guò)改進(jìn)后的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建初始映射圖,如圖5(b)所示。在每幀的算法框架內(nèi)進(jìn)行處理,并進(jìn)行光流計(jì)算。文中光流只是針對(duì)一定區(qū)域而非整幅圖像的計(jì)算,大大降低運(yùn)算量,同時(shí)圖像金字塔不需要重新生成,光流計(jì)算中利用了檢測(cè)過(guò)程中所生成的金字塔。兩幀之間利用光流信息差獲得光流映射(如圖5(c)所示),從而進(jìn)行人臉的定位與校正(校正結(jié)果如圖5(d)所示)。
圖4 人臉金字塔光流示意圖
圖5 光流映射。(a) 原始人臉圖像;(b)關(guān)鍵點(diǎn)及候選框檢測(cè)圖;(c) 關(guān)鍵點(diǎn)映射;(d) 校正結(jié)果
性能測(cè)試實(shí)驗(yàn)采用Intel(R) Core(TM) i7-8700 CPU、NVIDIA GeForce GTX 1080 Ti GPU和16 G內(nèi)存的機(jī)器配置,使用python語(yǔ)言在Tensorflow1.10.0框架中實(shí)現(xiàn)。
本文在Wider Face[24]、CelebA[25]、LFPW[26]和BiolD[27]數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò),在FDDB[28]和Boston人臉跟蹤數(shù)據(jù)集[29]上進(jìn)行評(píng)估和效率測(cè)試。Wider Face數(shù)據(jù)集包含了32203張圖片并標(biāo)記了393703個(gè)邊界框。CelebA包括202599張人臉圖像和相應(yīng)的5個(gè)關(guān)鍵點(diǎn),每張圖片有40個(gè)二進(jìn)制屬性注釋。LFPW包含來(lái)自網(wǎng)絡(luò)的1432張人臉圖像,它分為1132張訓(xùn)練圖像和300張測(cè)試圖像。該數(shù)據(jù)集包含一定程度的遮擋人臉,在姿態(tài)、光照和表情方面有很大變化,用于在無(wú)約束條件下測(cè)試人臉關(guān)鍵點(diǎn)檢測(cè)。BiolD數(shù)據(jù)集包含在各種光照和復(fù)雜背景下的1521張面部圖像,其中眼睛位置被手工標(biāo)注。FDDB數(shù)據(jù)集包含了在2845張圖片中標(biāo)注了5171張面部。
訓(xùn)練集和驗(yàn)證集在文本trainImage和testImage中定義。這些文本文件的每一行都以圖像名開(kāi)始,接著是人臉邊界框的邊界位置,然后是五個(gè)人臉關(guān)鍵點(diǎn)的位置。對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注,再送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)組成為3:1:1:2=負(fù)樣本:正樣本:部分面部樣本:特征面部樣本。其中,負(fù)樣本設(shè)置為特征數(shù)據(jù)的交并比小于0.3的樣本;正樣本設(shè)置為特征數(shù)據(jù)的交并比高于0.65的樣本;部分面部樣本設(shè)置為特征數(shù)據(jù)的交并比介于0.4和0.65之間;特征面部樣本為面部標(biāo)上5個(gè)特征點(diǎn)。負(fù)樣本和正樣本用于面部分類任務(wù),負(fù)樣本和部分面部樣本用于邊界框回歸,特征面部樣本用于面部特征點(diǎn)定位。
為進(jìn)行人臉檢測(cè)算法之間的優(yōu)勢(shì)對(duì)比,利用FDDB上的ROC曲線對(duì)人臉檢測(cè)方法進(jìn)行性能評(píng)估。曲線如圖6所示,其縱坐標(biāo)為真陽(yáng)性率,即將所有閾值之上的檢測(cè)框的檢測(cè)結(jié)果累加起來(lái)除以樣本總數(shù)。橫坐標(biāo)沒(méi)有采用假陽(yáng)性率,而是直接采用假陽(yáng)性,即為所有檢測(cè)框中負(fù)樣本數(shù)。所有這些人臉檢測(cè)得到的假陽(yáng)性數(shù)都隨著真實(shí)陽(yáng)性率的增加而迅速增加,除了Viola-Jones,其它方法都是近幾年提出的新方法。從圖6中實(shí)驗(yàn)對(duì)比可以發(fā)現(xiàn),當(dāng)假陽(yáng)性數(shù)量小于170時(shí),如圖中點(diǎn)point所示,本文方法性能優(yōu)于其他方法。當(dāng)假陽(yáng)性數(shù)量大于170時(shí),本文方法性能與Face R-CNN[30]較接近。雖然以Faster R-CNN為基礎(chǔ)模型的Face R-CNN獲得了最好的性能效果,但由于模型較大,應(yīng)用場(chǎng)景受到限制。本文方法在逼近Face R-CNN性能的同時(shí),也適合快速處理視頻流。
隨機(jī)從FDDB數(shù)據(jù)中選取幾張圖片,使用本文中算法進(jìn)行人臉檢測(cè),檢測(cè)效果如圖7所示。
視頻人臉檢測(cè)為了權(quán)衡準(zhǔn)確性和速度,算法每10幀使用級(jí)聯(lián)漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)一次。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)10左右為較好刷新率。圖8為Boston頭部跟蹤數(shù)據(jù)集上進(jìn)行人臉檢測(cè)的結(jié)果。所選取的示例幀依次為視頻user_01_video_04的第39、44、49、54、58、63、74、90幀和user_01_video_03的第44、65、103、130幀,其中user_01_video_04為旋轉(zhuǎn)人臉,user_01_video_03為尺度變化人臉。實(shí)驗(yàn)說(shuō)明了對(duì)于視頻流中單張人臉的人臉檢測(cè),本文方法能較好地解決平面內(nèi)旋轉(zhuǎn)問(wèn)題和人臉尺度變化問(wèn)題。
圖6 人臉檢測(cè)方法比較
圖7 FDDB數(shù)據(jù)集上檢測(cè)結(jié)果
圖8 Boston頭部跟蹤數(shù)據(jù)集檢測(cè)結(jié)果
Boston頭部跟蹤數(shù)據(jù)集中只記錄單用戶頭部運(yùn)動(dòng)。在實(shí)際應(yīng)用場(chǎng)景下,視頻流人臉數(shù)目常常不定,我們拍攝了包含多張人臉的視頻,并對(duì)該視頻進(jìn)行人臉檢測(cè)。多用戶人臉視頻的檢測(cè)結(jié)果如圖9所示,實(shí)驗(yàn)結(jié)果表明本文方法也適用于檢測(cè)多用戶頭部運(yùn)動(dòng),有較好的適應(yīng)性。
將本文的算法與其它旋轉(zhuǎn)不變的人臉檢測(cè)器在“標(biāo)準(zhǔn).mp4”視頻上進(jìn)行速度比較,這些圖像的最小人臉尺寸為100×100。實(shí)驗(yàn)視頻統(tǒng)一長(zhǎng)度為10 s,幀率為30 f/s,畫面大小為640×480。表1給出常見(jiàn)人臉檢測(cè)算法效率比較。從表中可以看出,本文算法比Faster R-CNN(VGG16)、SSD500(VGG16)、R-FCN(ResNet-50)等速度更快,相比于Cascade CNN在速度上也有一定提升。且模型尺寸只有3.7 M,遠(yuǎn)小于Faster R-CNN與SSD500等通用網(wǎng)絡(luò)架構(gòu)。與其它模型尺寸對(duì)比,本文方法模型尺寸較小,適用于移動(dòng)端設(shè)備。相比通過(guò)高度復(fù)雜網(wǎng)絡(luò)學(xué)習(xí)旋轉(zhuǎn)不變特征和對(duì)樣本進(jìn)行劃分訓(xùn)練多個(gè)模型的方法大大減少了時(shí)間成本。
圖9 多用戶人臉視頻檢測(cè)結(jié)果
表1 視頻流中人臉檢測(cè)算法效率及相應(yīng)模型大小
視頻流中人臉檢測(cè)面臨眾多挑戰(zhàn),人臉的旋轉(zhuǎn)角度變化和尺度變化影響了實(shí)際應(yīng)用環(huán)境下人臉識(shí)別的精度。針對(duì)這個(gè)問(wèn)題,本文提出了一種使用級(jí)聯(lián)網(wǎng)絡(luò)與金字塔光流相結(jié)合的算法,通過(guò)關(guān)鍵點(diǎn)與人臉候選框之間的映射,解決人臉平面內(nèi)旋轉(zhuǎn)。該方法通過(guò)對(duì)FDDB和Boston頭部跟蹤數(shù)據(jù)集的評(píng)估以及效率的測(cè)試,實(shí)驗(yàn)表明該算法能有效解決平面內(nèi)旋轉(zhuǎn)人臉檢測(cè)問(wèn)題。攝像點(diǎn)在室內(nèi)、室外公共區(qū)域的布置環(huán)境,使得采集的視頻中人臉不可避免會(huì)發(fā)生旋轉(zhuǎn),該算法對(duì)視頻監(jiān)控領(lǐng)域有著重要應(yīng)用前景。
[1] Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//, 2001.
[2] Li B, Yang A M, Yang J. Rotated face detection using AdaBoost[C]//e, 2010: 1–4.
[3] Froba B, Ernst A. Face detection with the modified census transform[C]//, 2004: 91–96.
[4] Jin H L, Liu Q S, Lu H Q,. Face detection using improved LBP under Bayesian framework[C]//, 2004: 306–309.
[5] Farfade S S, Saberian M J, Li L J. Multi-view face detection using deep convolutional neural networks[C]//, 2015: 643–650.
[6] Ranjan R, Patel V M, Chellappa R. A deep pyramid deformable part model for face detection[C]//,, 2015.
[7] Yang S, Luo P, Loy C C,. From facial parts responses to face detection: a deep learning approach[C]//, 2015.
[8] Bas A, Huber P, Smith W A P,. 3D morphable models as spatial transformer networks[C]//, 2017.
[9] Li X X, Liang R H. A review for face recognition with occlusion: from subspace regression to deep learning[J]., 2018, 41(1): 177–207.
李小薪, 梁榮華. 有遮擋人臉識(shí)別綜述: 從子空間回歸到深度學(xué)習(xí)[J]. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(1): 177–207.
[10] Ren S Q, He K M, Girshick R,. Faster R-CNN: towards real-time object detection with region proposal networks[C]//, 2015: 91–99.
[11] Liu W, Anguelov D, Erhan D,. Single shot MultiBox detector[C]//(), 2016: 21–37.
[12] Redmon J, Divvala S, Girshick R,. You only look once: unified, real-time object detection[C]//, 2016.
[13] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//, 2015.
[14] Li H X, Lin Z, Shen X H,. A convolutional neural network cascade for face detection[C]//, 2015: 5325–5334.
[15] Pan R, Wei H Q. Research on human face detection and recognition based on rotation invariance[J]., 2009, 30(8): 1941–1943, 1997.
潘榕, 魏慧琴. 基于旋轉(zhuǎn)不變性的人臉定位識(shí)別研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2009, 30(8): 1941–1943, 1997.
[16] Wang W Q, Zhang X Y, Gao C Q,. Scale invariant face recognition from single sample[J]., 2012, 17(3): 380–386.
王煒強(qiáng), 張曉陽(yáng), 曹春芹, 等. 尺度不變單樣本人臉識(shí)別方法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2012, 17(3): 380–386.
[17] Bao X A, Hu L L, Zhang N,. Fast face detection algorithm based on cascade network[J]., 2019, 41(3): 347–353.
包曉安, 胡玲玲, 張娜, 等. 基于級(jí)聯(lián)網(wǎng)絡(luò)的快速人臉檢測(cè)算法[J]. 浙江理工大學(xué)學(xué)報(bào), 2019, 41(3): 347–353.
[18] Liu W Q. Research on face detection algorithm based on cascaded convolutional neural networks[D]. Xiamen: Xiamen University, 2017.
劉偉強(qiáng). 基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法的研究[D]. 廈門: 廈門大學(xué), 2017.
[19] Sun K, Li Q M, Li D Q. Face detection algorithm based on cascaded convolutional neural network[J]., 2018, 42(1): 40–47.
孫康, 李千目, 李德強(qiáng). 基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法[J]. 南京理工大學(xué)學(xué)報(bào), 2018, 42(1): 40–47.
[20] Lin L Y. A visual object tracking method via CNN and optical flow with online learning[D]. Guangzhou: Guangdong University of Technology, 2018.
林露樾. 融合卷積神經(jīng)網(wǎng)絡(luò)以及光流法的目標(biāo)跟蹤方法[D]. 廣州: 廣東工業(yè)大學(xué), 2018.
[21] Wang Z L, Huang M, Zhu Q B,. The optical flow detection method of moving target using deep convolution neural network[J]., 2018, 45(8): 38–47.
王正來(lái), 黃敏, 朱啟兵, 等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)動(dòng)目標(biāo)光流檢測(cè)方法[J]. 光電工程, 2018, 45(8): 38–47.
[22] Zhang K P, Zhang Z P, Li Z F,. Joint face detection and alignment using multitask cascaded convolutional networks[J]., 2016, 23(10): 1499–1503.
[23] Yang S, Luo P, Loy C C,. WIDER FACE: a face detection benchmark[C]//, 2016.
[24] Liu Z W, Luo P, Wang X G,. Deep learning face attributes in the wild[C]//, 2015: 3730–3738.
[25] Sun Y, Wang X G, Tang X O. Deep convolutional network cascade for facial point detection[C]//, 2013: 3476–3483.
[26] K?stinger M, Wohlhart P, Roth P M,. Annotated facial landmarks in the wild: a large-scale, real-world database for facial landmark localization[C]//, 2011: 2144–2151.
[27] Jain V, Learned-Miller E G. FDDB: A benchmark for face detection in unconstrained settings[R]., 2010.
[28] Cascia M L, Sclaroff S. Fast, reliable head tracking under varying illumination[C]//, 1999: 604–610.
[29] Wang H, Li Z F, Ji X,. Face R-CNN[C]//, 2017.
Rotating invariant face detection via cascaded networks and pyramidal optical flows
Sun Rui1,2, Kan Junsong1,2*, Wu Liuwei1,2, Wang Peng3
1School of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China;2Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei, Anhui 230009, China;3Hefei Jinyi Science and Technology, Hefei, Anhui 230088, China
Effect picture
Overview:In recent years, with the rapid deployment of video surveillance in urban space, the public security department has collected video in a massive unconstrained open environment. There are complex problems such as scale change, partial occlusion, motion blur and illumination change in the face detection of video stream. In particular, face rotation affects the performance and efficiency of the entire face recognition system. In this paper, the in-plane rotation problem of face detection in video stream is combined with the pyramid optical flow, and a rotating invariant face detection algorithm based on cascaded network and pyramid optical flow is proposed. Firstly, the cascading progressive convolutional neural network is used to locate the face position and facial landmark of the previous frame in the video stream. Secondly, the optical flow mapping between the facial landmark and the bounding box is obtained, and the independent facial landmark network is used to detect the current frame. After that, the optical flow displacement of the key points between the two frames is calculated. Finally, the detected face of the video is corrected by the mapping relationship between the optical flow displacement of the key point and the face candidate frame, thereby completing the rotation-invariant face detection. The experiments were tested on the FDDB public datasets. The ROC curve on the FDDB evaluates the performance of the face detection method. When the number of false positives is less than 160, the performance of our method is better than other methods. When the number of false positives is more than 160, the face detection result is close to Face R-CNN, which proves that the method has higher accuracy. Moreover, the dynamic test on the Boston head tracking database proves that the face detection algorithm can effectively solve the problem of rotation and scale change of the target area in the plane. The speed of this algorithm with other rotationally invariant face detectors on standard .mp4 video is compared. The minimum face size of these images is 100×100. The experimental video has a uniform length of 10 s, a frame rate of 30 frames/s, and a picture size of 640×480. Experiments show that the algorithm detection speed has a great advantage, and the window jitter problem in the video is well solved. The average detection rate of the algorithm in this paper is higher than the general video frame rate, and the model size is small, which is suitable for mobile devices. Time costs are greatly reduced compared to the methods of learning rotational invariant features and segmenting samples by highly complex networks.
Citation: Sun R, Kan J S, Wu L W,Rotating invariant face detection via cascaded networks and pyramidal optical flows[J]., 2020, 47(1): 190135
Supported by National Natural Science Foundation of China (61471154) and Fundamental Research Funds for Central Universities (JZ2018YYPY0287)
* E-mail: 2931338359@qq.com
Rotating invariant face detection via cascaded networks and pyramidal optical flows
Sun Rui1,2, Kan Junsong1,2*, Wu Liuwei1,2, Wang Peng3
1School of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China;2Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei, Anhui 230009, China;3Hefei Jinyi Science and Technology, Hefei, Anhui 230088, China
In the unconstrained open-space, face detection is still a challenging task due to the facial posture changes, complex background environment, and motion blur. The rotation-invariant algorithm based on cascaded network and pyramid optical flow is proposed. Firstly, the cascading progressive convolutional neural network is adopted to locate the face position and facial landmark of the previous frame in the video stream. Secondly, the independent facial landmark detection network is used to reposition the current frame, and the optical flow mapping displacement of the facial landmark between the two frames is calculated afterwards. Finally, the detected face is corrected by the mapping relationship between the optical flow displacement of the facial landmark and the bounding box, thereby completing the rotation-invariant face detection. The experiment was tested on the FDDB public datasets, which proved that the method is more accurate. Moreover, the dynamic test on the Boston head tracking database proves that the face detection algorithm can effectively solve the problem of rotation-invariant face detection. Compared with other detection algorithms, the detection speed of the proposed algorithm has a great advantage, and the window jitter problem in the video is well solved.
rotation-invariant; facial landmark; calibration networks; pyramid optical flow; face detection
TP391.41;TP183
A
孫銳,闞俊松,吳柳瑋,等. 級(jí)聯(lián)網(wǎng)絡(luò)和金字塔光流的旋轉(zhuǎn)不變?nèi)四槞z測(cè)[J]. 光電工程,2020,47(1): 190135
10.12086/oee.2020.190135
: Sun R, Kan J S, Wu L W,. Rotating invariant face detection via cascaded networks and pyramidal optical flows[J]., 2020,47(1): 190135
2019-03-25;
2019-05-14基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61471154);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(JZ2018YYPY0287)
孫銳(1976-),男,博士,教授,主要從事計(jì)算機(jī)視覺(jué)的研究。E-mail:sunrui@hfut.edu.cn
闞俊松(1995-),男,碩士研究生,主要從事計(jì)算機(jī)視覺(jué)的研究。E-mail:2931338359@qq.com