亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種改進(jìn)的多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)人臉檢測算法

2021-02-16 07:15:06劉彩云李雅雯劉倩

長江大學(xué)學(xué)報(自科版) 2021年6期

劉彩云，李雅雯，劉倩

1.長江大學(xué)信息與數(shù)學(xué)學(xué)院，湖北荊州434023 2.長江大學(xué)電子信息學(xué)院，湖北荊州434023

隨著智能時代的來臨，人臉識別在安防、金融、交通、教育、醫(yī)療等領(lǐng)域運(yùn)用越來越廣泛。一個完整的人臉識別系統(tǒng)應(yīng)包含人臉檢測、特征提取和人臉識別3個方面。人臉檢測是人臉識別需要解決的首要問題。而由于姿勢變化、外物遮擋以及光源方向等多方面因素的影響，人臉檢測的準(zhǔn)確率不高，并且對于多人圖片，往往很難準(zhǔn)確地識別出所有人臉。常見的人臉檢測分為非深度學(xué)習(xí)和深度學(xué)習(xí)2種模式[1,2]，非深度學(xué)習(xí)又包含簡單特征級聯(lián)系列、人臉檢測的可變模型系列(DPM)[3]等。深度學(xué)習(xí)包含級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(CNN)系列、快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)系列[4-6]等。

早期的人臉檢測方法準(zhǔn)確率較低，多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測算法[7](MTCNN)兼顧人臉檢測與人臉對齊雙重任務(wù)，并且網(wǎng)絡(luò)結(jié)構(gòu)精簡、檢測速度快且召回率高。但另一方面，MTCNN算法對多人圖片中的小人臉檢測率較低，在多人合照場景下，對合照中的小人臉檢測魯棒性不高。針對MTCNN人臉檢測算法在多人合照場景下的小人臉檢測率較低的問題，筆者提出了一種改進(jìn)的多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測算法(IMTCNN)：該算法首先對MTCNN網(wǎng)絡(luò)模型的R-Net層集成圖片信息卷積殘差模塊，擴(kuò)大特征圖感受野獲取更多人臉信息；然后引入反卷積層和最大池化層，使得特征融合數(shù)據(jù)維度保持一致；最后將O-Net層集成圖片信息卷積殘差模塊，進(jìn)一步提取人臉信息。極大地提高了人臉檢測的準(zhǔn)確性，并且具有多任務(wù)實(shí)時處理的性能。

1 MTCNN模型

人臉檢測通常分3步進(jìn)行[8]：①在圖像上選擇一個矩形區(qū)域作為觀察窗口；②在選定的窗口中提取一定特征進(jìn)行描述；③根據(jù)描述的特征判斷這個窗口是否正好框選住了一張人臉。

MTCNN模型如圖1所示。MTCNN首先使用“image pyramid”(圖像金字塔)方法[9]解決不同尺度的人臉的檢測——將原始圖像按一定比例進(jìn)行幾何縮放，獲得多尺度圖像；然后使用P-Net(proposal network，提議網(wǎng)絡(luò))、R-Net(refine network，優(yōu)化網(wǎng)絡(luò))以及O-Net(output network，輸出網(wǎng)絡(luò)) 3個級聯(lián)的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)來對人臉進(jìn)行快速高效的檢測[10]：P-Net用于快速生成人臉候選窗口，R-Net對候選窗口進(jìn)行高精度過濾選擇，O-Net則是生成最終邊界框與定位人臉關(guān)鍵點(diǎn)。該模型也用到了邊界框回歸(bounding-box regression)、非極大值抑制(NMS)等技術(shù)。

圖1 MTCNN模型Fig.1 MTCNN model

2 IMTCNN算法原理

IMTCNN算法原理如圖2所示。IMTCNN人臉檢測算法主要工作包括：

圖2 IMTCNN算法原理Fig.2 Principle of IMTCNN algorithm

1)對R-Net層網(wǎng)絡(luò)集成圖片信息卷積殘差模塊[11]，通過擴(kuò)大特征圖的感受野來獲取更多人臉信息，以提升R-Net層網(wǎng)絡(luò)對人臉目標(biāo)的檢測魯棒性，并且通過加入反卷積層和最大池化層解決特征融合時維度不一致問題；

2)對O-Net層網(wǎng)絡(luò)集成圖片信息卷積殘差模塊，進(jìn)一步提升對多人圖片的人臉檢測性能，降低人臉檢測過程中受外部條件影響產(chǎn)生的誤差，同時添加2個卷積池化層使特征融合時維度一致。

2.1 圖片信息卷積殘差模塊

圖2中圖片信息卷積殘差模塊是筆者提出的一種卷積殘差結(jié)構(gòu)。由于人臉框可以利用卷積分類和回歸得出，因此可以采用擴(kuò)大卷積核的方式來增加感受野，使網(wǎng)絡(luò)能夠準(zhǔn)確捕捉多人圖片的人臉信息，降低外部環(huán)境因素的影響，通過殘差模塊的堆疊，達(dá)到較深的網(wǎng)絡(luò)層數(shù)，增強(qiáng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性，提高網(wǎng)絡(luò)性能。

圖片信息卷積殘差模塊結(jié)構(gòu)如圖3所示，采用1個3×3卷積核和2個殘差模塊串聯(lián)構(gòu)成。

圖3 圖片信息卷積殘差模塊結(jié)構(gòu)Fig.3 Image information convolution residual module structure

2.2 P-Net層

P-Net層[7]是一個全連接網(wǎng)絡(luò)，用于快速生成人臉候選窗口，結(jié)構(gòu)如圖4所示。將輸入的圖片經(jīng)過3次卷積、1次池化之后，再通過人臉分類器，以此來判斷該區(qū)域是否是人臉，同時使用邊界框回歸和一個面部關(guān)鍵點(diǎn)的定位器來進(jìn)行人臉區(qū)域的初步定位。邊界框回歸用來對人臉候選窗口進(jìn)行校準(zhǔn)，通過非極大值抑制來合并高度重疊的候選窗口，并且去除大部分非人臉窗口。最終將輸出很多張包含人臉候選區(qū)域的圖片，并將這些預(yù)測結(jié)果輸入R-Net進(jìn)行下一步處理。

圖4 P-Net層結(jié)構(gòu)Fig.4 P-Net layer structure

2.3 改進(jìn)的R-Net層

R-Net層是一個卷積神經(jīng)網(wǎng)絡(luò)，相對P-Net層來說，R-Net層增加了1個池化層和1個全連接層，因此會更加嚴(yán)格篩選輸入數(shù)據(jù)，會進(jìn)一步去除大量效果比較差的人臉候選框，然后再次通過邊界框回歸和非極大值抑制來進(jìn)一步優(yōu)化結(jié)果。改進(jìn)的R-Net層采用集成圖片信息卷積殘差模塊的方式，通過增加更多的圖片信息，擴(kuò)大特征圖的感受野，提升網(wǎng)絡(luò)捕捉人臉信息的能力，改進(jìn)后的R-Net層結(jié)構(gòu)如圖5所示。

圖5 改進(jìn)的R-Net層網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Improved R-Net layer network structure

針對在R-Net層網(wǎng)絡(luò)集成圖片信息卷積殘差模塊時產(chǎn)生的數(shù)據(jù)維度不一致問題，采用增加反卷積層和最大池化層的方式來解決。由于在原始R-Net層網(wǎng)絡(luò)中集成圖片信息卷積殘差模塊導(dǎo)致輸出的數(shù)據(jù)維度(22×22)大于原始卷積網(wǎng)絡(luò)輸出的數(shù)據(jù)維度(4×4)，使得特征信息無法融合，因此，在原始卷積分支上增加反卷積核為4×4、步長為2的反卷積層，并且在圖片信息卷積殘差模塊分支上增加1個卷積核為5×5、步長為1的卷積層和1個池化核為3×3、步長為2的最大池化層，使輸出數(shù)據(jù)維度統(tǒng)一為8×8，解決了特征信息融合時數(shù)據(jù)維度不一致的問題。

2.4 改進(jìn)的O-Net層

O-Net層是一個較為復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)，對比R-Net層，O-Net層增加1個卷積層、1個池化層，所以輸入特征更多。同時，O-Net層全連接層變大，保留了更多的圖像特征。使用O-Net層進(jìn)行人臉判別、人臉區(qū)域邊界框回歸以及人臉關(guān)鍵點(diǎn)定位，最終輸出帶有人臉框和5個人臉關(guān)鍵點(diǎn)的人臉檢測圖像。改進(jìn)的O-Net層采用集成圖片信息卷積殘差模塊的方式，通過擴(kuò)大O-Net層網(wǎng)絡(luò)特征圖的感受野，增加提取的人臉特征信息，并與原網(wǎng)絡(luò)分支進(jìn)行特征融合，提升網(wǎng)絡(luò)捕捉人臉信息的能力。

改進(jìn)的O-Net層結(jié)構(gòu)如圖6所示。為解決特征信息融合數(shù)據(jù)維度不一致問題，引入卷積層和最大池化層。由于經(jīng)過圖片信息卷積殘差模塊處理后，數(shù)據(jù)維度為46×46，而原始網(wǎng)絡(luò)分支數(shù)據(jù)維度為8×8，導(dǎo)致特征信息無法融合。因此，采用5×5卷積層、2個3×3卷積最大池化層串聯(lián)的方式，將圖片信息卷積殘差模塊分支網(wǎng)絡(luò)輸出的數(shù)據(jù)維度降低至8×8，從而解決了O-Net層網(wǎng)絡(luò)特征融合時的數(shù)據(jù)維度不一致問題。

圖6 改進(jìn)的O-Net層結(jié)構(gòu)Fig.6 Improved O-Net layer structure

3 數(shù)據(jù)集及試驗(yàn)

為取得更好的結(jié)果，試驗(yàn)部分主要使用FDDB[12]、WIDER FACE[13]、AFLW[14]3種數(shù)據(jù)集進(jìn)行訓(xùn)練。這3種數(shù)據(jù)集的測試集都包含標(biāo)注人臉的圖片，同時考慮到姿勢、遮擋、光照等因素的影響，測試集匯集了包括這些因素的各式各樣的人臉，也包括灰度圖和彩色圖。

將訓(xùn)練數(shù)據(jù)分為非人臉、人臉、部分人臉以及標(biāo)記好特征點(diǎn)的地標(biāo)人臉4種，通過重疊度(IOU)對這四者進(jìn)行區(qū)分。對于已經(jīng)標(biāo)定的圖像，IOU[15]是最終標(biāo)定的人臉預(yù)測框與真實(shí)圖像的標(biāo)注框之間交叉面積與合并面積之和。IOU值在0～0.3之間為非人臉，在0.3～0.4之間則為地標(biāo)人臉，在0.4～0.65之間為部分人臉，在0.65～1之間為人臉。這4種數(shù)據(jù)分別用于訓(xùn)練3種不同的任務(wù)，人臉和非人臉用于實(shí)現(xiàn)人臉分類任務(wù)訓(xùn)練，人臉和部分人臉用于訓(xùn)練邊界框回歸，地標(biāo)人臉則用于訓(xùn)練人臉特征點(diǎn)定位?？傮w訓(xùn)練時間為4.2h。

為評估人臉檢測方法的性能，將IMTCNN算法與其他方法進(jìn)行對比。圖7～圖9是IMTCNN在FDDB、WIDER FACE、AFLW數(shù)據(jù)集上和其他算法的對比。其中，圖7表示DP2MFD、CCF、Faceness等8種算法在FDDB數(shù)據(jù)集上的準(zhǔn)確率對比，可以看出IMTCNN所得出的結(jié)果準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于其他方法；圖8表示Faceness、Multiscale CascadeCNN、ACF、Two-stage CNN和IMTCNN這5種算法[7]在WIDER FACE數(shù)據(jù)集上對比，發(fā)現(xiàn)IMTCNN對于WIDER FACE數(shù)據(jù)集中任何難度數(shù)據(jù)的測試結(jié)果遠(yuǎn)優(yōu)于其他方法；圖9表示TSPM、ESR、CDM、SDM、TCDCN、Luxand、RCPR和IMTCNN這8種算法在AFLW數(shù)據(jù)集上的平均誤差，柱狀圖顯示IMTCNN在左眼、右眼、鼻子、左嘴角、右嘴角這5點(diǎn)的平均誤差和總的平均誤差均低于其他6種方法。以上對比試驗(yàn)表明，IMTCNN人臉檢測的準(zhǔn)確性高。

圖7 FDDB數(shù)據(jù)集評估Fig.7 FDDB data set evaluation

圖8 WIDER FACE 3個子集評估Fig.8 WIDER FACE 3 subset evaluation

圖9 AFLW評估Fig.9 AFLW evaluation

4 結(jié)果分析

選取側(cè)臉、戴帽子和有眼鏡遮擋的單人圖片測試IMTCNN人臉檢測效果，圖10(a)、(b)、(c)、(d)分別顯示了該圖片通過P-Net層、改進(jìn)的R-Net層、改進(jìn)的O-Net層以及最終輸出框定人臉的結(jié)果。

選取包含24張人臉的多人圖片檢測IMTCNN人臉檢測效果，圖11(a)、(b)、(c)、(d)分別顯示了該圖片通過P-Net層、改進(jìn)的R-Net層、改進(jìn)的O-Net層以及最終輸出框定人臉的結(jié)果。通過圖10單人圖片的人臉檢測結(jié)果可以看出，P-Net層、改進(jìn)的R-Net層、改進(jìn)的O-Net層這3層級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在對于有遮擋的單人圖片的人臉檢測上起到了很好的作用，每一個人臉候選框都對應(yīng)一個IOU值，IOU值在0.65～1定義為人臉，值越高表示人臉的可能性越高。從結(jié)果可以看出，圖片經(jīng)過3層網(wǎng)絡(luò)最終框定的人臉候選框?qū)?yīng)IOU值如表1所示，經(jīng)過不斷篩選，逐漸向最優(yōu)化靠攏，也即意味著最終所框定的正好是一張真實(shí)的人臉。表明IMTCNN網(wǎng)絡(luò)能夠很好地排除由于姿勢變化、外物遮擋以及光源等多方面因素的影響，準(zhǔn)確地框選出真實(shí)人臉。

圖11 多人圖片經(jīng)網(wǎng)絡(luò)輸出結(jié)果Fig.11 Multi-person image network output results

表1 多人圖片人臉候選框IOU值

通過圖11多人圖片人臉檢測結(jié)果可以看出，IMTCNN準(zhǔn)確檢測出圖片中全部24張小人臉，準(zhǔn)確率達(dá)到100%。表明IMTCNN可以同時準(zhǔn)確地框選出多人合照圖片中每一個小人真實(shí)的人臉。

由圖10和圖11說明，IMTCNN不僅極大提高了單獨(dú)人物人臉檢測的準(zhǔn)確性，降低了人臉檢測過程中受外部條件影響而產(chǎn)生的誤差，還能夠很準(zhǔn)確地識別出多人圖片中的人臉，為后續(xù)的人臉識別踏出完美的第一步。

5 結(jié)語

筆者使用一種級聯(lián)結(jié)構(gòu)將人臉檢測與人臉關(guān)鍵點(diǎn)定位結(jié)合在一起，通過改進(jìn)的3層級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)相互配合對圖片進(jìn)行人臉框定，層層篩選，并且通過標(biāo)記人臉關(guān)鍵點(diǎn)的方式進(jìn)行確認(rèn)，提高精度，最終正好框定一張真實(shí)的人臉，實(shí)現(xiàn)人臉檢測。試驗(yàn)結(jié)果表明，該算法速度快，準(zhǔn)確度高，并且可以一次性檢測多張人臉，效率高，為進(jìn)一步進(jìn)行人臉識別研究打下了良好的基礎(chǔ)。