亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力機(jī)制的多尺度實(shí)時(shí)人臉檢測(cè)方法

2021-07-20 00:05:02王皓潔孫家煒

現(xiàn)代計(jì)算機(jī) 2021年15期

王皓潔，孫家煒

（1.四川大學(xué)計(jì)算機(jī)學(xué)院，成都610065；2.四川川大智勝軟件股份有限公司，成都610045）

0 引言

在傳統(tǒng)方法中，人臉特征是基于手工特征選取的，2001年Viola和Jones提出V-J（Viola-Jones）[1]框架，利用Haar特征和AdaBoost進(jìn)行特征選擇，通過(guò)檢測(cè)級(jí)聯(lián)決策結(jié)構(gòu)提高準(zhǔn)確率，該方法在人臉檢測(cè)領(lǐng)域取得了突破進(jìn)展，在有限的計(jì)算資源下做到了實(shí)時(shí)檢測(cè)，極大的推動(dòng)了人臉檢測(cè)應(yīng)用商業(yè)化的進(jìn)程。后來(lái)很多研究者在三個(gè)方面基于V-J框架進(jìn)行改進(jìn)，一方面設(shè)計(jì)新的特征，一方面使用其他類(lèi)型的AdaBoost分類(lèi)器，還有一方面是對(duì)分類(lèi)器級(jí)聯(lián)結(jié)構(gòu)進(jìn)行改進(jìn)。例如ACF[2]是一種提供足夠多的特征的方法。新的分類(lèi)器級(jí)聯(lián)結(jié)構(gòu)如soft cascade[3]。2008年Felzenszwalb等人[4]提出可變形組件模型（Deformable Part Model，DPM），是一種基于人臉組件的檢測(cè)的算法。DPM算法對(duì)目標(biāo)的形變有很強(qiáng)的魯棒性，對(duì)夸張表情、多姿態(tài)、多角度等的人臉都具有非常好的檢測(cè)效果。但是其性能表現(xiàn)一般、穩(wěn)定性較差。

傳統(tǒng)方法基于手工選取的人臉特征，雖然計(jì)算高效，但是在多尺度、多姿態(tài)、多角度、遮擋、模糊等情況下的檢測(cè)精度差強(qiáng)人意。

利用深度學(xué)習(xí)技術(shù)檢測(cè)人臉的方法大致可以分為兩類(lèi)：兩階段檢測(cè)器（two-stage）和單階段檢測(cè)器（onestage）。two-stage方法首先獲得一定數(shù)量的預(yù)選區(qū)域（Region Proposal，可能存在目標(biāo)的區(qū)域），然后再對(duì)每個(gè)預(yù)選區(qū)域進(jìn)行分類(lèi)和回歸。one-stage方法可以經(jīng)過(guò)一次網(wǎng)絡(luò)就得到目標(biāo)的位置和分類(lèi)信息。Two stage從R-CNN[5]開(kāi)始；之后出現(xiàn)的金字塔池化層[6]提供了網(wǎng)絡(luò)輸入圖片多尺度的辦法；Faster R-CNN[7]在Fast R-CNN[8]的基礎(chǔ)上提出了預(yù)選區(qū)域提取網(wǎng)絡(luò)（Region Proposal Network，RPN）候選框生成算法，使檢測(cè)速度有了很大提升；Lin等人[9]基于Faster R-CNN提出了top-down結(jié)構(gòu)和橫向連接的金字塔特征網(wǎng)絡(luò)（Feature Pyramid Networks，F(xiàn)PN）。one-stage方法以YOLO[10]（You Only Look Once）為代表，對(duì)于檢測(cè)效率有了極大提升。Single Shot MultiBox Detector（SSD）[11]引入不同尺度特征圖做預(yù)測(cè)，大尺度特征圖檢測(cè)小目標(biāo)，小尺度特征圖檢測(cè)大目標(biāo)。

現(xiàn)實(shí)場(chǎng)景中環(huán)境復(fù)雜多樣，多尺度、小人臉、姿態(tài)、遮擋、光照等因素會(huì)對(duì)人臉檢測(cè)任務(wù)造成困擾，導(dǎo)致人臉檢測(cè)的性能下降。然而高精度運(yùn)算往往所需時(shí)間長(zhǎng)，對(duì)算力的要求較高。因此，對(duì)于實(shí)際場(chǎng)景中的人臉檢測(cè)而言，實(shí)現(xiàn)實(shí)時(shí)的檢測(cè)速度并保持較高的精度是目前急需解決的問(wèn)題?；谝陨媳尘?，本文提出一種輕量型、多尺度、基于注意力機(jī)制、實(shí)時(shí)的one stage人臉檢測(cè)方法。使用多任務(wù)學(xué)習(xí)策略同時(shí)預(yù)測(cè)人臉框、人臉置信度和五個(gè)關(guān)鍵點(diǎn)來(lái)提高泛化能力，借鑒MTCNN[12]加入五個(gè)人臉特征點(diǎn)的檢測(cè)有利于人臉框的回歸精度。

1 設(shè)計(jì)方法

1.1 整體框架

本算法網(wǎng)絡(luò)模型包括一個(gè)主干網(wǎng)絡(luò)和三個(gè)檢測(cè)模塊，主干網(wǎng)絡(luò)采用多個(gè)含有卷積層的塊（Block）組成，同時(shí)利用批量歸一化（Batch Normal）加快訓(xùn)練速度，提高模型精度，避免出現(xiàn)梯度消失和梯度爆炸的問(wèn)題；首先從主干網(wǎng)絡(luò)中提取三個(gè)不同尺度的特征層構(gòu)建特征金字塔，進(jìn)行特征融合，然后將三層分別送入3個(gè)檢測(cè)模塊（D1，D2，D3）中，分別檢測(cè)小、中、大人臉。檢測(cè)模塊基于SSH[13]算法，采用多任務(wù)學(xué)習(xí)策略，包含目標(biāo)分類(lèi)、框體回歸和人臉關(guān)鍵點(diǎn)回歸操作；在檢測(cè)模塊中嵌入context module通過(guò)擴(kuò)大感受野引入更多的上下文信息，對(duì)該模塊使用了5×5和7×7的卷積分別進(jìn)行操作；網(wǎng)絡(luò)中不含全連接層，對(duì)輸入分辨率沒(méi)有限制，效率更高?？傮w來(lái)說(shuō)，本文提出的檢測(cè)算法在達(dá)到實(shí)時(shí)檢測(cè)的情況下滿(mǎn)足高精度要求，可應(yīng)用于實(shí)際生產(chǎn)生活中。網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖1所示。

圖1 模型總體結(jié)構(gòu)圖

1.2 主干網(wǎng)絡(luò)設(shè)計(jì)

本文提出的主干網(wǎng)絡(luò)構(gòu)建了11個(gè)Block，每個(gè)Block中使用深度可分離卷積替代傳統(tǒng)卷積層，將傳統(tǒng)卷積層分為空間濾波和特征生成兩部分，先使用單通道卷積融合空間信息，再使用逐點(diǎn)卷積融合特征的通道信息。該種方法有效分離了圖像的區(qū)域和通道，計(jì)算量大幅減少，效率有很大提升，模型更輕量型。深度可分離卷積結(jié)構(gòu)如圖2所示。

圖2 深度可分離卷積

圖2中假設(shè)輸入數(shù)據(jù)尺寸是W×W×C，W是特征圖的尺寸，C表示特征圖的通道數(shù)，首先使用C個(gè)3×3×1的卷積核進(jìn)行單通道對(duì)應(yīng)卷積；接著再通過(guò)N個(gè)1×1×C的點(diǎn)卷積操作融合各個(gè)通道的特征信息。使用該方式可大大縮減計(jì)算量，大約為傳統(tǒng)卷積的1/9，效率大幅提升。

Block中引入了具有線(xiàn)性瓶頸的逆殘差塊結(jié)構(gòu)，在逆殘差結(jié)構(gòu)中，首先使用膨脹系數(shù)提升通道數(shù)，然后再進(jìn)行深度可分離卷積，最后壓縮通道數(shù)，在算法中有兩種瓶頸結(jié)構(gòu)，一種是stride為1使用殘差的瓶頸結(jié)構(gòu)，另一種是stride為2，進(jìn)行了下采樣，未用殘差的瓶頸結(jié)構(gòu)。這兩種結(jié)構(gòu)如圖3所示。

圖3 逆殘差結(jié)構(gòu)

從高維度向低維度轉(zhuǎn)換時(shí)，使用線(xiàn)性激活函數(shù)替代ReLU激活函數(shù)以避免數(shù)據(jù)坍塌造成的大量信息丟失。使用低維的網(wǎng)絡(luò)優(yōu)點(diǎn)是提升計(jì)算速度，缺點(diǎn)是提取不到足夠多的特征信息，為了平衡模型的精度和效率，本文使用Expand系數(shù)擴(kuò)展維度后再進(jìn)行維度壓縮。

Block中也引入了注意力機(jī)制，人類(lèi)在觀察一副圖像時(shí)，會(huì)高效的分配有限的注意力，將注意力更多的投入到焦點(diǎn)區(qū)域，以獲得重點(diǎn)關(guān)注的信息而摒棄無(wú)用的信息。在算法中，注意力機(jī)制依靠?jī)蓚€(gè)步驟，Squeeze操作和Excitation操作，首先對(duì)特征圖進(jìn)行Squeeze操作獲得全局特征，然后對(duì)全局特征進(jìn)行Excitation，獲得各個(gè)channel的權(quán)重，最后將權(quán)重乘以原來(lái)的特征得到最后的特征。通過(guò)這種注意力模型，可以讓模型學(xué)習(xí)到更重要的特征而抑制不重要的特征。Squeeze操作是通過(guò)全局平均池化層獲得每個(gè)通道的一個(gè)全局特征。Excitation操作是將全局特征經(jīng)過(guò)兩個(gè)全連接層，第一個(gè)全連接層起降維的作用，第二個(gè)全連接層恢復(fù)原始的維度。通過(guò)這種方式，模型學(xué)習(xí)各個(gè)通道的權(quán)重系數(shù)，從而提升模型對(duì)特征的辨別能力。

注意力機(jī)制的結(jié)構(gòu)如圖4所示。

圖4 注意力機(jī)制結(jié)構(gòu)

圖4中輸入特征經(jīng)過(guò)GAP（Global Average Pooling），輸出大小為1×1×C，經(jīng)過(guò)FC1層降維，輸出尺寸為1×1×C/4，經(jīng)過(guò)FC2層升維，輸出尺寸為1×1×C，最后經(jīng)過(guò)Scale操作，該操作是FC2層輸出的權(quán)重系數(shù)與Input特征圖對(duì)應(yīng)通道相乘。

綜上所述，主干網(wǎng)絡(luò)中一個(gè)block組合了深度可分離卷積、逆殘差結(jié)構(gòu)和注意力機(jī)制，圖5展示了主干網(wǎng)絡(luò)中一個(gè)block的結(jié)構(gòu)，在注意力機(jī)制中本文使用1×1的點(diǎn)卷積替換全連接層以適應(yīng)不同尺度的輸入圖像。

圖5 主干網(wǎng)絡(luò)block結(jié)構(gòu)

1.3 特征金字塔設(shè)計(jì)

模型采用P3到P5的特征金字塔層，如表1所示，這三層分別下采樣8、16、32倍，根據(jù)不同尺度的特征圖采用不同尺度的anchor。

表1 特征金字塔anchor

如圖1所示，具體過(guò)程為：提取主干網(wǎng)絡(luò)中的Block3、Block8、Block11的三層，這三層的通道數(shù)分別為24、48、96，首先經(jīng)過(guò)1×1的點(diǎn)卷積將通道數(shù)統(tǒng)一為64，輸出表示為B3、B8、B11層，B11即為P3層，將B11層進(jìn)行上采樣，與B8層相加，再經(jīng)過(guò)3×3卷積得到P4層，該操作是為了消除混疊效應(yīng)。同樣的，將P4層進(jìn)行上采樣與B3層相加，在經(jīng)過(guò)3×3卷積得到P5層。

1.3 檢測(cè)模塊設(shè)計(jì)

檢測(cè)模塊基于SSH網(wǎng)絡(luò)模型設(shè)計(jì)，主要是兩個(gè)部分，一個(gè)是尺度不變性，通過(guò)不同尺度的特征層實(shí)現(xiàn)，D1、D2、D3結(jié)構(gòu)相同，輸入特征圖的尺寸不同，分別為用來(lái)檢測(cè)小目標(biāo)人臉、中目標(biāo)人臉和大目標(biāo)人臉；另一個(gè)引入豐富的上下文信息，通過(guò)Context module實(shí)現(xiàn)。每個(gè)檢測(cè)模塊都包含了人臉?lè)诸?lèi)、框體回歸和特征點(diǎn)回歸三條支路。如上表1所示，每條支路都設(shè)置了兩個(gè)不同尺度的anchor，在本文中，anchor的長(zhǎng)寬比為1。

如圖6所示，輸入的特征圖尺寸為W×W×C，分別通過(guò)一個(gè)3×3的卷積和Context Module，將兩個(gè)輸出進(jìn)行維度上的拼接，拼接后尺寸為W×W×C，最后使用三個(gè)1×1的卷積分別進(jìn)行人臉?lè)诸?lèi)、框體回歸和關(guān)鍵點(diǎn)回歸，獲得W×W×（2×2）個(gè)人臉?lè)诸?lèi)得分、W×W×（2×4）個(gè)框體回歸坐標(biāo)和W×W×（2×10）個(gè)關(guān)鍵點(diǎn)回歸坐標(biāo)。

圖6 檢測(cè)模塊結(jié)構(gòu)圖

如圖7所示，Context Module部分通過(guò)引入大尺度濾波器（5×5、7×7）的卷積來(lái)擴(kuò)大感受野，獲得更豐富的上下文信息，本文借鑒Inception[14]算法使用兩個(gè)級(jí)聯(lián)的3×3濾波器代替5×5濾波器，三個(gè)3×3濾波器級(jí)聯(lián)代替7×7濾波器，節(jié)約了大概28%的計(jì)算量。

圖7 Context Module結(jié)構(gòu)圖

2 訓(xùn)練

本文提出的算法是在PyTorch深度學(xué)習(xí)框架下設(shè)計(jì)訓(xùn)練的。算法使用公開(kāi)數(shù)據(jù)集WIDER FACE的訓(xùn)練集進(jìn)行訓(xùn)練，訓(xùn)練輸入圖片尺寸縮放為640×640，負(fù)例交并比閾值為0.35。采用動(dòng)量梯度下降的方式訓(xùn)練網(wǎng)絡(luò)。

2.1 正負(fù)樣本均衡化處理

面對(duì)開(kāi)集問(wèn)題，我們需要檢測(cè)器有較好的排除背景類(lèi)別的能力，因此需要選取大量的背景作為負(fù)樣本進(jìn)行訓(xùn)練，本文中IOU低于0.35的anchor會(huì)被標(biāo)注為負(fù)例，由于一張圖上的人臉數(shù)有限而anchor數(shù)量龐大，所以會(huì)出現(xiàn)正負(fù)樣本不均衡的問(wèn)題，所以采用OHEM[15]（Online Hard Example Mining，在線(xiàn)困難數(shù)據(jù)挖掘），將判定為負(fù)例的候選框損失值從高到低排序選擇負(fù)樣本，本文提出的算法訓(xùn)練時(shí)正負(fù)樣本比例為1:7。

2.2 損失函數(shù)

對(duì)于訓(xùn)練的一個(gè)anchor，多任務(wù)損失函數(shù)定義如下：

3 結(jié)果分析

本文提出的算法使用公開(kāi)數(shù)據(jù)集FDDB上進(jìn)行評(píng)測(cè)，數(shù)據(jù)集包含2845張圖片、5171個(gè)人臉，測(cè)試集在姿態(tài)、遮擋、旋轉(zhuǎn)等方面有很大的多樣性。評(píng)估指標(biāo)使用真正率和假正數(shù)的關(guān)系繪制ROC曲線(xiàn)來(lái)客觀評(píng)價(jià)本文算法對(duì)人臉檢測(cè)的效果。圖8為該算法與但近幾年表現(xiàn)較好的RSA[16]、ICC-CNN[17]、Faster R-CNN[18]、Face-Boxes[19]、Scale-Face[20]、FD-CNN[21]、LDCF+[22]、BBFCN[23]、Fast R-CNN[24]算法進(jìn)行對(duì)比，橫縱坐標(biāo)分別表示假正數(shù)和真正率。從圖8中就可以直觀的看出，本文提出的算法在人臉檢測(cè)上的表現(xiàn)優(yōu)于其他的算法，在假正數(shù)達(dá)到1000時(shí)，本文的真正率可以達(dá)到0.972。

圖8 FDDB數(shù)據(jù)集ROC曲線(xiàn)

本文使用FPS（每秒幀率）來(lái)評(píng)價(jià)算法的檢測(cè)效率，在NVIDIA GeForce GTX 1080顯卡上面的檢測(cè)速度可達(dá)40FPS，可以達(dá)到視頻級(jí)的檢測(cè)。實(shí)驗(yàn)證明，該算法在普通的GPU上可以達(dá)到實(shí)時(shí)的人臉檢測(cè)，并且檢測(cè)精度很高，可用于實(shí)際的生產(chǎn)生活中。

4 結(jié)語(yǔ)

本文提出了一種輕量級(jí)、實(shí)時(shí)的人臉檢測(cè)方法，該方法通過(guò)在逆殘差結(jié)構(gòu)中加入注意力機(jī)制，增強(qiáng)了模型對(duì)特征的辨別能力，抑制無(wú)用信息，提高了對(duì)目標(biāo)的檢測(cè)能力；構(gòu)建特征金字塔結(jié)構(gòu)，使得算法對(duì)多尺度目標(biāo)同樣具備非常好的檢測(cè)效果；本文的算法可以實(shí)現(xiàn)one-stage檢測(cè)，便于訓(xùn)練和測(cè)試；通過(guò)實(shí)驗(yàn)證明該算法在公開(kāi)數(shù)據(jù)集的表現(xiàn)突出，并且能在GPU上達(dá)到實(shí)時(shí)的人臉檢測(cè)。在未來(lái)的研究中，考慮到實(shí)際場(chǎng)景中檢測(cè)設(shè)備配置有限，將會(huì)對(duì)網(wǎng)絡(luò)進(jìn)一步優(yōu)化，提升在算法CPU上的檢測(cè)效率。