亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        嵌入雙尺度分離式卷積塊注意力模塊的口罩人臉姿態(tài)分類

        2022-04-24 09:53:42陳森楸劉文波張弓
        關(guān)鍵詞:方法模型

        陳森楸,劉文波,張弓

        1.南京航空航天大學(xué)自動(dòng)化學(xué)院,南京 211106;2.高速載運(yùn)設(shè)施的無損檢測(cè)監(jiān)控技術(shù)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,南京 211106;3.南京航空航天大學(xué)電子信息工程學(xué)院,南京 211106

        0 引 言

        人臉姿態(tài)估計(jì)是計(jì)算機(jī)視覺和智能分析領(lǐng)域的重要課題之一,是疲勞駕駛檢測(cè)(莊員和戚湧,2021)、人機(jī)交互和虛擬現(xiàn)實(shí)等領(lǐng)域的關(guān)鍵技術(shù)并有著廣泛應(yīng)用。近年來,人臉姿態(tài)估計(jì)研究活躍,成果豐碩(盧洋 等,2015;董蘭芳 等,2016;Borghi等,2020;Dua等,2019)。新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)的爆發(fā)嚴(yán)重影響了社會(huì)、經(jīng)濟(jì)和生產(chǎn)生活等各個(gè)方面。在新冠疫情防控的新形勢(shì)下,佩戴口罩成為重要防控措施之一,實(shí)現(xiàn)口罩遮擋的人臉姿態(tài)估計(jì)具有重要的現(xiàn)實(shí)意義。

        圍繞人臉姿態(tài)估計(jì)任務(wù),提出了許多技術(shù)路線(Murphy-Chutorian和Trivedi,2009)。其中,基于特征回歸的方法具有突出的優(yōu)越性,其思路為構(gòu)建人臉圖像的特征空間與姿態(tài)空間的映射關(guān)系。但由于口罩遮擋的人臉圖像信息大量損失,傳統(tǒng)方法不能獲取豐富且魯棒的特征,導(dǎo)致算法性能嚴(yán)重下降。隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉信息提取技術(shù)不斷進(jìn)步(LeCun等,2015;吳從中 等,2021),卷積神經(jīng)網(wǎng)絡(luò)成功用于人臉姿態(tài)估計(jì)研究(Byungtae等,2015;Patacchiola和Cangelosi,2017;Raza等2018;Ruiz等,2018;Khan等,2020)。卷積神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)方法具有更強(qiáng)的特征提取能力,研究者利用卷積神經(jīng)網(wǎng)絡(luò)在低分辨率、遮擋干擾和復(fù)雜環(huán)境等條件下實(shí)現(xiàn)了人臉姿態(tài)估計(jì)。鑒于卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力及在人臉姿態(tài)分類中的成功應(yīng)用,本文將其應(yīng)用于口罩遮擋的人臉姿態(tài)分類。

        卷積神經(jīng)網(wǎng)絡(luò)通過堆疊的卷積層和池化層對(duì)圖像進(jìn)行多重非線性映射,自動(dòng)提取了淺層紋理、邊緣等細(xì)節(jié)信息及高層語義信息,但高效的性能也造成了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜。復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)使模型獲得高性能的同時(shí)在參數(shù)量和計(jì)算復(fù)雜度方面犧牲很多,導(dǎo)致實(shí)時(shí)性不佳,且計(jì)算、存儲(chǔ)資源消耗大。而人臉姿態(tài)估計(jì)通常是計(jì)算機(jī)視覺和智能分析技術(shù)的中間環(huán)節(jié)之一,姿態(tài)估計(jì)結(jié)果用于后續(xù)的分析決策。作為中間環(huán)節(jié)的人臉姿態(tài)估計(jì)技術(shù),輕量高效的網(wǎng)絡(luò)模型能夠使其在有限的資源范圍內(nèi)發(fā)揮高效的作用。因此,本文的研究重點(diǎn)為設(shè)計(jì)一個(gè)高效輕量的卷積神經(jīng)網(wǎng)絡(luò)用于口罩遮擋的人臉姿態(tài)估計(jì)。

        為提高卷積神經(jīng)網(wǎng)絡(luò)的效率,針對(duì)輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)開展了大量研究(Denton等,2014;Han等,2015;Zhou等,2020)。Iandola等人(2016)設(shè)計(jì)Fire模塊構(gòu)建了SqueezeNet,顯著降低了參數(shù)量和計(jì)算復(fù)雜度。Howard等人(2017)提出深度可分離卷積代替?zhèn)鹘y(tǒng)卷積,構(gòu)建了MobileNetV1,接著提出倒殘差結(jié)構(gòu)改進(jìn)可分離卷積,構(gòu)建了MobileNetV2(Sandler等,2018)。Zhang等人(2018)采用shuffle模塊解決了組卷積引起的通道間信息流不通的問題,提出了性能高效且輕量的ShuffleNetV1及改進(jìn)的ShuffleNetV2(Ma等,2018)。EfficientNet(Tan等,2019a)通過一個(gè)復(fù)合系數(shù)動(dòng)態(tài)優(yōu)化卷積網(wǎng)絡(luò)的深度、寬度和分辨率,在降低參數(shù)量的同時(shí)優(yōu)化了網(wǎng)絡(luò)性能。然而,輕量化網(wǎng)絡(luò)模型會(huì)在一定程度上造成模型性能下降。因此,需要在綜合考慮模型的體量和準(zhǔn)確率的基礎(chǔ)上,設(shè)計(jì)一個(gè)輕量且高效的網(wǎng)絡(luò)模型,以期較低的計(jì)算要求和較高的準(zhǔn)確率。

        本文采用深度可分離卷積分解傳統(tǒng)卷積運(yùn)算,引入并改進(jìn)卷積塊注意力模塊(convolutional block attention module,CBAM)及其嵌入方式,利用雙尺度卷積來優(yōu)化該注意力模塊的結(jié)構(gòu),形成雙尺度分離嵌入CBAM的卷積單元,在保證較高模型性能的前提下,采用較少的卷積單元構(gòu)建了一個(gè)輕量且高效的網(wǎng)絡(luò)模型,同時(shí)利用卷積層替換全連接層,進(jìn)一步輕量化模型。由于新冠疫情影響,暫時(shí)無法實(shí)現(xiàn)大規(guī)模的人臉數(shù)據(jù)采集。本文利用公開的人臉姿態(tài)圖像疊加口罩圖像制作半仿真口罩人臉姿態(tài)圖像數(shù)據(jù),同時(shí)采集了少量的真實(shí)口罩人臉姿態(tài)數(shù)據(jù)。采用遷移學(xué)習(xí)的方法,在半仿真數(shù)據(jù)上訓(xùn)練本文設(shè)計(jì)的模型,并將其遷移至真實(shí)數(shù)據(jù)集,在有限的真實(shí)口罩人臉姿態(tài)數(shù)據(jù)條件下有效地訓(xùn)練了網(wǎng)絡(luò)模型,提高了模型泛化能力。

        1 本文模型

        1.1 深度可分離卷積

        解耦卷積運(yùn)算方式是降低計(jì)算量的重要措施之一。深度可分離卷積是一種將傳統(tǒng)卷積解耦為深度(depthwise,DW)卷積和點(diǎn)(pointwise,PW)卷積的特殊卷積方式,如圖1所示。

        圖1 深度可分離卷積Fig.1 Depthwise separable convolution

        傳統(tǒng)卷積的計(jì)算量T1=M×N×C×C×D×D。而1個(gè)深度卷積的計(jì)算量為M×C×C×D×D,1個(gè)點(diǎn)卷積的計(jì)算量為M×N×D×D,深度可分離卷積的計(jì)算量T2=M×C×C×D×D+M×N×D×D。深度可分離卷積與傳統(tǒng)卷積的計(jì)算量比例為

        (1)

        式中,M為輸入特征圖的通道數(shù),N為卷積核個(gè)數(shù),D為特征圖的尺寸,C為卷積核的尺寸。卷積核個(gè)數(shù)N越多,計(jì)算量下降越大,所以采用深度可分離卷積可以大幅降低卷積計(jì)算量。

        1.2 CBAM注意力模塊及改進(jìn)

        CBAM注意力模塊(Woo等,2018)是一個(gè)低參數(shù)量、可靈活嵌入基礎(chǔ)網(wǎng)絡(luò)中即插即用的模塊,由通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)級(jí)聯(lián)而成。

        通道注意力模塊MC∈RC×1×1,如圖2所示,⊕表示元素相加。假設(shè)輸入特征圖F=[f1,f2,…,fC](fi∈RH×W),首先通過最大值池化和均值池化將F進(jìn)行擠壓,結(jié)果為[q1,q2,…,qC](qi∈R),每個(gè)通道的2維特征圖由一個(gè)實(shí)數(shù)表示,代表該通道的整體信息。接著將這兩組描述符送入一個(gè)包含隱含層的共享網(wǎng)絡(luò)(shared multi-layer perceptron,shared MLP)學(xué)習(xí)得到不同通道間的注意力權(quán)值。CAM計(jì)算過程為

        (2)

        空間注意力模塊通過學(xué)習(xí)人臉圖像中不同空間位置的重要性,生成空間注意力圖。傳統(tǒng)的SAM通過對(duì)特征圖沿通道維度分別進(jìn)行均值池化和最大值池化擠壓圖像空間信息,但這種擠壓方式對(duì)圖像的空間信息利用并不充分。

        本文在利用均值池化和最大值池化擠壓圖像空間信息的基礎(chǔ)上,增加對(duì)特征通道的擠壓,豐富模塊擠壓的空間信息。具體操作為采用1 × 1的點(diǎn)卷積逐像素點(diǎn)地對(duì)各通道進(jìn)行擠壓。通過補(bǔ)充1 × 1點(diǎn)卷積結(jié)果,擠壓操作能夠獲取更豐富的信息,形成更有效的注意力圖,從而更好地把握空間信息。如圖3所示,改進(jìn)空間注意力模塊采用1 × 1的點(diǎn)卷積將輸入特征圖擠壓為1維,接著將3個(gè)特征描述符串聯(lián)并采用3 × 3的卷積核進(jìn)行運(yùn)算得到空間注意力圖。改進(jìn)SAM模塊計(jì)算過程為

        圖3 改進(jìn)空間注意力模塊Fig.3 Improved spatial attention module

        (3)

        1.3 雙尺度分離嵌入注意力單元及整體網(wǎng)絡(luò)設(shè)計(jì)

        由于輕量化模型會(huì)導(dǎo)致模型性能受損,本文通過嵌入注意力模塊改善輕量化模型的性能。注意力模塊是一個(gè)即插即用的小參數(shù)量插件,能夠以增加較少參數(shù)量的代價(jià)提升模型性能。

        本文采用深度可分離卷積結(jié)合CBAM構(gòu)建了一個(gè)輕量高效的卷積結(jié)構(gòu)。注意力模塊作為一個(gè)獨(dú)立的組件嵌入在主干網(wǎng)絡(luò)中,Woo等人(2018)研究了不同的CAM和SAM組合嵌入方式(串聯(lián)/并聯(lián))且確立了先CAM后SAM的串聯(lián)組合方式。假設(shè)輸入特征圖為F∈RC×H×W,首先經(jīng)過CAM對(duì)通道特征進(jìn)行處理,然后經(jīng)過SAM對(duì)空間特征進(jìn)行處理。具體為

        F′=MC(F)?F
        F″=MS(F′)?F′

        (4)

        式中,F(xiàn)′為通道注意力的結(jié)果,MC∈RC×1×1為通道注意力模塊,F(xiàn)″為空間注意力的結(jié)果,MS∈R1×H×W為空間注意力模塊,?代表元素的乘法。

        CBAM以標(biāo)準(zhǔn)方式(Woo等,2018)嵌入深度可分離卷積的效果是次優(yōu)的。深度可分離卷積由DW卷積和PW卷積組成。在一個(gè)DW卷積中,卷積核數(shù)與輸入特征通道數(shù)一致,單個(gè)卷積核僅對(duì)一個(gè)特征通道進(jìn)行運(yùn)算,所以各通道間的信息不流通。PW卷積以1 × 1的點(diǎn)卷積核逐點(diǎn)地對(duì)DW卷積結(jié)果進(jìn)行處理,融合不同通道間的特征。特征圖經(jīng)過DW卷積后僅能獲取各特征通道的空間信息,而經(jīng)過PW卷積后才能獲取特征圖的空間及通道的混合信息。傳統(tǒng)卷積則是一步獲取空間及通道的混合信息,后接CBAM模塊對(duì)包含混合信息的特征圖進(jìn)行處理。然而,按標(biāo)準(zhǔn)方式對(duì)深度可分離卷積嵌入CBAM模塊的效果并未能達(dá)到最佳。本文將CBAM模塊拆分,在DW卷積后嵌入SAM,對(duì)僅包含空間信息的特征圖進(jìn)行空間注意力調(diào)整,而后將處理過的特征圖送入PW卷積獲取包含空間及通道特征的混合信息,且在其后嵌入CAM對(duì)特征圖進(jìn)行調(diào)整。具體為

        F′=MS(FDW)?FDW=MS(fDW(F))?fDW(F)F″=MC(FPW)?FPW=MC(fPW(F′))?fPW(F′)

        (5)

        式中,F(xiàn)DW為DW卷積結(jié)果,fDW為DW卷積,F(xiàn)PW為PW卷積結(jié)果,fPW為PW卷積。

        本文將CBAM分離嵌入深度可分離卷積,所提卷積結(jié)構(gòu)DW-SAM-PW-CAM如圖4所示(?表示元素相乘),其效果優(yōu)于CBAM以標(biāo)準(zhǔn)方式嵌入的結(jié)構(gòu)DW-PW-CAM-SAM。該結(jié)構(gòu)能夠更有效地將注意力模塊應(yīng)用于卷積運(yùn)算。

        圖4 DW-SAM-PW-CAM結(jié)構(gòu)Fig.4 The structure of DW-SAM-PW-CAM

        卷積神經(jīng)網(wǎng)絡(luò)通過不斷堆疊卷積層或者擴(kuò)寬卷積通道數(shù)可以在一定程度上增強(qiáng)模型性能,但是這樣的操作會(huì)增大模型的參數(shù)量和計(jì)算復(fù)雜度。在Inception(Szegedy等,2015)結(jié)構(gòu)啟發(fā)下,本文采用不同尺度的卷積核分擔(dān)單個(gè)卷積通道數(shù),提取不同尺度的特征信息,豐富模型獲得的圖像特征(Tan和Le,2019b)。本文采用3 × 3和5 × 5兩種尺度的卷積核替換單一尺度的卷積核,以犧牲較少的模型參數(shù)量有效提升模型性能。結(jié)合DW-SAM-PW-CAM結(jié)構(gòu),首先分別采用3 × 3和5 × 5的DW卷積和SAM處理輸入特征圖,接著將結(jié)果送入PW卷積和CAM進(jìn)行處理,最后將計(jì)算后不同尺度的特征圖連接起來作為整個(gè)卷積塊單元的輸出。本文將該單元稱為雙尺度分離注意力卷積(dual-scale separable attention convolution,DSAC)單元,如圖5所示。本文利用設(shè)計(jì)的DSAC單元搭建網(wǎng)絡(luò)模型,但簡(jiǎn)單地堆疊卷積單元不僅造成模型參數(shù)量和計(jì)算復(fù)雜度激增,還容易導(dǎo)致模型過擬合,性能下降。因此在保證模型準(zhǔn)確率的前提下,將每個(gè)DSAC單元以較少的通道數(shù)構(gòu)建為一個(gè)僅包含5個(gè)DSAC單元的輕量級(jí)網(wǎng)絡(luò)模型。此外,模型參數(shù)大量集中在網(wǎng)絡(luò)的全連接層部分。因此本文丟棄全連接層,并在最后一個(gè)DSAC卷積單元添加新卷積層,其輸入通道數(shù)為最后一個(gè)輕量卷積塊單元提取的特征圖通道數(shù),輸出則為n個(gè)特征映射,對(duì)應(yīng)n個(gè)目標(biāo)的高維特征,然后經(jīng)過softmax得到最終輸出結(jié)果。本文設(shè)計(jì)的模型在保證準(zhǔn)確率的前提下,大幅降低了參數(shù)量和計(jì)算復(fù)雜度,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        圖5 DSAC卷積塊單元Fig.5 DSAC convolution block unit

        圖6 本文所提卷積神經(jīng)網(wǎng)絡(luò)模型Fig. 6 The overall structure of the lightweight convolution neural network proposed in this paper

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集準(zhǔn)備

        受新冠疫情影響,本實(shí)驗(yàn)暫時(shí)無法實(shí)現(xiàn)大規(guī)模人臉采集。在CAS-PEAL-R1(張曉華 等,2005)人臉姿態(tài)數(shù)據(jù)集基礎(chǔ)上,與經(jīng)過縮放、旋轉(zhuǎn)和變形操作的口罩圖像疊加,制作了一個(gè)半仿真口罩人臉姿態(tài)數(shù)據(jù)集。同時(shí)采集少量真實(shí)口罩人臉姿態(tài)圖像,構(gòu)建了一個(gè)真實(shí)口罩人臉姿態(tài)數(shù)據(jù)集。數(shù)據(jù)集樣例如圖7所示,第1行是半合成樣本,第2、3行是真實(shí)樣本,包含偏航(Yaw)方向±67°、±45°、±22°和0°共7種姿態(tài)類別。半合成數(shù)據(jù)集包括1 040個(gè)人在7種不同姿態(tài)下的口罩人臉姿態(tài)圖像7 280幅,其中隨機(jī)選取每個(gè)姿態(tài)740幅共5 180幅作為訓(xùn)練樣本,剩余2 100幅作為測(cè)試樣本。真實(shí)數(shù)據(jù)集為57個(gè)人在相同7個(gè)姿態(tài)下的真實(shí)口罩人臉姿態(tài)圖像798幅,其中隨機(jī)選取每個(gè)姿態(tài)94幅共658幅作為訓(xùn)練樣本,剩余140幅作為測(cè)試樣本。將圖像尺寸統(tǒng)一縮放為128 × 128像素以符合網(wǎng)絡(luò)輸入要求,同時(shí)為了增強(qiáng)模型的泛化能力,隨機(jī)對(duì)數(shù)據(jù)采取了亮度變換、加噪聲和模糊等數(shù)據(jù)增強(qiáng),其中噪聲為椒鹽噪聲和均值為0、方差為0.002的高斯噪聲;亮度變換為原來的0.5倍和1倍;圖像模糊采用均值模糊濾波器處理。

        圖7 半合成和真實(shí)口罩人臉姿態(tài)圖像Fig.7 Semisynthetic and real masked face poses images

        2.2 訓(xùn)練方法及參數(shù)設(shè)置

        本文采用遷移學(xué)習(xí)的訓(xùn)練方法,將在半仿真數(shù)據(jù)集上預(yù)訓(xùn)練的模型遷移至真實(shí)數(shù)據(jù)集中。因?yàn)樵从蚝湍繕?biāo)域具有類似的數(shù)據(jù)分布和相同的任務(wù),所以本文采用微調(diào)的遷移方式,將遷移網(wǎng)絡(luò)在目標(biāo)域中進(jìn)行非凍結(jié)訓(xùn)練(Yosinski等,2014)。實(shí)驗(yàn)采用隨機(jī)梯度下降算法,其動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 5;采用變學(xué)習(xí)率的訓(xùn)練方式,當(dāng)?shù)接?xùn)練次數(shù)的2/3時(shí),學(xué)習(xí)率降低為原來的1/10,以使誤差收斂更加平穩(wěn),設(shè)置批大小為16,損失函數(shù)選擇交叉熵函數(shù)。在模擬數(shù)據(jù)集上從頭訓(xùn)練的迭代次數(shù)設(shè)置為50,初始學(xué)習(xí)率設(shè)置為0.005。在真實(shí)口罩人臉姿態(tài)數(shù)據(jù)集上遷移訓(xùn)練的迭代次數(shù)設(shè)置為10,初始學(xué)習(xí)率設(shè)置為0.000 8。實(shí)驗(yàn)的軟硬件平臺(tái)為PC端,Windows10操作系統(tǒng),8 GB內(nèi)存的Core i7-9750H CPU處理器,4 GB顯存的NVIDIA GeForce GTX 1650GPU顯卡,Pytorch深度學(xué)習(xí)框架。

        2.3 結(jié)果與分析

        2.3.1 CBAM模塊嵌入方式對(duì)比實(shí)驗(yàn)

        為了分析本文所提嵌入方式的性能,將未引入注意力模塊的DW-PW方法與以標(biāo)準(zhǔn)CBAM嵌入方式的DW-PW-CAM-SAM、采用分離嵌入注意力模塊的DW-SAM-PW-CAM和改進(jìn)了SAM模塊的DW-SAM(+)-PW-CAM方法通過可視化方法Grad-CAM(Selvaraju等,2017)進(jìn)行對(duì)比,結(jié)果如圖8所示。Grad-CAM可以清楚地顯示網(wǎng)絡(luò)在學(xué)習(xí)中重點(diǎn)關(guān)注的區(qū)域,通過觀察網(wǎng)絡(luò)認(rèn)為對(duì)預(yù)測(cè)類重要的區(qū)域,從而試圖去查看網(wǎng)絡(luò)如何充分利用圖像信息。從圖8可以看出,由于DW-PW方法未引入注意力模塊,網(wǎng)絡(luò)對(duì)圖像信息利用不充分。將CBAM模塊以標(biāo)準(zhǔn)方式嵌入深度可分離卷積的DW-PW-CAM-SAM方法覆蓋目標(biāo)區(qū)域較基線增多,有效提升了網(wǎng)絡(luò)對(duì)圖像信息的利用程度。采用分離嵌入注意力模塊的DW-SAM-PW-CAM方法對(duì)目標(biāo)覆蓋區(qū)域較DW-PW-CAM-SAM方法增大,說明采用DW-SAM-PW-CAM方法有效改進(jìn)了CBAM注意力模塊的嵌入方式。本文所提DW-SAM(+)-PW-CAM方法的目標(biāo)區(qū)域覆蓋程度在DW-SAM-PW-CAM方法的基礎(chǔ)上進(jìn)一步增大,表明改進(jìn)SAM模塊能進(jìn)一步提升圖像利用程度。此外,從圖8可以清楚地看到網(wǎng)絡(luò)對(duì)未遮擋人臉部分的信息利用程度較大。實(shí)驗(yàn)結(jié)果表明,采用DW-SAM(+)-PW-CAM方法構(gòu)建的網(wǎng)絡(luò)對(duì)目標(biāo)區(qū)域信息利用程度最高,模型能有效獲取圖像特征。

        圖8 Grad-CAM可視化結(jié)果Fig.8 Grad-CAM visualization results((a)input images;(b)DW-PW;(c)DW-PW-CAM-SAM;(d)DW-SAM-PW-CAM;(e)DW-SAM(+)-PW-CAM)

        為進(jìn)一步驗(yàn)證不同嵌入方法的性能,對(duì)上述4種方法進(jìn)行定量對(duì)比分析。首先給定以下幾個(gè)評(píng)價(jià)參數(shù)??傮w準(zhǔn)確率(overall accuracy,OA)代表著一種方法的總體性能,是所有類別中分類正確的樣本數(shù)占總樣本數(shù)的比例。模型體量評(píng)價(jià)指標(biāo)采用常用的模型參數(shù)量和每秒浮點(diǎn)運(yùn)算次數(shù)(floating-point operations per second,F(xiàn)LOPs)。此外,通過嵌入注意力模塊提升準(zhǔn)確率會(huì)導(dǎo)致參數(shù)量和FLOPs的增加,本文希望在增加較少量參數(shù)量和FLOPs的前提下盡可能地提升準(zhǔn)確率。通過與基準(zhǔn)方法對(duì)比,提升的OA分別與增加的參數(shù)量和FLOPs做比值,將其定義為得分S。提升的OA與增加的參數(shù)量的比值為S1,提升的OA與增加的FLOPs的比值為S2。顯然,S越大表示該方法較基準(zhǔn)方法而言,能夠犧牲較少參數(shù)量/計(jì)算復(fù)雜度以達(dá)到更高的準(zhǔn)確率。S1和S2的具體計(jì)算為

        (6)

        (7)

        式中,On和Ob分別代表當(dāng)前方法和基準(zhǔn)方法的總體準(zhǔn)確率,pn和pb分別代表當(dāng)前方法和基準(zhǔn)方法的參數(shù)量,Rn和Rb分別代表當(dāng)前方法和基準(zhǔn)方法的FLOPs。

        實(shí)驗(yàn)結(jié)果如表1所示。可以看出:1)嵌入注意力模塊可以有效提升OA。CBAM以標(biāo)準(zhǔn)方式嵌入網(wǎng)絡(luò)的DW-PW-CAM-SAM方法較未引入注意力模塊的方法(基線)提升了5.75%。將CBAM分離嵌入深度可分離卷積的DW-SAM-PW-CAM方法較基線提升了9.3%。在DW-SAM-PW-CAM方法上改進(jìn)SAM模塊的DW-SAM(+)-PW-CAM方法較基線提升了12.16%。2)在不增加參數(shù)量和FLOPs的前提下,DW-SAM-PW-CAM方法的OA較DW-PW-CAM-SAM方法有明顯提升,表明分離CBAM的嵌入方式比標(biāo)準(zhǔn)嵌入的方式更具優(yōu)勢(shì),合理地嵌入CBAM能有效提升模型性能。3)DW-SAM(+)-PW-CAM方法的OA較DW-SAM-PW-CA方法有明顯提升。DW-SAM(+)-PW-CAM方法將通過對(duì)SAM模塊增加1 × 1點(diǎn)卷積的結(jié)果作為補(bǔ)充信息,有效提升了OA,但同時(shí)也導(dǎo)致模型的參數(shù)量和FLOPs小幅增加。4)DW-SAM(+)-PW-CAM方法的S1和S2均為最高,表明該方法通過犧牲較少的模型參數(shù)量和計(jì)算復(fù)雜度獲得了較高的模型準(zhǔn)確率。

        表1 不同嵌入方法的性能對(duì)比Table 1 Performance comparison of different embedding methods

        4種方法的網(wǎng)絡(luò)訓(xùn)練收斂過程如圖9所示??梢钥闯觯珼W-SAM(+)-PW-CAM方法具有較快的收斂速度,并且最終能夠獲得較高的準(zhǔn)確率。

        圖9 網(wǎng)絡(luò)訓(xùn)練收斂過程Fig.9 Convergence of networks training process

        2.3.2 不同尺度卷積核對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證本文采用多尺度卷積核的效果,對(duì)不同尺寸的卷積核組合進(jìn)行對(duì)比實(shí)驗(yàn)。3×3卷積核已經(jīng)廣泛應(yīng)用于各種網(wǎng)絡(luò)模型,因此將僅包含3×3卷積核的網(wǎng)絡(luò)作為基準(zhǔn),采用5×5、7×7和9×9 這3種尺寸的卷積核組合方式分擔(dān)卷積通道進(jìn)行對(duì)比實(shí)驗(yàn)。不采用11×11及以上的卷積核的原因在于:1)除了AlexNet采用11×11卷積核作為前置特征提取層外,少有網(wǎng)絡(luò)采用大卷積核;2)大尺寸卷積核會(huì)造成模型參數(shù)量激增;3)過大尺寸的卷積核可能造成提取特征冗余并影響模型性能。

        本文設(shè)置{3×3,5×5}、{3×3,7×7}、{3×3,9×9}、{3×3,5×5,7×7}、{3×3,5×5,9×9}、{3×3,7×7,9×9}和{3×3,5×5,7×7,9×9}等網(wǎng)絡(luò)結(jié)構(gòu)作為對(duì)比實(shí)驗(yàn)組。實(shí)驗(yàn)結(jié)果如由表2所示。可以看出:1)多尺度卷積核構(gòu)建的網(wǎng)絡(luò)的OA都高于單一尺度的網(wǎng)絡(luò)。在不增加卷積深度和寬度的前提下,采用多尺度卷積核能夠有效提升模型的準(zhǔn)確率。2)采用三尺度及四尺度卷積核構(gòu)建的網(wǎng)絡(luò)的OA高于采用雙尺度卷積核的網(wǎng)絡(luò),但雙尺度卷積核構(gòu)建的網(wǎng)絡(luò)的S1和S2普遍高于采用三尺度或四尺度卷積核的網(wǎng)絡(luò)。即采用多尺度卷積核能夠有效提升模型的OA,但會(huì)增加模型的參數(shù)量和計(jì)算復(fù)雜度。而雙尺度卷積核構(gòu)建的網(wǎng)絡(luò)能夠通過增加較少參數(shù)量及計(jì)算復(fù)雜度有效提升OA。3)包含9×9卷積核的網(wǎng)絡(luò)的S均較低,表明采用過大尺寸的卷積核的網(wǎng)絡(luò)不能很好地在提升OA和犧牲參數(shù)量及計(jì)算復(fù)雜度之間取得平衡。網(wǎng)絡(luò)采用不同尺度的卷積核能夠獲得豐富的特征信息,但過大尺寸的卷積核會(huì)造成模型參數(shù)量和計(jì)算復(fù)雜度的大幅增加。4)采用{3×3,5×5}雙尺度卷積核的網(wǎng)絡(luò)的準(zhǔn)確率為98.57%,較基準(zhǔn)網(wǎng)絡(luò)僅增加了0.03 MB的參數(shù)量和3.68 MB的FLOPs,構(gòu)建的模型具有最高的S1和S2,即在保持較少參數(shù)量和計(jì)算復(fù)雜度增加的前提下有效提升了網(wǎng)絡(luò)的準(zhǔn)確率。

        表2 不同尺寸卷積核組合的性能對(duì)比Table 2 Performance comparison of combinations with different kernel sizes

        2.3.3 不同網(wǎng)絡(luò)模型對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證本文模型的性能,與AlexNet、VGGNet(Visual Geometry Group network)、ResNet(residual neural network)和GoogLeNet等經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型以及SqueezeNet、MobileNet、ShuffleNet和EfficientNet等優(yōu)秀的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行比較,采用模型參數(shù)量、FLOPs和OA作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表3所示。

        表3 不同網(wǎng)絡(luò)模型的性能對(duì)比Table 3 Performance comparison of different models

        2.3.4 不同訓(xùn)練方法對(duì)比實(shí)驗(yàn)

        由于真實(shí)場(chǎng)景中的口罩人臉姿態(tài)數(shù)據(jù)較少,采取一種有效的小樣本學(xué)習(xí)方法是成功訓(xùn)練模型的關(guān)鍵。本文設(shè)計(jì)了兩種方案解決數(shù)據(jù)缺乏問題,其一是通過混合制作的半仿真數(shù)據(jù)和真實(shí)數(shù)據(jù),將模型在混合數(shù)據(jù)集中進(jìn)行訓(xùn)練;其二是根據(jù)半仿真數(shù)據(jù)具有與真實(shí)數(shù)據(jù)相似數(shù)據(jù)分布的特點(diǎn),采用遷移學(xué)習(xí)的方法能夠有效地訓(xùn)練模型。所以將在半仿真數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)模型遷移至真實(shí)數(shù)據(jù)集中,提升模型的準(zhǔn)確率。

        不同訓(xùn)練方法的實(shí)驗(yàn)結(jié)果如表4所示??梢钥闯觯?)僅在半仿真數(shù)據(jù)集中訓(xùn)練的模型缺乏在真實(shí)數(shù)據(jù)下的泛化能力,直接在真實(shí)數(shù)據(jù)集中測(cè)試則準(zhǔn)確率不高。2)僅在真實(shí)數(shù)據(jù)集中訓(xùn)練的網(wǎng)絡(luò)模型的準(zhǔn)確率也較低,這是因?yàn)檎鎸?shí)數(shù)據(jù)集過小,網(wǎng)絡(luò)容易過擬合,導(dǎo)致測(cè)試準(zhǔn)確率下降。3)在真實(shí)數(shù)據(jù)和半仿真數(shù)據(jù)混合的數(shù)據(jù)集上訓(xùn)練的模型的準(zhǔn)確率能夠達(dá)到90.2%,通過遷移學(xué)習(xí)訓(xùn)練的模型的準(zhǔn)確率能夠達(dá)到98.57%。實(shí)驗(yàn)表明,采用遷移學(xué)習(xí)方法能夠在有限的真實(shí)口罩人臉姿態(tài)數(shù)據(jù)條件下有效訓(xùn)練網(wǎng)絡(luò)模型,且具有較高的模型準(zhǔn)確率。

        表4 不同訓(xùn)練方法的OATable 4 OA of different training methods

        3 結(jié) 論

        本文設(shè)計(jì)了一個(gè)輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)模型用于口罩人臉姿態(tài)分類。將通過深度可分離卷積解耦傳統(tǒng)卷積、采用卷積層替代全連接層、縮減網(wǎng)絡(luò)深度及卷積通道數(shù)等作為網(wǎng)絡(luò)輕量化的主要手段,并引入注意力機(jī)制提升輕量化模型的性能。

        首先,創(chuàng)新性地將CBAM注意力模塊分離嵌入DW卷積和PW卷積,針對(duì)性地對(duì)特征圖的空間信息和通道信息進(jìn)行調(diào)整。其次,對(duì)SAM模塊補(bǔ)充1×1的點(diǎn)卷積特征圖,使SAM模塊能夠獲取更豐富的空間信息,更好地把握了感受域的信息。然后,采用雙尺度卷積核優(yōu)化DW-SAM(+)-PW-CAM卷積結(jié)構(gòu),構(gòu)建了DSAC模塊,僅利用5個(gè)DSAC模塊搭建了本文輕量高效的卷積神經(jīng)網(wǎng)絡(luò)模型。最后,將設(shè)計(jì)的網(wǎng)絡(luò)模型在構(gòu)建的半仿真口罩人臉姿態(tài)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練后遷移至真實(shí)數(shù)據(jù)集中微調(diào)訓(xùn)練。

        本文設(shè)計(jì)的網(wǎng)絡(luò)模型具有緊湊輕盈的結(jié)構(gòu),大幅縮減了參數(shù)量和計(jì)算復(fù)雜度,具有較高的分類準(zhǔn)確率。采用遷移學(xué)習(xí)的方法在缺乏真實(shí)口罩遮擋人臉姿態(tài)數(shù)據(jù)集的條件下成功訓(xùn)練了模型,提高了模型的泛化能力和準(zhǔn)確率。與經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)對(duì)比,本文設(shè)計(jì)的模型僅有1.02 MB的參數(shù)量和24.18 MB的FLOPs,而準(zhǔn)確率達(dá)到了98.57%。然而,本文研究受限于人臉姿態(tài)類別數(shù)量,未能實(shí)現(xiàn)較精細(xì)化的人臉姿態(tài)估計(jì)。未來的工作中,將構(gòu)建更加完備的口罩人臉姿態(tài)數(shù)據(jù)集,考慮更多細(xì)分的人臉姿態(tài),設(shè)計(jì)能夠估計(jì)更加細(xì)分姿態(tài)類別的模型。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        久久精品国产第一区二区三区 | 国产三级精品三级在线观看| 亚洲小说区图片区另类春色| 欧美丰满熟妇aaaaa片| 2021年最新久久久视精品爱| 国产精品福利久久香蕉中文| 热热久久超碰精品中文字幕| 日本成人精品在线播放| 热久久美女精品天天吊色| 成人国内精品久久久久一区| 欧美日本国产三级在线| 亚洲无AV码一区二区三区| 日本成人中文字幕亚洲一区 | 国产女主播福利在线观看| 日韩精品一区二区三区在线视频| 久久久久成人精品免费播放动漫 | 亚洲av日韩av一卡二卡| 手机在线国产福利av| 日韩人妻熟女中文字幕a美景之屋| 人与禽性视频77777| 久久精品片| 亚洲欧美日韩精品高清| 偷拍偷窥在线精品视频| 亚洲精品一区二区国产精华液| 久久久无码人妻精品无码| 国产成人亚洲日韩欧美| 热久久网站| 白色白色在线视频播放平台| 久久久久久夜精品精品免费啦| 精品少妇一区二区三区免费观| 依依成人精品视频在线观看| 欧美久久中文字幕| 久久久人妻精品一区bav| 正在播放强揉爆乳女教师| 久久久久久久人妻无码中文字幕爆| 日产精品一区二区三区| 亚洲午夜经典一区二区日韩| 吃奶呻吟打开双腿做受视频 | 中国大陆一级毛片| 中文字幕一区二区三区亚洲| 邻居美少妇张开腿让我爽了一夜|