亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)SSD 的人臉口罩佩戴檢測算法

2022-07-20 07:16:14任健楊帆張奕凡王智捷廖磊

電子測試 2022年13期

任健，楊帆，張奕凡，王智捷，廖磊

(四川師范大學(xué)物理與電子工程學(xué)院，四川成都，610101)

0 引言

深度學(xué)習(xí)技術(shù)的出現(xiàn)革新了目標(biāo)檢測的模式，并提升目標(biāo)檢測的精度和魯棒性。深度神經(jīng)網(wǎng)絡(luò)提取多層尺度的特征，基于深度學(xué)習(xí)的目標(biāo)檢測模型，相比于傳統(tǒng)方法，學(xué)習(xí)的特征更豐富，特征表達(dá)能力更強(qiáng)[1,2]?，F(xiàn)代的目標(biāo)檢測器可以大致的分為單階段[3,4,5,6]和兩階段[7,8,9,10]。兩階段檢測方法首先生成一系列區(qū)域提案，隨后對(duì)區(qū)域提案進(jìn)行分類和回歸[11]。另一方面，單階段方法通過圖像上的常規(guī)采樣網(wǎng)格將默認(rèn)錨框直接回歸和分類到框中，單階段主要在單尺度特征上進(jìn)行不同尺寸目標(biāo)的分類與定位，在精度以及速度等方面均有優(yōu)勢[12]。

深度學(xué)習(xí)方法已應(yīng)用于計(jì)算機(jī)視覺各個(gè)領(lǐng)域，如車牌識(shí)別，人臉檢測，遙感圖像目標(biāo)檢測，自然場景文本檢測，醫(yī)學(xué)圖像檢測等等。目前沒有專門應(yīng)用于人臉口罩檢測算法，深度學(xué)習(xí)的快速發(fā)展為解決計(jì)算機(jī)視覺等相關(guān)的問題提供全新的方案。

本文的主要貢獻(xiàn)如下：(1）構(gòu)建了一個(gè)人臉口罩檢測的數(shù)據(jù)集，可用于人臉口罩佩戴的識(shí)別檢測等研究工作；(2）將目標(biāo)檢測應(yīng)用于口罩佩戴檢測，提出一種基于SSD 方法的口罩佩戴檢測方法，在SSD[4]目標(biāo)檢測算法基礎(chǔ)上，將基準(zhǔn)網(wǎng)絡(luò)替換為表征能力更強(qiáng)的殘差網(wǎng)絡(luò)ResNet，解決隨著網(wǎng)絡(luò)層數(shù)加深出現(xiàn)的性能退化問題[13]，同時(shí)引入低層與高層的多尺度特征融合策略實(shí)現(xiàn)對(duì)自然場景中人臉口罩的實(shí)時(shí)檢測。

1 SSD 目標(biāo)檢測算法

SSD 模型主要由一個(gè)基礎(chǔ)網(wǎng)絡(luò)塊和多尺度的特征塊級(jí)聯(lián)而成。位于前端的基礎(chǔ)網(wǎng)絡(luò)塊一般選用深度卷積神經(jīng)網(wǎng)絡(luò)提取原始圖片特征在多尺度下提取位于后端的級(jí)聯(lián)多尺度特征檢測網(wǎng)絡(luò)前端網(wǎng)絡(luò)產(chǎn)生的特征[15]，使特征圖中每個(gè)單元輸入圖像的感受野更廣闊，更適合檢測尺寸較小的目標(biāo)[4]。SSD 檢測目標(biāo)時(shí)，生成多個(gè)不同尺度的預(yù)測框，并通過預(yù)測框的類別和偏移量實(shí)現(xiàn)目標(biāo)檢測，如圖1 所示：各個(gè)尺度相互獨(dú)立，不考慮不同尺度特中層間映射關(guān)系，層與層之間關(guān)聯(lián)性較弱，導(dǎo)致特征細(xì)節(jié)信息利用不充分。

圖1 SSD 框架

2 相關(guān)工作

2.1 特征層默認(rèn)框映射

SSD 采用多尺度的方法獲得多個(gè)不同尺寸特征圖[35]，大小分別為（38，38），（19，19），（10，10），（5，5），（3，3），（1，1）?？紤]模型檢測采用m 層特征圖，第k 個(gè)特征圖的默認(rèn)框比例計(jì)算公式如下：

2.2 損失函數(shù)

在SSD 算法中，目標(biāo)損失函數(shù)的設(shè)計(jì)思想與MultiBox類似[14]，并將其擴(kuò)展為可處理多個(gè)類別的目標(biāo)函數(shù)。網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)包括置信度損失和定位損失，即

3 改進(jìn)措施

3.1 基礎(chǔ)網(wǎng)絡(luò)ResNet

基礎(chǔ)網(wǎng)絡(luò)對(duì)輸入的圖片數(shù)據(jù)進(jìn)行特征提取，并將特征送入后續(xù)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。SSD 算法采用VGG-16 作為基礎(chǔ)網(wǎng)絡(luò)，具有加深神經(jīng)網(wǎng)絡(luò)層數(shù)提升模型效果，且對(duì)其它數(shù)據(jù)集泛化能力較強(qiáng)，由于隨著網(wǎng)絡(luò)層數(shù)加深，精度出現(xiàn)不升反降現(xiàn)象，并引入跳躍連接機(jī)制降低提取特征的冗余度，解決層數(shù)增加出現(xiàn)的性能退化問題[13]，ResNet 允許網(wǎng)絡(luò)更深，全連接密集層代替全局平均池操作，模型的尺寸更小，表征能力更強(qiáng)。選取conv2_x，con3_x，conv4_x，conv5_x，conv_7_x，conv8_x，conv9_x 特征提取層。圖2 為經(jīng)過網(wǎng)絡(luò)替換后的網(wǎng)絡(luò)結(jié)構(gòu)圖：

圖2 SSD(with ResNet)框架

3.2 多尺度特征融合

3.2.1 反卷積操作

通過卷積操作提取圖片中的特征，低層的卷積層提取圖片邊緣、線條、角等特征，高層的卷積從低層的卷積層中學(xué)到更復(fù)雜的特征[12]。反卷積對(duì)特征圖上采樣，將低維局部特征映射為高維向量，學(xué)習(xí)更多上文信息。SSD 網(wǎng)絡(luò)結(jié)構(gòu)中低層的特征圖中具有豐富的邊緣信息，高層的特征圖具有較多的語義特征。設(shè)步長s，輸入特征大小i，濾波器大小k，擴(kuò)充值p，有:

本次實(shí)驗(yàn)中設(shè)計(jì)i=3,s=1,k=3,p=0。將conv4_3 映射至conv7 層，設(shè)該映射層為conv7f,同理，將conv7 映射至con8_2 層，設(shè)該映射層為conv8_2f。融合反卷積操作提取層如圖3 所示：

圖3 融合反卷積操作提取層

3.2.2 空洞卷積操作

在圖像分割領(lǐng)域中，池化操作減少圖像尺寸增大感受野，上采樣操作實(shí)現(xiàn)擴(kuò)大尺寸，在池化和上采樣圖像尺寸變化過程中損失部分信息，設(shè)計(jì)空洞卷積在不丟失信息的情況下增大卷積層感受野，改善對(duì)小目標(biāo)的表達(dá)。本文中設(shè)計(jì)卷積核3×3，擴(kuò)張dilation 為2 的空洞卷積，感受野計(jì)算公式為：

圖4 融合反卷積操作提取層

3.2.3 網(wǎng)絡(luò)結(jié)構(gòu)

SSD 檢測目標(biāo)時(shí)，生成多個(gè)不同尺度的預(yù)測框，不考慮不同尺度特征層間映射關(guān)系，層與層之間關(guān)聯(lián)性較弱。本文優(yōu)化SSD 目標(biāo)檢測算法的網(wǎng)絡(luò)結(jié)構(gòu)，選擇表征能力更強(qiáng)的基礎(chǔ)網(wǎng)絡(luò)ResNet-50。特征層融合機(jī)制將多個(gè)特征層的信息融合，空洞卷積操作將低層與高層的特征圖融合，明顯提高分類網(wǎng)絡(luò)的感受野范圍，促使模型學(xué)習(xí)更多的全局信息；反卷積操作將高層的特征圖和低層的特征圖融合，提高低層特征層檢測小目標(biāo)的能力，增強(qiáng)模型的語義表征能力。該連接方式使改進(jìn)后的網(wǎng)絡(luò)可在同一特征層上將目標(biāo)的不同尺度考慮在內(nèi)，增強(qiáng)模型的泛化能力。

以conv7 為例，conv7 從SSD 中繼承而來，通過conv4_3反卷積操作映射生成conv7f，通過conv8_2 空洞卷積操作映射生成conv7d，改進(jìn)SSD 的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。

圖5 改進(jìn)SSD 網(wǎng)絡(luò)結(jié)構(gòu)

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

本實(shí)驗(yàn)的數(shù)據(jù)集基于香港中文大學(xué)Yang Shuo 等制作的人臉數(shù)據(jù)WIDER FACE[16]，并從網(wǎng)絡(luò)爬取，實(shí)地采集和算法合成7106 張關(guān)于佩戴口罩與未佩戴口罩的自然場景人臉口罩?jǐn)?shù)據(jù)集。數(shù)據(jù)通過準(zhǔn)確的人工標(biāo)注，標(biāo)注類別分為佩戴與未佩戴，所有圖片均為彩色。數(shù)據(jù)集樣例圖6。

圖6 數(shù)據(jù)集

4.2 實(shí)驗(yàn)環(huán)境

本文的實(shí)驗(yàn)環(huán)境如表1 所示，并設(shè)置訓(xùn)練階段的重要參數(shù)，如表2 所示。

表1 實(shí)驗(yàn)平臺(tái)

表2 訓(xùn)練參數(shù)

在訓(xùn)練過程中，模型的損失和精度變化是重要的兩個(gè)變量，模型經(jīng)過35000 次迭代，loss 最終下降至0.2 附近，模型的精度上升至97.7%附近。此外，在測試數(shù)據(jù)集對(duì)模型性能進(jìn)行評(píng)估，如圖7 所示，最終right 標(biāo)簽的單類AP 為92.89%，no 標(biāo)簽的單類AP 為88.41%

圖7 right P-R 和no P-R

算法改進(jìn)前后的實(shí)驗(yàn)結(jié)果如表3 和圖8 所示，本文算法通過改進(jìn)在人臉檢測和口罩佩戴檢測方面相比SSD 均有提高，綜合測試由原SSD 的82.37%提升至90.65%。本文算法取得較好的檢測效果，對(duì)于優(yōu)化后訓(xùn)練包含小尺寸目標(biāo)時(shí)本文算法的檢測效果相比SSD 提升較大，對(duì)于部分受到遮擋的目標(biāo)，本文算法相比優(yōu)于SSD 檢測能力。

表3 方法改進(jìn)前后對(duì)比

圖8 精度對(duì)比圖

5 總結(jié)

本文通過對(duì)基礎(chǔ)網(wǎng)絡(luò)的替換，以及多尺度特征融合方法實(shí)現(xiàn)對(duì)SSD 算法的改進(jìn)，實(shí)驗(yàn)通過在本文建立的7106 張圖片數(shù)據(jù)集訓(xùn)練以及評(píng)估，結(jié)果顯示該方法可以有效檢測自然場景人臉口罩，平均精度達(dá)90.65%，證實(shí)了本文算法框架的合理性。