劉 凱,張壽明*
(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2.云南省計算機人工智能重點實驗室,云南 昆明 650500)
新型冠狀病毒給人們的日常生活乃至生命安全都造成了巨大威脅[1]。衛(wèi)生防疫專家強調(diào),新型冠狀病毒的傳播途徑主要為直接傳播[2-3]。相關(guān)研究表明,醫(yī)用外科口罩能阻擋大部分病毒進入人的呼吸道。當前,各種人流量較大的場合都安排工作人員督促人們合理佩戴好口罩并測量體溫,防止病毒傳播,如圖1 所示。
圖1 工作人員督促示意圖
然而,人工監(jiān)督方式很可能會由于檢測效率低而造成人群聚集,進一步增加了在場人員的感染風險。
為此,許多研究者致力于將基于深度學習的目標檢測算法應用于各種場景下對人臉口罩的檢測中。文獻[4]提出了Haar 檢測器與YOLOv3 算法相結(jié)合的算法模型,實驗結(jié)果表明該模型的mAP0.5值突破了90%,但仍在小尺寸目標檢測上存在一定問題。文獻[5]提出了基于SSD 的輕量化改進,該策略有效地降低了模型參數(shù)量,一定程度上提高了網(wǎng)絡的檢測速度,但在實際測試中還是難以滿足實時性的要求。文獻[6]設計了基于YOLOv3 網(wǎng)絡引入SPPNet[7]結(jié)構(gòu)的口罩檢測算法,以空間金字塔的網(wǎng)絡結(jié)構(gòu)更好地融合特征信息,實驗測試效果mAP0.5達到90%但犧牲了模型的檢測速度。文獻[8]設計了一種基于RetinaFace[9]的口罩佩戴檢測算法模型,該策略有效降低了目標周圍的無效特征的影響,檢測精度也得到了一定程度的提高,但模型實時性并沒有得到提升。
本文對YOLO 系列中經(jīng)典的目標檢測算法YOLOv3 進行輕量化改進。YOLOv3 的骨干網(wǎng)絡為DarkNet-53 網(wǎng)絡,其結(jié)構(gòu)如圖2 所示。
圖2 DarkNet-53 網(wǎng)絡結(jié)構(gòu)圖
YOLOv3 使用DarkNet-53 作為骨干網(wǎng)絡,通過連續(xù)5 次下采樣對輸入的圖像進行特征提取,將后3 次下采樣的結(jié)果作為網(wǎng)絡輸出。通過這3 個不同尺度的有效特征層以及特征金字塔結(jié)構(gòu)實現(xiàn)網(wǎng)絡的特征信息融合,最后利用多尺度檢測進行目標預測,如圖3 所示。
圖3 YOLOv3 網(wǎng)絡結(jié)構(gòu)示意圖
然而,骨干網(wǎng)絡DarkNet-53 網(wǎng)絡參數(shù)量大,網(wǎng)絡結(jié)構(gòu)復雜,導致YOLOv3 雖然有較高的檢測精度但實時性較差。
EfficientNet[10]網(wǎng) 絡 是 以EfficientNet-B0 作 為基準網(wǎng)絡,在寬度、深度以及輸入圖片分辨率3 個維度上搜索出EfficientNetB1-B7 共7 種網(wǎng)絡結(jié)構(gòu)。EfficientNet-B1 的網(wǎng)絡深度為基準網(wǎng)絡的1.1 倍。其網(wǎng)絡結(jié)構(gòu)如表1 所示。
表1 EfficientNet-B1 網(wǎng)絡結(jié)構(gòu)
EfficientNet-B1 網(wǎng)絡主要由MBconv 結(jié)構(gòu)堆疊而成。與DarkNet-53 相同的是,Efficient-B1 網(wǎng)絡將輸入圖片傳入網(wǎng)絡時進行了5 次步距為2 的下采樣處理,因此實驗將后3 次特征圖的壓縮結(jié)果替代為原YOLOv3 骨干網(wǎng)絡的輸出部分傳入后續(xù)的網(wǎng)絡中,得到Efficient-YOLOv3 網(wǎng)絡。
注意力機制作為機器學習常見的數(shù)據(jù)處理方法,已經(jīng)被廣泛應用在不同的深度學習任務中。CBAM 就是常見的混合域注意力機制。其結(jié)構(gòu)如圖4 所示。
圖4 CBAM 結(jié)構(gòu)示意圖
由圖4 可以看出,CBAM 結(jié)合了通道注意力機制和空間注意力機制。通道注意力機制模塊的工作原理如圖5 所示。該模塊對輸入進來的特征圖基于寬和高分別進行全局最大池化和全局平均池化,獲得兩個特征長條,其長度與輸入的通道數(shù)相同,之后利用共享全連接層(MLP)進行處理,對處理的兩個結(jié)果進行Concat 操作,最后用Sigmoid 函數(shù)將值固定在0 和1 之間,生成通道注意力權(quán)值。
圖5 通道注意力機制結(jié)構(gòu)圖
其可以用公式表達為:
Mc(F)=σ{MLP[AvgPool(F)]+MLP[MaxPool(F)]} (1)
式中:AvgPool,MaxPool分別代表平均池化和最大池化,F(xiàn)表示輸入特征圖,σ代表Sigmoid 函數(shù)生成0-1 的權(quán)值。
空間注意力模塊是將經(jīng)通道注意力加權(quán)后的特征圖基于通道數(shù)進行全局平均池化和全局最大池化,將得到的結(jié)果基于通道數(shù)進行堆疊,得到一個通道數(shù)為2 的特征層并對其進行卷積操作,將通道數(shù)降為1,再使用Sigmoid 函數(shù)生成空間注意力機制的權(quán)值。其結(jié)構(gòu)如圖6 所示。
圖6 空間注意力機制結(jié)構(gòu)圖
其操作可以用式(2)表示:
Ms(F)=σ{f7×7[AvgPool(F);MaxPool(F)]} (2)式中:f7×7表示空間注意力機制進行卷積操作時卷積核的大小。
為進一步提升模型性能,實驗將骨干網(wǎng)絡輸出的不同尺度的特征圖添加混合域注意力機制CBAM作為特征融合網(wǎng)絡的輸入,并將特征金字塔結(jié)構(gòu)與CBAM 結(jié)合,通過自上而下的特征信息融合以及混合域注意力機制使網(wǎng)絡聚焦于需要關(guān)注的部分,得到的Efficient-YOLOv3-CBAM 網(wǎng)絡結(jié)構(gòu)如圖7 所示。
圖7 Efficient-YOLOv3-CBAM 網(wǎng)絡結(jié)構(gòu)
Mosaic 數(shù)據(jù)增強是在線數(shù)據(jù)增強的方式之一,其原理是以隨機的4 張圖片經(jīng)過增強后重新拼接形成新的樣本進行數(shù)據(jù)增強。其原理如圖8 所示。
圖8 Mosaic 數(shù)據(jù)增強示意圖
Mosaic 數(shù)據(jù)增強主要有以下兩個優(yōu)點:
(1)對圖片處理后形成的新的樣本可極大地豐富樣本的背景信息,進一步增強網(wǎng)絡訓練出的模型的泛化能力;
(2)新樣本在形成時會生成更多的小目標樣本,很好地平衡了數(shù)據(jù)集中不同尺度的分布,可在一定程度上提高對小目標的檢測效果。
本文的數(shù)據(jù)集通過網(wǎng)絡爬取的方式經(jīng)過清洗、篩選后共獲得復雜場景下共7 607 張口罩數(shù)據(jù)集。采用Labelimg 進行數(shù)據(jù)標注,在Ubuntu18.04 操作系統(tǒng)中進行訓練,GPU 為Nvidia RTX 3060,顯存為12 GB,CUDA 版本為11.4,深度學習框架為Pytorch 1.90。
本實驗采取平均精度(Average Precision,AP)、平均精度均值(mean Average Precision,mAP)以及單張圖片檢測速度(Time)作為網(wǎng)絡模型的評價指標。其中,mAP0.5表示IOU 閾值為0.5 時計算的mAP,單張圖片預測時間是模型遍歷1 500 張數(shù)據(jù)集所得到的檢測平均時間,平均精度可以通過P-R曲線,體現(xiàn)對應類別的查準率(Precision)和查全率(Recall)。計算方法分別如下:
式中:N為實驗的類別數(shù),TP表示正樣本被模型預測為正樣本的數(shù)量,F(xiàn)N表示正樣本被預測為負樣本的數(shù)量,F(xiàn)P表示負樣本被模型預測為正樣本的數(shù)量。
本文的改進算法Efficient-YOLOv3-CBAMMosaic網(wǎng)絡模型生成的P-R曲線如圖10、圖11所示。實驗共分為兩個檢測類別,nomask 表示的是未佩戴口罩的目標,mask 表示佩戴口罩的目標。
圖10 nomask 的P-R 曲線圖
為進一步驗證改進的有效性,本文對上述改進采用消融實驗進行實際性能對比,得到的結(jié)果如表2 所示。
由表2可以看出,本文算法的參數(shù)量為原YOLOv3模型參數(shù)量的22%,單張圖片的檢測速度也提升了3.93 倍,且mAP0.5僅降低了2.73%。本文改進的最終算法模型也具有良好的檢測性能,部分樣本檢測效果如圖11 所示。
圖11 mask 的P-R 曲線圖
表2 算法評估結(jié)果
圖11 算法檢測效果圖
針對目前大多數(shù)目標檢測算法由于網(wǎng)絡結(jié)構(gòu)復雜、網(wǎng)絡參數(shù)量大導致實時性較差的問題,本文提出了基于YOLOv3 的輕量化口罩檢測算法研究,采用輕量化網(wǎng)絡替換原骨干網(wǎng)絡,并引入混合域注意力機制與特征金字塔結(jié)構(gòu)融合,將網(wǎng)絡聚焦于樣本中的有效區(qū)域,進一步提升模型性能,并采用數(shù)據(jù)增強技術(shù)提高了模型的泛化能力。所提的方法在降低了一定精度的條件下,有效減少了參數(shù)量,實時性得到了明顯提升。