亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

軌道交通視頻中乘客口罩佩戴檢測算法研究*

2022-12-10 06:34:16李永玲曹志威謝征宇吳志宇

城市軌道交通研究 2022年12期

關(guān)鍵詞：特征檢測

李永玲秦勇曹志威謝征宇吳志宇,3

(1.北京交通大學(xué)軌道交通控制與安全國家重點(diǎn)實(shí)驗(yàn)室，100044，北京；2.北京交通大學(xué)交通運(yùn)輸學(xué)院，100044，北京；3.北京交通大學(xué)軟件學(xué)院，100044，北京∥第一作者, 碩士研究生)

新冠病毒(COVID-19)的爆發(fā)給社會經(jīng)濟(jì)帶來了巨大的影響。軌道交通作為復(fù)工復(fù)產(chǎn)的主要交通工具，其空間密閉、人員密集且流動性廣的特點(diǎn)有利于病毒的傳播。為了降低人們在公共場所感染新冠肺炎的概率，我國疾病控制和預(yù)防中心要求乘客乘坐軌道交通(地鐵、火車)時(shí)須佩戴口罩[1]。但是軌道交通防疫人員有限，因此需要口罩智能識別算法來檢測安檢口、閘機(jī)口及大廳等場所的乘客是否佩戴口罩，并設(shè)置自動語音提醒。這可以提高進(jìn)站速度，減輕軌道交通防疫人員的工作壓力[2-3]。

佩戴口罩檢測研究屬于人臉檢測的范疇?；谏疃葘W(xué)習(xí)的人臉檢測算法表現(xiàn)較好[4]。文獻(xiàn)[5]提出了一種單步多尺度目標(biāo)檢測器(Single Shot MultiBox Detector,簡為SSD)[6]的口罩檢測模型，其通過K-Means聚類的方法確定標(biāo)注數(shù)據(jù)集中人臉框的長寬比分布，修改SSD算法的錨框(anchor)比例。該檢測算法符合實(shí)時(shí)性要求，但是沒有針對軌道交通場景做適配。文獻(xiàn)[7]在RetinaNet模型的基礎(chǔ)上提出了口罩檢測模型，以ResNet為特征提取骨干網(wǎng)絡(luò)，增加了卷積塊注意力機(jī)制(Convolutional Block Attention Module,簡為CBAM)來調(diào)整感受野的大小使其關(guān)注感興趣的檢測區(qū)域。由于深度學(xué)習(xí)算法的訓(xùn)練需要大量的數(shù)據(jù)集，文獻(xiàn)[8]提出了口罩遮擋人臉檢測數(shù)據(jù)集，包括模擬口罩人臉數(shù)據(jù)集和真實(shí)口罩人臉數(shù)據(jù)集。在數(shù)據(jù)集中，人臉目標(biāo)較大，且不包含復(fù)雜的現(xiàn)實(shí)背景場景。本文提出了一種針對軌道交通場景的輕量化口罩檢測算法。該算法可以部署在不具有圖形處理器(Graphics Processing Unit,簡為GPU)的設(shè)備上，實(shí)時(shí)檢測乘客是否佩戴口罩。

1 輕量化口罩佩戴檢測Mask-Det算法

為滿足在軌道交通場景現(xiàn)有的中央處理器(Central Processing Unit，簡為CPU)部署的要求，本文提出了一種輕量化口罩檢測Mask-Det算法。圖1為其網(wǎng)絡(luò)結(jié)構(gòu)圖。該算法主要包括輕量化特征提取網(wǎng)絡(luò)EfficientNet-B3、輕量化特征融合模塊及損失函數(shù)模塊。為了提高該算法在軌道交通場景的檢測效果，本文收集整理了軌道交通口罩檢測數(shù)據(jù)集，并使用遷移學(xué)習(xí)的方法提高該算法對軌道交通場景乘客是否佩戴口罩的適配性。

注：圖中數(shù)值運(yùn)算表示特定分辨率及通道數(shù)的特征圖；例如，38×38×48 表示 38 像素×38 像素，且通道數(shù)為 48 層的特征圖；MBconv 為深度可分離卷積的倒置線性瓶頸層；con1×1表示卷積核為 1×1 的卷積操作。

1.1 輕量化骨干網(wǎng)絡(luò)EfficientNet

本文使用EfficientNet模型[9]作為特征提取網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)通常采用擴(kuò)展模型的深度、通道數(shù)或圖像輸入分辨率的方法來提高準(zhǔn)確率。EfficientNet模型提出了一個(gè)復(fù)合的網(wǎng)絡(luò)縮放方法，在節(jié)省計(jì)算資源的同時(shí)可獲得更高的準(zhǔn)確率。即:

(1)

式中：

d——網(wǎng)絡(luò)深度；

w——通道數(shù)；

r——輸入圖像的分辨率；

α——分配給網(wǎng)絡(luò)深度的計(jì)算資源參數(shù)，α≥1；

β——分配給網(wǎng)絡(luò)通道數(shù)的計(jì)算資源參數(shù)，β≥1；

γ——分配給圖像分辨率的計(jì)算資源參數(shù)，γ≥1；

φ——復(fù)合縮放系數(shù)，φ=1,2,…，7。

其中：α,β和γ是通過網(wǎng)格搜索(Grid Search)方法獲得的常量；φ的值越大，需要的計(jì)算資源越多。每秒運(yùn)算的浮點(diǎn)數(shù)(FLOPS)為卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算量，由于卷積運(yùn)算在神經(jīng)網(wǎng)絡(luò)中占主導(dǎo)地位，故使用式(1)縮放卷積神經(jīng)網(wǎng)絡(luò)使FLOPS總量增加約(αβ2γ2)φ倍。而EfficientNet模型約束αβ2γ2≈2，因此，對于任意的縮放系數(shù)φ，運(yùn)算量為原來的2φ倍。EfficientNet模型采用MnasNet結(jié)構(gòu)[10]進(jìn)行多目標(biāo)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索，構(gòu)建了FLOPS為400 M的EfficientNet-B0骨干神經(jīng)網(wǎng)絡(luò)，其網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

表1 EfficientNet-B0骨干神經(jīng)網(wǎng)絡(luò)

EfficientNet-B3網(wǎng)絡(luò)能較好地實(shí)現(xiàn)檢測速度和準(zhǔn)確率的平衡，因此本文選用EfficientNet-B3網(wǎng)絡(luò)作為輕量化的特征提取網(wǎng)絡(luò)模型[11]。從Efficient-Net-B0網(wǎng)絡(luò)得到EfficientNet-B3網(wǎng)絡(luò)需要經(jīng)過兩個(gè)步驟：第一步，設(shè)φ=1，通過網(wǎng)格搜索得到α=1.2，β=1，γ=1.15；第二步，令式(1)中φ=3，縮放EfficientNet-B0網(wǎng)絡(luò)的深度、通道數(shù)和所輸入圖片的分辨率，即得到EfficientNet-B3網(wǎng)絡(luò)，其結(jié)構(gòu)見圖2。

圖2 輕量化特征提取網(wǎng)絡(luò)EfficientNet-B3

本文將輸入的圖像調(diào)整為300像素×300像素，從EfficientNet-B3中提取第7、17、25層特征圖，并在第25層特征圖的基礎(chǔ)上新增三層特征圖。圖1所示上述6層特征圖的大小依次為38像素×38像素、19像素×19像素、10像素×10像素、5像素×5像素、3像素×3像素和1像素×1像素。為了與最終添加特征融合的Mask-Det網(wǎng)絡(luò)對比，稱該網(wǎng)絡(luò)為Efficient-Mask網(wǎng)絡(luò)。

1.2 高效的特征融合模塊

淺層特征圖包含更多的位置、細(xì)節(jié)信息，適用于檢測小目標(biāo)；但由于經(jīng)過的卷積運(yùn)算次數(shù)少，用于識別的語義信息不夠豐富[12]。本文提出一種輕量化的特征融合方法，為淺層特征圖融合高層特征圖的語義信息，從而在沒有降低算法實(shí)時(shí)性的同時(shí)，提高算法對于小人臉的檢測準(zhǔn)確率。

對38×38、19×19、10×10的3層特征圖的信息進(jìn)行融合。如圖1所示，首先，采用1×1的卷積將上述3層特征圖的通道數(shù)變?yōu)?28；然后，對19×19、10×10的2張?zhí)卣鲌D做雙線性差值上采樣，得到3張相同維度的特征圖；接著，對這3張?zhí)卣鲌D采用concatenate級聯(lián)；最后，引入 L2Norm算法[6]歸一化將級聯(lián)后的特征圖中每個(gè)位置的特征范數(shù)縮放到5。最終可得融合了高層語義信息和低層局部信息的38×38特征圖，提高了算法對小目標(biāo)人臉的檢測效果。

1.3 損失函數(shù)

Mask-Det口罩檢測算法的損失函數(shù)是分類損失Lconf和定位損失Lloc的加權(quán),其中，Lconf是多個(gè)類別分類置信度c上的softmax損失[6]，Lloc為預(yù)測值l和真實(shí)值g之間的Smooth L1損失。即:

θLloc(x,l,g))[6]

(2)

式中：

N——匹配的默認(rèn)框數(shù)量,如果N=0，則L(x,c,l,g)=0；

x——指示參數(shù)；x=1表示t與g匹配，x=0表示t與g不匹配；

θ——定位損失Lloc的權(quán)重。

1.4 口罩佩戴檢測數(shù)據(jù)集

基于深度學(xué)習(xí)的人臉檢測算法需要大量的數(shù)據(jù)樣本來進(jìn)行訓(xùn)練?？紤]到軌道交通運(yùn)營的特殊性，難以獲取大量的訓(xùn)練圖像，故本文分別創(chuàng)建了公共場景和軌道交通場景的口罩檢測數(shù)據(jù)集。2個(gè)數(shù)據(jù)集的示例圖如表2所示。

表2 公開場景和軌道交通場景的口罩檢測數(shù)據(jù)集示例圖

公共場景的口罩檢測數(shù)據(jù)集由WIDER Face[13]數(shù)據(jù)集、MAFA[14]遮擋人臉數(shù)據(jù)集及公共場景佩戴口罩人臉數(shù)據(jù)集組成，其中訓(xùn)練集包含22 631張圖像，測試集包含3 000張圖像。軌道交通場景的口罩檢測數(shù)據(jù)集包含2 500張圖像，其中訓(xùn)練集和測試集的圖像數(shù)分別為2 200張與300張。

2 試驗(yàn)

2.1 試驗(yàn)環(huán)境與方法

本文試驗(yàn)采用了深度學(xué)習(xí)框架Pytorch[15]，Ubuntu16.04系統(tǒng)，訓(xùn)練所用GPU(圖形處理器)型號為NVIDIA P100。測試所用設(shè)備為Jeson Nano嵌入式設(shè)備、Intel Core i5-6300HQ CPU筆記本、Intel Core i7-8700K CPU臺式機(jī)。

訓(xùn)練過程中使用的超參數(shù)為：批處理大小(batch size)為16，動量為0.9，初始化學(xué)習(xí)率為0.001；經(jīng)過42輪(epoch)和52輪公共場景數(shù)據(jù)集訓(xùn)練，學(xué)習(xí)率分別下降為0.000 1、0.000 01。整個(gè)訓(xùn)練過程包含64輪(大約16萬次迭代)。Mask-Det算法在軌道交通數(shù)據(jù)集上遷移學(xué)習(xí)4萬次迭代，學(xué)習(xí)率為0.000 01。

為了驗(yàn)證模型的有效性，本文提出的Mask-Det算法將同F(xiàn)aster R-CNN[16]、YOLOv3[17]、SSD[6]等算法進(jìn)行比較。首先，在公共場景的口罩檢測數(shù)據(jù)集上進(jìn)行各算法的訓(xùn)練；然后，采用遷移學(xué)習(xí)的方法，在軌道交通場景的數(shù)據(jù)集上繼續(xù)訓(xùn)練Mask-Det算法，增加網(wǎng)絡(luò)對軌道交通場景的適配性。

2.2 評價(jià)指標(biāo)

本文采用目標(biāo)檢測算法常用評價(jià)指標(biāo)，即平均準(zhǔn)確率RAP、類別平均準(zhǔn)確率RmAP、刷新幀率RFPS及模型大小(單位Mbit)。

p=t/(t+f)

(3)

re=t/(t+n)

(4)

(5)

(6)

式中：

t——真正例,即正確檢測到的目標(biāo);

f——假正例,即誤報(bào)的目標(biāo);

n——假負(fù)例,即未檢測到目標(biāo);

p——查準(zhǔn)率；

re——查全率；

C——目標(biāo)檢測的類別數(shù);

RAP——平均準(zhǔn)確率;

RmAP——類別平均準(zhǔn)確率。

RFPS越大代表算法的實(shí)時(shí)性越高。模型越小代表算法越輕量化，越容易部署到現(xiàn)有的CPU設(shè)備上。

在實(shí)際應(yīng)用中，準(zhǔn)確率的定義為正確檢測到的目標(biāo)占測試集中所有真實(shí)值的比例。式(8)計(jì)算的準(zhǔn)確率r準(zhǔn)確率值與式(5)計(jì)算的召回率值相等。

r準(zhǔn)確率=t/g

(7)

2.3 試驗(yàn)結(jié)果

軌道交通場景的測試集包含300張圖像，共計(jì)1 027個(gè)佩戴口罩的人臉目標(biāo)和327個(gè)未戴口罩的人臉目標(biāo)，涵蓋了進(jìn)站口、安檢口、大廳、電梯、站臺、車廂等各場景的乘客。表3對比了本文提出的Efficient-Mask、Mask-Det算法與Faster R-CNN[16]、YOLOv3[18]、SSD[6]等主流目標(biāo)檢測算法在軌道交通數(shù)據(jù)集上的表現(xiàn)。測試設(shè)備均為Intel Corei5-6300HQ CPU筆記本。

由表3可看出：輸入圖像的分辨率越高、骨干網(wǎng)絡(luò)模型越大，則檢測的精度越高，但計(jì)算速度越慢；Faster R-CNN、YOLOv3及SSD等算法的輸入圖像分辨率分別為600像素×1 000像素、416像素×416像素、300像素×300像素，均大于等于Mask-Det算法的分辨率輸入；但是Mask-Det的類別平均準(zhǔn)確率為72.77%，明顯高于Faster R-CNN和SSD算法。

表3 不同算法在軌道交通測試集上的結(jié)果對比

骨干網(wǎng)絡(luò)用來提取輸入圖像的特征。表3中只有EfficientNet-B3是輕量化的骨干網(wǎng)絡(luò)，所以采用該骨干網(wǎng)絡(luò)的Mask-Det和Efficient-Mask模型較小、檢測速度較快。Mask-Det的模型大小約為Faster R-CNN、YOLOv3、SSD算法模型的0.80倍、0.38倍、0.50倍；每秒處理的幀數(shù)是上述三種算法的210倍、7倍、2.1倍。Mask-Det算法在普通CPU上每秒處理21幀圖像，滿足乘客佩戴口罩檢測的實(shí)時(shí)性要求。

表4為Mask-Det算法在軌道交通數(shù)據(jù)集、不同CPU設(shè)備上準(zhǔn)確率和速度的測試結(jié)果。Mask-Det的檢測準(zhǔn)確率可以達(dá)到96.68%，即在300張軌道交通測試圖像(包含1 354個(gè)目標(biāo)(all ground truths))中，能正確識別到1 309個(gè)目標(biāo)。Mask-Det算法在嵌入式設(shè)備Jeson Nano、Intel Corei5-6300HQ CPU及Intel Core i7-8700K CPU上的處理速度分別為7幀/s、21幀/s、61幀/s。需要強(qiáng)調(diào)的是，由于采用相同的訓(xùn)練權(quán)重，算法的準(zhǔn)確率和運(yùn)行設(shè)備無關(guān)，所以準(zhǔn)確率相同，速度不同。用戶可以按照進(jìn)站口、安檢口及電梯等位置的客流大小及乘客通行時(shí)間的長短來選擇不同的設(shè)備,以檢測乘客是否佩戴口罩。

表4 Mask-Det算法在不同CPU設(shè)備上的測試結(jié)果

2.4 各算法比較

各算法的檢測結(jié)果對比如表5所示。FasterR-CNN算法是典型的分類和檢測分開的二階段算法。因此，與其它一階段算法相比，F(xiàn)aster R-CNN算法的檢測速度最慢，無法在普通的CPU設(shè)備上實(shí)現(xiàn)實(shí)時(shí)檢測。此外，F(xiàn)aster R-CNN算法誤報(bào)率高，可能誤將耳朵或手識別為人臉，導(dǎo)致其平均類別準(zhǔn)確率值較低。雖然YOLOv3算法對人臉檢測的類別準(zhǔn)確率只略低于Mask-Det算法，但該算法需先將輸入圖像的分辨率調(diào)整為416像素×416像素，再送入DarkNet-53特征提取網(wǎng)絡(luò)，而其模型的參數(shù)量為240.1 Mbit，且檢測速度僅為3幀/s，故該算法即使部署到軌道交通場景的現(xiàn)有設(shè)備上也無法滿足實(shí)時(shí)檢測的要求。

表5 不同算法的檢測對比圖

目前，許多研究通過單獨(dú)增加卷積神經(jīng)網(wǎng)絡(luò)的d、w及r來優(yōu)化算法。EfficientNet建立了3個(gè)維度之間的縮放關(guān)系，較好地達(dá)到了準(zhǔn)確率和檢測速度的平衡。本文提出的Efficient-Mask算法采用EfficientNet輕量化骨干網(wǎng)絡(luò)及300像素×300像素的網(wǎng)絡(luò)圖像輸入分辨率，在減少參數(shù)量的同時(shí)使速度也最快。卷積神經(jīng)網(wǎng)絡(luò)因其淺層特征圖包含更多的空間細(xì)節(jié)特征，故常用于檢測小目標(biāo)，但其經(jīng)過的卷積運(yùn)算次數(shù)少、語義信息少，導(dǎo)致小目標(biāo)人臉的檢測準(zhǔn)確率較低。為了解決該問題，本文提出Mask-Det算法，在Efficient-Mask算法的基礎(chǔ)上增加了特征融合模塊，將深層特征圖的語義信息融合到用于檢測小目標(biāo)的淺層特征圖上。特征融合模塊增加了計(jì)算量，所以與Efficient-Mask算法相比，Mask-Det算法的模型參數(shù)量有少量增加，算法速度有所降低，但是類別平均準(zhǔn)確率顯著提高,滿足部署到現(xiàn)場的輕量化和實(shí)時(shí)性、高準(zhǔn)確率的要求。

由表5可見：Mask-Det算法的人臉識別框最全，說明其對小目標(biāo)人臉的漏檢率低，檢測效果優(yōu)于其他算法。此外，表5中每張人臉的識別框內(nèi)均有相應(yīng)算法對檢測到目標(biāo)的置信度數(shù)字評分，其中Mask-Det算法的評分最高。

最后，通過測試Mask-Det算法在3種不同設(shè)備上的速度和準(zhǔn)確率，確定Mask-Det算法能滿足軌道交通輔助不同場景工作人員檢測的要求，可部署性強(qiáng)。

3 結(jié)語

本文提出了一種基于軌道交通監(jiān)控視頻的輕量化乘客佩戴口罩檢測算法。首先，采用輕量化骨干網(wǎng)絡(luò)EfficientNet提取特征圖；然后，將深層特征圖的語義信息融合到用于檢測小目標(biāo)的淺層特征圖上，提高了該算法對小目標(biāo)人臉的檢測效果；最后，將該算法先后在整理的公共場景和軌道交通場景的數(shù)據(jù)集訓(xùn)練，提高了對軌道交通場景的適配性。

相比其他主流算法，本文提出的Mask-Det算法檢測準(zhǔn)確率高(類別平均準(zhǔn)確率為72.77%、準(zhǔn)確率達(dá)96.68%)、模型參數(shù)小(僅為90.8 Mbit)、檢測速度快(61幀/s)，能實(shí)時(shí)檢測軌道交通安檢口、閘機(jī)口、大廳等場所監(jiān)控視頻中的乘客是否佩戴口罩，有利于減少人員工作量、實(shí)現(xiàn)安防監(jiān)控智能化，從而提高進(jìn)站速度。