摘"要"為緩解YOLOv7在檢測個人防護(hù)用品時面臨標(biāo)簽重寫、標(biāo)簽分配不平衡和特征耦合等問題,提出一種基于改進(jìn)YOLOv7的檢測方法. 首先去除YOLOv7的大尺度和中尺度輸出層,以降低標(biāo)簽重寫率,且保證輸出層得到充分訓(xùn)練;其次將輸出層的定位和分類解耦,避免不同任務(wù)的特征表示互相影響,并選擇在邊界框級別檢測防護(hù)服,在關(guān)鍵點(diǎn)級別檢測防護(hù)帽和防護(hù)手套;最后引入部分卷積,實現(xiàn)實時檢測. 為驗證該方法的有效性,使用實驗人員穿戴防護(hù)用品的圖像數(shù)據(jù)對所提方法進(jìn)行驗證. 結(jié)果表明,相比YOLOv7,該方法的精確率和召回率分別提高了4.1和4.5個百分點(diǎn),F(xiàn)PS(Frames Per Second)提升了1.3幀,可滿足實驗室場景下的個人防護(hù)用品穿戴檢測需求.
關(guān)鍵詞"個人防護(hù)用品;穿戴檢測;YOLOv7;單尺度輸出;特征解耦;部分卷積
中圖分類號"TP391.4""文獻(xiàn)標(biāo)識碼"A
0"引"言
實驗室安全管理是高校正常開展教學(xué)科研工作的基本保障[1]. 近些年,實驗室安全事故時有發(fā)生,其中不按規(guī)定穿戴個人防護(hù)用品是安全事故發(fā)生的主要原因之一[2]. 基于此,多數(shù)高校采用了增加監(jiān)管人員、加強(qiáng)人員培訓(xùn)、提升監(jiān)管力度等管控方案. 然而,由于人力成本高昂,實驗室對低成本、智能化的管理手段有顯著需求[3].
為預(yù)防安全事故發(fā)生,研究者針對基于計算機(jī)視覺的防護(hù)用品穿戴檢測展開了研究. 如Kumar等使用YOLOv4和YOLOv4-tiny檢測作業(yè)人員的防護(hù)用品穿戴情況[4];Delhi等利用遷移學(xué)習(xí)拓展YOLOv3的檢測類別,實現(xiàn)防護(hù)帽和防護(hù)服的穿戴檢測[5];Iannizzotto等提出基于深度神經(jīng)網(wǎng)絡(luò)與模糊邏輯的輕量級檢測模型[6]. 但上述工作均存在特征耦合的問題,且實驗數(shù)據(jù)均采集自大范圍場景,人群擁擠程度較低,難以應(yīng)用于本文場景.
目標(biāo)檢測主要包含兩個任務(wù):定位和分類,其中定位主要關(guān)注邊緣特征,而分類主要關(guān)注紋理特征,兩者側(cè)重點(diǎn)不同[7]. Kumar等、Delhi等和Iannizzotto等所使用的檢測模型,定位和分類部分的網(wǎng)絡(luò)共享權(quán)重,特征分布高度耦合,不利于對實驗人員的位置和穿戴類別進(jìn)行精細(xì)化預(yù)測. 為緩解該問題,Jiang等在檢測頭添加一個IoU分支,利用該分支預(yù)測定位置信度,但該方案并未完全解決定位和分類的特征耦合問題[8]. Song等為定位和分類兩個任務(wù)分別設(shè)計獨(dú)立的候選框,雖能獲得較為準(zhǔn)確的檢測結(jié)果,但速度過慢[9]. Wu等則提出一個較為折中的方案,將檢測頭解耦為兩個并行分支,分別處理定位和分類任務(wù),在提升檢測準(zhǔn)確性的同時確保檢測速度相對穩(wěn)定[7]. 但上述改進(jìn)方案均是以雙階段檢測模型Faster R-CNN為基礎(chǔ),未考慮實時性需求.
與Faster R-CNN相比,YOLOv7具有更高的檢測速度. 但YOLOv7設(shè)置了三個不同尺度的輸出層,導(dǎo)致其還存在標(biāo)簽重寫和標(biāo)簽分配不平衡問題[10]. 當(dāng)場景中的目標(biāo)遮擋與人群擁擠情況較為嚴(yán)重時,部分標(biāo)簽會被視為背景處理,影響模型訓(xùn)練效果.
針對上述問題,本文以廣東潮州衛(wèi)生健康職業(yè)學(xué)院的生物實驗室為例,用??低晹z像機(jī)采集師生穿戴防護(hù)用品的視頻數(shù)據(jù),提出一種基于改進(jìn)YOLOv7的檢測方法. 該方法首先采用單尺度輸出替代YOLOv7的三個輸出層,以優(yōu)化標(biāo)簽重寫和標(biāo)簽分配不平衡問題[10],其次將輸出層的定位和分類解耦[7],并選擇在邊界框級別檢測防護(hù)服,在關(guān)鍵點(diǎn)級別檢測防護(hù)帽和防護(hù)手套,最后引入部分卷積[11],提高檢測速度. 本文方法的精確率和召回率分別為90.9%和92.7%,F(xiàn)PS為28.4幀,與改進(jìn)前相比精確率和召回率分別提高了4.1和4.5個百分點(diǎn),F(xiàn)PS(Frames Per Second)提升了1.3幀. 研究結(jié)果可為實驗室智能化管理提供技術(shù)參考.
1"實驗數(shù)據(jù)
1.1"實驗數(shù)據(jù)采集
本文的實驗數(shù)據(jù)均采集于廣東潮州衛(wèi)生健康職業(yè)學(xué)院的生物實驗室,用??低?40MY-T/GLSE攝像機(jī)以2.5 m的高度向下45°拍攝,采集速率為25幀/ s,分辨率為960×540像素. 考慮到防護(hù)用品穿戴檢測主要應(yīng)用于出入管理,本文將攝像機(jī)架設(shè)于實驗室入口處,連續(xù)采集4.75 h,再從中隨機(jī)抽取4 260張圖像作為實驗數(shù)據(jù). 為避免時序相關(guān)性,每3 s至多抽取一張圖像. 每張圖像中有1~3名實驗人員,共8 775名,各類穿戴情況的人員數(shù)量如表1所示.
1.2"訓(xùn)練集、驗證集和測試集準(zhǔn)備
借助LabelMe軟件人工標(biāo)注每張圖像的人體邊界框、頭部和手部關(guān)鍵點(diǎn)以及防護(hù)服、防護(hù)帽和防護(hù)手套的穿戴情況,如圖1所示. 按照訓(xùn)練集、驗證集和測試集6∶2∶2的比例,采用不重復(fù)抽樣方法隨機(jī)選擇2 556張圖像作為訓(xùn)練集,852張作為驗證集,余下852張作為測試集. 其中訓(xùn)練集用于擬合檢測模型,調(diào)整網(wǎng)絡(luò)權(quán)重;驗證集用于初步評估模型性能;測試集用于評估模型最終的泛化能力.
2"基于改進(jìn)YOLOv7的防護(hù)用品穿戴檢測方法
2.1"改進(jìn)的YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)
圖2為改進(jìn)的YOLOv7網(wǎng)絡(luò)結(jié)構(gòu),特征圖自左向右傳播,用箭頭表示特征圖額外傳播至其他模塊,模塊內(nèi)部以W×H×C的形式表示輸出特征圖的寬、高和通道數(shù). YOLOv7引入了ELAN模塊、MP模塊、SPPCSPC模塊和REP模塊,以進(jìn)一步提升網(wǎng)絡(luò)的學(xué)習(xí)能力,并在訓(xùn)練階段借鑒輔助頭和動態(tài)標(biāo)簽分配思想,實現(xiàn)由粗到細(xì)的檢測[12]. CBS+模塊和UP+模塊的結(jié)構(gòu)展示于圖4中,其中CBS+模塊由部分卷積(PConv)、逐點(diǎn)卷積(PWConv)、批量歸一化層(BN)和SiLU激活函數(shù)組成,UP+模塊由CBS+模塊和上采樣層(Upsample)組成,ELAN模塊、MP1模塊、SPPCSPC模塊、ELAN-H模塊和REP模塊的結(jié)構(gòu)本文均未改動.
考慮到網(wǎng)絡(luò)中共有5次下采樣,輸入圖像的高寬需為32(25)像素的倍數(shù),本文采用復(fù)制法(即復(fù)制邊界像素)在原始圖像的上下邊界分別填充2個像素,使其分辨率為960×544像素. 改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)與原始相比,主要存在三個不同點(diǎn):第一,改進(jìn)后的YOLOv7采用單尺度輸出,而原始的YOLOv7設(shè)置了3個不同尺度的輸出層;第二,改進(jìn)后的YOLOv7將輸出層解耦為兩個并行分支:定位分支和分類分支,兩個分支進(jìn)一步提取特征后輸出檢測結(jié)果;第三,原始的YOLOv7采用CBS模塊提取特征,本文將CBS模塊中的傳統(tǒng)卷積替換為部分卷積(Partital Convolution,PConv),并在部分卷積與批量歸一化層之間加入逐點(diǎn)卷積(Pointwise Convolution,PWConv),形成CBS+模塊,以提高檢測速度.
2.2"單尺度輸出
YOLOv7存在標(biāo)簽重寫和標(biāo)簽分配不平衡問題[10]. 標(biāo)簽重寫是指由于YOLO特有的網(wǎng)格負(fù)責(zé)預(yù)測邊界框的機(jī)制,可能存在兩個物體被分配至同一錨點(diǎn)框的情況,導(dǎo)致僅有一個物體被保留訓(xùn)練,另一個物體被視為背景忽略. 如圖3所示,實線標(biāo)注框和虛線標(biāo)注框的中心點(diǎn)位于同一網(wǎng)格,并且因兩個標(biāo)注框大小接近,被分配至同一錨點(diǎn)框,導(dǎo)致僅有實線標(biāo)注框被保留訓(xùn)練,虛線標(biāo)注框被視為背景忽略. 該現(xiàn)象在COCO數(shù)據(jù)集中出現(xiàn)頻率較低,主要原因為邊界框大小分布較為均勻,不同大小物體會被分配至不同錨點(diǎn)框. 但是,本文所針對的場景,邊界框大小較為接近,且存在人員密集的情況,若采用原始的網(wǎng)絡(luò)結(jié)構(gòu)和錨點(diǎn)框參數(shù),標(biāo)簽重寫率為6.25%,對模型訓(xùn)練影響較大.
邊界框大小較為接近還會導(dǎo)致另一問題:標(biāo)簽分配不平衡. YOLOv7采用K-means算法聚類得到特定的9個錨點(diǎn)框,再根據(jù)錨點(diǎn)框大小,將其劃分為三組,作為三個不同尺度的輸出層的先驗知識. 在訓(xùn)練階段,YOLOv7基于標(biāo)簽和錨點(diǎn)框的交并比(Intersection over Union)分配正負(fù)樣本. 在邊界框大小滿足均勻分布的數(shù)據(jù)集上,該分配方式能保證不同尺度的輸出層得到充分訓(xùn)練,但是,大部分?jǐn)?shù)據(jù)集的邊界框大小并不滿足均勻分布,而是正態(tài)分布,導(dǎo)致中尺度輸出層分配到的正樣本數(shù)量遠(yuǎn)遠(yuǎn)高于小、大尺度輸出層,僅有一個輸出層能得到充分訓(xùn)練.
為降低標(biāo)簽重寫率,緩解標(biāo)簽分配不平衡的問題,Hurtik等提出采用單尺度輸出,且維持高輸出分辨率的策略. 其中采用單尺度輸出可保證所有正樣本都分配至同一輸出層,維持高輸出分辨率可降低每個網(wǎng)格在輸入圖像中負(fù)責(zé)的區(qū)域,減少兩個物體同屬一個網(wǎng)格的情況. 參考該策略,本文去除了YOLOv7的大、中尺度輸出層,并將聚類得到的9個錨點(diǎn)框作為小尺度輸出層的先驗知識,即每個網(wǎng)格負(fù)責(zé)9個錨點(diǎn)框. 改進(jìn)后的標(biāo)簽重寫率為0.00%,不存在標(biāo)簽重寫問題.
2.3"輸出層解耦
Faster R-CNN[13]、DETR[14]和YOLOv7等模型,其輸出層均需同時處理定位和分類任務(wù). 但是,分類和定位所關(guān)注的特征是不一致的,定位主要關(guān)注邊緣特征,而分類主要關(guān)注紋理特征,同時處理會導(dǎo)致不同任務(wù)的特征表示互相影響,限制模型的檢測效果. 為緩解該問題,Wu等提出使用兩個分支分別進(jìn)行定位和分類,將兩者解耦[7]. 利用該方法,本文將YOLOv7的輸出層解耦為兩個分支:定位分支和分類分支. 兩個分支并行計算,而非在獲得人體邊界框的基礎(chǔ)上再進(jìn)行分類,因此解耦操作對檢測速度影響較小.
因頭部、手部在圖像中面積較小,易受遮擋干擾,且防護(hù)手套的檢測應(yīng)區(qū)分左右手,而人體、防護(hù)服面積較大,不易受遮擋影響,借鑒多屬性識別思想[15],本文選擇在邊界框級別進(jìn)行防護(hù)服穿戴檢測,在關(guān)鍵點(diǎn)級別進(jìn)行防護(hù)帽和防護(hù)手套穿戴檢測. 模型訓(xùn)練階段,本文基于關(guān)鍵點(diǎn)的可見性設(shè)置其置信度,當(dāng)該關(guān)鍵點(diǎn)在圖像中可見時,設(shè)置其置信度為1,否則設(shè)置為0. 綜上,定位分支輸出錨點(diǎn)框在水平方向和垂直方向的偏移量、錨點(diǎn)框的寬度和高度縮放比例、框內(nèi)頭部和手部關(guān)鍵點(diǎn)在水平方向和垂直方向的偏移量,共10個值;分類分支輸出錨點(diǎn)框的objectness分?jǐn)?shù)、框內(nèi)包含人體和防護(hù)服的置信度、框內(nèi)頭部和手部關(guān)鍵點(diǎn)的置信度、關(guān)鍵點(diǎn)處存在防護(hù)用品的置信度,共9個值.
2.4"部分卷積
考慮到改進(jìn)后的輸出層計算量增幅較大,為提高模型檢測速度,本文引入部分卷積,將所有CBS模塊中的傳統(tǒng)卷積替換為部分卷積. 目前,多數(shù)輕量級網(wǎng)絡(luò)如MobileNets[16],ShuffleNet[17]和GhostNet[18]等,都是借助深度可分離卷積或分組卷積實現(xiàn)每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)的降低,進(jìn)而提高推理速度. 但是深度可分離卷積和分組卷積在降低FLOPs的同時,也會導(dǎo)致內(nèi)存訪問次數(shù)的增加,因此不適用于內(nèi)存訪問速度較慢的設(shè)備. 為改善上述問題,Jierun等設(shè)計了部分卷積,用其替換傳統(tǒng)卷積,實現(xiàn)FLOPs和內(nèi)存訪問次數(shù)同時降低[11].
部分卷積僅需對輸入中的部分通道應(yīng)用傳統(tǒng)卷積進(jìn)行特征提取,其余通道保持不變,為充分利用所有通道的信息,Jierun等在部分卷積之后追加逐點(diǎn)卷積. 借鑒該思想,本文將所有CBS模塊中的傳統(tǒng)卷積替換為部分卷積,并在部分卷積與BN層之間加入逐點(diǎn)卷積,形成CBS+模塊,部分卷積的卷積核大小為3×3,通道數(shù)為傳統(tǒng)卷積的1/4.
2.5"后處理
后處理是指對模型輸出進(jìn)行調(diào)整和優(yōu)化,以提高檢測結(jié)果的準(zhǔn)確性和穩(wěn)定性. 在模型應(yīng)用階段,本文發(fā)現(xiàn)實驗人員的頭部或手部若存在遮擋情況,會導(dǎo)致模型未能檢測到對應(yīng)的防護(hù)用品,進(jìn)而誤識別為未穿戴. 為避免該情況,本文僅考慮置信度高于閾值0.7的關(guān)鍵點(diǎn),即若某一關(guān)鍵點(diǎn)的置信度低于0.7,則認(rèn)為該關(guān)鍵點(diǎn)對應(yīng)的部位處于遮擋狀態(tài),不考慮其是否穿戴防護(hù)用品.
模型最終輸出的特征圖共包含73 440個檢測框,每個檢測框包含人體置信度、頭部和手部關(guān)鍵點(diǎn)等共19項信息(詳見2.3節(jié)). 首先設(shè)置閾值0.7以篩選人體置信度較高的檢測框,再通過IoU閾值為0.5的非極大值抑制去除冗余檢測框. 剩余的檢測框以閾值0.7獲取頭部和手部關(guān)鍵點(diǎn)的狀態(tài)(被遮擋或未被遮擋)、關(guān)鍵點(diǎn)處防護(hù)用品穿戴類別(穿戴或未穿戴)、檢測框內(nèi)人體的防護(hù)服穿戴類別.
3"模型訓(xùn)練
3.1"試驗環(huán)境
試驗環(huán)境具體如下:中央處理器為英特爾酷睿i5-12500,主頻3GHz,運(yùn)行內(nèi)存16GB,GPU為NVIDIA RTX 3060,操作系統(tǒng)為Windows11-64bit,使用Pytorch 1.12.0作為深度學(xué)習(xí)框架,CUDA版本為11.3.
3.2"改進(jìn)YOLOv7的訓(xùn)練
本文用K-means算法聚類得到9個錨點(diǎn)框,大小分別為64×206、69×284、86×245、90×293、116×297、127×334、130×385、168×427和176×454. 訓(xùn)練時,為增強(qiáng)模型的魯棒性,用imgaug庫對原始數(shù)據(jù)進(jìn)行隨機(jī)裁切和翻轉(zhuǎn),并通過隨機(jī)梯度下降法和反向傳播算法微調(diào)網(wǎng)絡(luò)權(quán)重. 采用均值為0,標(biāo)準(zhǔn)差為0.1的高斯分布初始化網(wǎng)絡(luò)權(quán)重,mini-batch為32,沖量為0.9,權(quán)值的衰減系數(shù)為0.000 5,最大迭代次數(shù)為12萬次,其中前8萬次學(xué)習(xí)率為10-3,接著2萬次學(xué)習(xí)率為10-4,最后2萬次學(xué)習(xí)率為10-5.
4"結(jié)果分析
4.1"評價指標(biāo)
本文采用精確率(Precision)和召回率(Recall)評價目標(biāo)定位與分類的準(zhǔn)確性,用每秒處理幀數(shù)(Frames Per Second,F(xiàn)PS)評價檢測速度,各評價指標(biāo)的計算公式為:
Precision=NCorrect / Nnms(1)
Recall=NCorrect / Nlabel(2)
FPS=1 / T(3)
式中NCorrect表示檢測正確的邊界框數(shù)量,參考Kumar[4]、Delhi[5]和程榮標(biāo)[19]等的工作,本文設(shè)置邊界框檢測正確需同時滿足三個條件,分別為:一、檢測邊界框與人工標(biāo)注框交并比大于0.7;二、檢測關(guān)鍵點(diǎn)與其對應(yīng)的標(biāo)注關(guān)鍵點(diǎn)間的歸一化距離[20]均小于0.5;三、防護(hù)服、防護(hù)帽和防護(hù)手套的檢測類別均與人工標(biāo)注一致. Nnms表示經(jīng)過非極大值抑制后的檢測框數(shù)量,Nlabel表示測試集人工標(biāo)注框總數(shù),T表示模型檢測一張圖像所需的時間.
4.2"實驗結(jié)果與分析
為驗證本文改進(jìn)的有效性,在最終提出的模型上,減少部分改進(jìn)方案,以驗證相應(yīng)改進(jìn)方案的必要性,實驗結(jié)果如表2所示,其中模型1為原始YOLOv7模型,模型2為僅對YOLOv7進(jìn)行輸出層解耦的改進(jìn),模型3為僅對YOLOv7進(jìn)行單尺度輸出的改進(jìn),模型4為對YOLOv7進(jìn)行輸出層解耦和單尺度輸出的改進(jìn),模型5為本文所提模型. 本文模型的精確率和召回率分別為90.9%和92.7%,F(xiàn)PS為28.4,相比于原始模型的精確率和召回率分別提高了4.1和4.5個百分點(diǎn),F(xiàn)PS提升了1.3幀.
表2表明,輸出層解耦和單尺度輸出兩種改進(jìn)方案,均能提升檢測的準(zhǔn)確性,其中采用不同分支處理定位和分類任務(wù)有利于提取目標(biāo)的位置和類別信息;采用單尺度輸出且維持高輸出分辨率的策略能降低標(biāo)簽重寫率,且保證輸出層得到充分訓(xùn)練. 相較于模型2,模型3的精確率有所提升,但召回率略有下降,主要原因為去除了YOLOv7原有的大尺度和中尺度輸出層,影響模型對大目標(biāo)(人體和防護(hù)服)的檢測能力. 兩種改進(jìn)方案均會降低檢測速度,特別是采用單尺度輸出時,檢測速度有較大幅度降低,主要原因為本文僅保留分辨率最高的小尺度輸出層,且每個網(wǎng)格由原先的預(yù)測3個檢測框更改為9個,檢測框數(shù)量大幅增加. 為提高檢測速度,本文引入了部分卷積,引入后的模型精確率和召回率略有降低,但能滿足實時性需求.
表3展示了部分卷積中,卷積通道的選擇以及卷積核通道數(shù)對模型準(zhǔn)確性的影響,所有模型均進(jìn)行了輸出層解耦和單尺度輸出的改進(jìn). 由表3可知,模型的準(zhǔn)確性主要受卷積核通道數(shù)影響,與卷積通道的選擇相關(guān)性較低. 當(dāng)卷積核通道數(shù)為傳統(tǒng)卷積的1/4時,4種卷積通道選擇方案的精確率、召回率僅有細(xì)微差異,該差異可能源自權(quán)重的初始化. 當(dāng)卷積核通道數(shù)為傳統(tǒng)卷積的1/2時,模型仍未能達(dá)到實時性要求,而當(dāng)卷積核通道數(shù)為傳統(tǒng)卷積的1/8時,精確率、召回率均有較大幅度降低,因而最終選擇對前1/4的通道進(jìn)行部分卷積.
表4為本文模型、EfficientDet[21]、FCOS[22]、Mask R-CNN[23]和Poseur[24]在測試集上的檢測性能對比,已將Mask R-CNN模型的分割分支替換為關(guān)鍵點(diǎn)分支,并令所有模型的骨干網(wǎng)絡(luò)一致. 實驗表明,本文模型與其他模型相比檢測速度更快,但精確率和召回率略低于Mask R-CNN,主要原因為Mask R-CNN采用兩階段處理,避免了正負(fù)樣本不均衡的問題. EfficientDet檢測速度略低的原因為模型中采用BiFPN實現(xiàn)雙向特征的多次融合,計算量較大,導(dǎo)致模型訓(xùn)練時需要占用更多的計算資源,mini-batch在本文試驗環(huán)境下最高僅能設(shè)置為8,進(jìn)而影響模型的精確率和召回率. FCOS精確率和召回率較低的原因為模型中共設(shè)置了5個輸出層,進(jìn)一步加劇標(biāo)簽分配不平衡問題. Poseur的精確率、召回率、FPS均低于其他模型,主要原因為Poseur引入了Transformer結(jié)構(gòu),需要較多額外數(shù)據(jù)才能獲得與卷積神經(jīng)網(wǎng)絡(luò)相當(dāng)?shù)男阅躘25].
圖5為測試集中部分圖像的檢測結(jié)果對比,其中(a)和(c)為本文模型的檢測結(jié)果,(b)和(d)為YOLOv7的檢測結(jié)果,使用序號區(qū)分不同人員,圖5(c)和(d)中還存在人群擁擠情況. 當(dāng)人群較為分散時,本文模型與YOLOv7的檢測結(jié)果基本一致,如圖5(a)和(b). 但當(dāng)人群擁擠時,如圖5(c)和(d)所示,YOLOv7未能檢測到3號邊界框內(nèi)的左手,且將1號邊界框內(nèi)的左手誤檢為2號邊界框內(nèi)的右手,而本文模型均能正確檢測,表明本文模型對人群擁擠的魯棒性更強(qiáng).
5"結(jié)"論
針對實驗室場景下個人防護(hù)用品穿戴檢測精度較低的問題,提出一種基于改進(jìn)YOLOv7的多目標(biāo)檢測方法. 首先采用單尺度輸出,且維持高輸出分辨率的策略,以優(yōu)化標(biāo)簽重寫和標(biāo)簽分配不平衡問題;其次將輸出層的定位和分類解耦,降低邊緣特征與紋理特征之間的影響,并選擇在邊界框級別檢測防護(hù)服,在關(guān)鍵點(diǎn)級別檢測防護(hù)帽和防護(hù)手套;最后引入部分卷積,提高檢測速度. 在測試集上,本文模型的精確率、召回率和檢測速度均取得較為明顯的提升,對人群擁擠的魯棒性更強(qiáng). 本文研究可為實驗室智能化管理提供技術(shù)參考.
參考文獻(xiàn)
[1] "WU T C,LIU C W,LU M C. Safety climate in university and college laboratories:Impact of organizational
and individual factors[J]. Journal of Safety Research,2007,38(1):91-102.
[2] "ALI L,ALNAJJAR F,PARAMBIL M M A,et al. Development of YOLOv5-based real-time smart
monitoring system for increasing lab safety awareness in educational institutions[J]. Sensors,2022,
22(22):8820.
[3] "NUGRAHA K O P P,RIFAI A P. Convolutional neural network for identification of personal protective
equipment usage compliance in manufacturing laboratory[J]. Jurnal Ilmiah Teknik Industri,2023,
22(1):11-24.
[4] "KUMAR S,GUPTA H,YADAV D,et al. YOLOv4 algorithm for the real-time detection of fire and
personal protective equipments at construction sites[J]. Multimedia Tools and Applications,2022,
81(16):22163-22183.
[5] "DELHI V S K,SANKARLAL R,THOMAS A. Detection of personal protective equipment (PPE)
compliance on construction site using computer vision based deep learning techniques[J]. Frontiers in Built
Environment,2020,6:136.
[6] "IANNIZZOTTO G,BELLO L L,PATTI G. Personal protection equipment detection system for embedded
devices based on DNN and fuzzy logic[J]. Expert Systems with Applications,2021,184:115447.
[7] "WU Y,CHEN Y,YUAN L,et al. Rethinking classification and localization for object detection[C]//
Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,2020:10186-10195.
[8] "JIANG B,LUO R,MAO J,et al. Acquisition of localization confidence for accurate object detection[C]//
Proceedings of the European conference on computer vision (ECCV),2018:784-799.
[9] "SONG G,LIU Y,WANG X. Revisiting the sibling head in object detector[C]//Proceedings of the IEEE/
CVF conference on computer vision and pattern recognition,2020:11563-11572.
[10] "HURTIK P,MOLEK V,HULA J,et al. Poly-YOLO:higher speed,more precise detection and
instance segmentation for YOLOv3[J]. Neural Computing and Applications,2022,34(10):8275-8290.
[11] "CHEN J,KAO S,HE H,et al. Run,don't walk:chasing higher FLOPS for faster neural networks[C]//
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2023:12021-12031.
[12] "WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7:Trainable bag-of-freebies sets new state-
of-the-art for real-time object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition,2023:7464-7475.
[13] "REN S,HE K,GIRSHICK R,et al. Faster R-CNN:Towards real-time object detection with region
proposal networks[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence,2017,39(6):1137-1149.
[14] "CARION N,MASSA F,SYNNAEVE G,et al. End-to-end object detection with transformers[C]//
European conference on computer vision. Cham:SpringerInternational Publishing,2020:213-229.
[15] "LI D,CHEN X,HUANG K. Multi-attribute learning for pedestrian attribute recognition in surveillance
scenarios[C]//2015 3rd IAPR Asian Conference on Pattern Recognition(ACPR). IEEE,2015:111-115.
[16] "HOWARD A G,ZHU M,CHEN B,et al. Mobilenets:efficient convolutional neural networks for
mobile vision applications[J/OL]. [2023-11-01]. http: // arxiv preprint arxiv:1704.04861,2017.
[17] "ZHANG X,ZHOU X,LIN M,et al. Shufflenet:an extremely efficient convolutional neural network
for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:6848-6856.
[18] "HAN K,WANG Y,TIAN Q,et al. Ghostnet:More features from cheap operations[C]//Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:1580-1589.
[19] "程榮標(biāo),方向堯,曾思偉,等. 基于Adaboost和回歸樹集合技術(shù)的疲勞識別研究[J]. 汕頭大學(xué)學(xué)報(自然科學(xué)版),2017,32(2):66-74.
[20] "YANG Y,RAMANAN D. Articulated human detection with flexible mixtures of parts[J]. IEEE Transactions
on Pattern Analysis and Machine Intelligence,2012,35(12):2878-2890.
[21] "TAN M,PANG R,LE Q V. Efficientdet:scalable and efficient object detection[C]//Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:10781-10790.
[22] "TIAN Z,SHEN C,CHEN H,et al. FCOS:fully convolutional one-stage object detection[C]//
Proceedings of the IEEE/CVF International Conference on Computer Vision,2019:9627-9636.
[23] "HE K,GKIOXARI G,DOLLáR P,et al. Mask R-CNN[C]//Proceedings of the IEEE International
Conference on Computer Vision,2017:2961-2969.
[24] "MAO W,GE Y,SHEN C,et al. Poseur:direct human pose regression with transformers[C]//European
Conference on Computer Vision,Cham:Springer Nature Switzerland,2022:72-88.
[25] "YUAN K,GUO S,LIU Z,et al. Incorporating convolution designs into visual transformers[C]//
Proceedings of the IEEE/CVF International Conference on Computer Vision,2021:579-588.
Detection of Wearing Personal Protective
Equipment Based on Improved YOLOv7
YANG Xiaofan, WEI Shaochai
(Guangdong Chaozhou Health Vocational College, Chaozhou 521000, Guangdong, China)
Abstract "To alleviate the problems of label rewriting, unbalanced label assignment and feature coupling faced by YOLOv7 in detecting personal protective equipment, an improved YOLOv7 detection method is proposed. Firstly, the large-scale and medium-scale output layers of YOLOv7 are removed to reduce the label rewrite rate and to ensure that the output layer is adequately trained; secondly, the localization and classification of the output layer are decoupled to avoid that the feature representations of the different tasks affect each other and choose to detect the protective clothing at the bounding-box level, and the protective cap and protective gloves at the key-point level; Finally, a partial convolution is introduced to achieve real-time detection. In order to verify the effectiveness of the method, the proposed method is validated using image data of experimenters wearing protective equipment. The results show that compared with YOLOv7, the method improves the precision and recall by 4.1 and 4.5 percentage points, respectively, and the FPS is improved by 1.3 frames, which can satisfy the needs of personal protective equipment wearing detection in laboratory scenarios.
Keywords "personal protective equipment; detection of wearing; YOLOv7; single-scale output; feature decoupling; partial convolution