摘要:隨著安全生產(chǎn)意識(shí)的增強(qiáng),工地安全監(jiān)管日益受到重視,檢測(cè)作業(yè)人員是否佩戴安全帽成為保障工地安全的一項(xiàng)重要措施。然而,安全帽的檢測(cè)也存在不小的挑戰(zhàn),如存在目標(biāo)尺寸變化、復(fù)雜背景干擾等因素。為此,文章提出了一種基于YOLOv8的安全帽佩戴檢測(cè)方法,通過引入膨脹卷積以及卷積注意力機(jī)制,提升網(wǎng)絡(luò)的特征提取能力,結(jié)合定位損失函數(shù)、置信度損失函數(shù)來進(jìn)行參數(shù)的更新。實(shí)驗(yàn)數(shù)據(jù)顯示,該方法的精度比原始的YOLOv8有一定的提升,可以準(zhǔn)確地檢測(cè)員工是否佩戴安全帽。
關(guān)鍵詞:YOLOv8;特征提?。簧窠?jīng)網(wǎng)絡(luò);安全帽檢測(cè)
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A
0 引言
安全生產(chǎn)不僅關(guān)系到從業(yè)者個(gè)人的健康和生命安全,也關(guān)系到企業(yè)的可持續(xù)發(fā)展和社會(huì)的穩(wěn)定。在眾多安全防護(hù)措施中,佩戴安全帽是最基本也是最有效的一種手段。YOLO(You Only Look Once)算法作為一種領(lǐng)先的實(shí)時(shí)目標(biāo)檢測(cè)算法[1],以其快速精準(zhǔn)的特點(diǎn)備受關(guān)注。YOLOv8是最新的迭代版本,在速度和準(zhǔn)確度上均有顯著提升,為安全帽佩戴監(jiān)測(cè)的實(shí)時(shí)性和準(zhǔn)確性帶來了新的可能。在目標(biāo)檢測(cè)的研究中,針對(duì)改進(jìn)YOLOv8的算法主要包括以下幾個(gè)方面:(1)加入反卷積層、歸一化層和拼接層等,以設(shè)計(jì)出全新的網(wǎng)絡(luò)架構(gòu),提升模型細(xì)節(jié)捕捉和特征整合的能力[2];(2)利用GCBlock結(jié)構(gòu),處理和建模更長(zhǎng)距離的依賴關(guān)系,在YOLOv8的主干網(wǎng)絡(luò)中使用GCBlock結(jié)構(gòu)來增強(qiáng)模型的特征提取能力[3];(3)使用GSConv新型卷積方式去降低計(jì)算量,同時(shí)保持良好的特征表示[4];(4)采用SIOU損失函數(shù),優(yōu)化目標(biāo)的定位,通過SIOU損失函數(shù)取代CIOU損失,解決其局限性并提升模型的檢測(cè)性能[5];(5)重構(gòu)特征提取和特征融合網(wǎng)絡(luò),降低模型計(jì)算量,引入可變形卷積(Deformable Convolution Network,DCN),增加模型的特征捕捉能力[6];(6)開發(fā)部署友好結(jié)構(gòu),通過引入新構(gòu)建的Faster Block結(jié)構(gòu),用部分卷積取代原有的Bottleneck結(jié)構(gòu),并結(jié)合SE通道注意力層進(jìn)一步提升檢測(cè)準(zhǔn)確率。
本文基于YOLOv8,在特征提取階段引入膨脹卷積,擴(kuò)大模型的感受野,捕獲更廣泛的上下文信息,而不增加網(wǎng)絡(luò)的復(fù)雜度,并通過卷積注意力機(jī)制,強(qiáng)化模型對(duì)上下文信息中重要特征的關(guān)注度。本文通過對(duì)大量工地作業(yè)環(huán)境中的真實(shí)圖像數(shù)據(jù)進(jìn)行處理和分析,訓(xùn)練了一套深度學(xué)習(xí)模型,可以準(zhǔn)確檢測(cè)員工是否佩戴了安全帽。
1 特征提取模塊
為了減少參數(shù)、擴(kuò)大感受野,通常在提取特征圖時(shí),網(wǎng)絡(luò)會(huì)添加池化層來進(jìn)行圖像的下采樣。這種做法雖然能有效減少網(wǎng)絡(luò)的參數(shù)并擴(kuò)展感受野,但這也導(dǎo)致了特征圖分辨率的降低,導(dǎo)致部分信息被丟失[7]。針對(duì)語義分割時(shí)池化導(dǎo)致的圖像分辨率下降和信息丟失問題,本研究在卷積層中加入了“膨脹率”這一新參數(shù)。通過調(diào)整不同的膨脹率,可以控制卷積核在處理數(shù)據(jù)時(shí)的采樣間隔,擴(kuò)大感受野的同時(shí),卻沒有增加參數(shù)量。膨脹卷積的原理如圖1所示。
考慮到膨脹卷積在特征提取和參數(shù)效率上的優(yōu)勢(shì),本文采用了多個(gè)不同膨脹率的膨脹卷積的組合,以模擬多種感受野的效果,實(shí)現(xiàn)對(duì)圖像多尺度信息的捕捉。所使用的特征提取模塊基于傳統(tǒng)的3×3卷積核,并在此基礎(chǔ)上堆疊了3種膨脹率為1、2、3的膨脹卷積核,以提取不同規(guī)模的安全帽特征。為了增強(qiáng)模型的性能及其對(duì)不同尺度目標(biāo)的感知力,本文采取了將高層的語義信息與低層的細(xì)節(jié)信息結(jié)合的策略。
2 卷積注意力機(jī)制模塊
卷積注意力機(jī)制包括通道以及空間2部分。卷積注意力機(jī)制通過給模型加上“注意力”層,使得模型能夠關(guān)注輸入圖像中更加重要的區(qū)域[8]。
2.1 通道注意力模塊
在通道注意力部分,每一個(gè)通道被視為圖像的特征提取器,提取紋理、樣式等各類特征。特征圖在空間維度上通過最大池化和平均池化進(jìn)行壓縮,聚合特征映射的信息[9]。經(jīng)過一個(gè)共享網(wǎng)絡(luò)逐元素求和合并,再經(jīng)過Sigmoid激活函數(shù),得到通道注意力圖,如圖2所示。
(1)結(jié)合平均池化和最大池化2種池化方法對(duì)特征圖進(jìn)行空間匯集,生成2種通道注意力向量,分別用FCavg,表示FCmax。
(2)將這2個(gè)向量輸入由一個(gè)隱藏層組成的共享MLP(Multi-Layer Perception)網(wǎng)絡(luò),并生成2個(gè)維數(shù)為C×1×1的注意力向量(MLP可以看成一個(gè)3層的全連接神經(jīng)網(wǎng)絡(luò))。
(3)將上面得到的2種向量對(duì)應(yīng)位置相加,通過一個(gè)Sigmoid函數(shù),生成一個(gè)維數(shù)為C×1×1的通道注意力向量,命名為MC。
在多層感知器(MLP)中,考慮到計(jì)算成本從而減少參數(shù)量,把隱藏激活大小設(shè)置為C/r×1 ×1,可以理解為中間層的神經(jīng)元節(jié)點(diǎn)減到了C/r個(gè),其中r為減少率。等到輸出層的時(shí)候再把神經(jīng)元增加到C個(gè),保證獲得和特征圖通道數(shù)相同的注意力向量維數(shù)。這樣處理既可以獲得全連接網(wǎng)絡(luò)的非線性,又減少了全連接網(wǎng)絡(luò)的參數(shù)個(gè)數(shù)[10]。
通道注意力機(jī)制的具體表達(dá)式如公式(1)所示
MC(F)=Sig(MLP(Avgpooling(F))+MLP (Maxpooling(F)))=Sig(W1(W0(FCavg))+W1 (W0(FCmax)))(1)
其中,Sig是Sigmoid函數(shù),MLP是含有隱藏層的多層感知機(jī),W1和W0分別是MLP的隱藏層權(quán)重及輸出層權(quán)重,W1和W0參數(shù)是共享的,Avgpooling是平均池化,Maxpooling是最大池化。
2.2 空間注意力模塊
空間注意力機(jī)制的輸入是由通道注意力部分處理過的數(shù)據(jù),完成的工作是對(duì)通道進(jìn)行壓縮。將多通道的值壓縮到單個(gè)通道,經(jīng)過卷積得到空間的加權(quán)信息,如圖3所示。
空間注意力模塊著重于利用特征之間的空間位置關(guān)系來形成空間注意力圖。這種空間關(guān)注與通道關(guān)注不同,它強(qiáng)調(diào)了特征在空間上的分布和區(qū)位重要性,旨在對(duì)通道注意力進(jìn)行有效補(bǔ)充。通道注意力機(jī)制的具體表達(dá)式如公式(2)所示。
MS(F)=Sig(f7×7([Avgpooling(F);Maxpooling (F)]))=Sig(f7×7(FSavg;FSmax))(2)
其中,得到帶有通道注意力權(quán)重的特征圖后,采用2種池化方法(平均池化和最大池化),得到2個(gè)維數(shù)相同的特征圖,分別命名為FSavg,F(xiàn)Smax,維數(shù)為1×H×W。把得到的FSavg、FSmax串行拼接在一起,得到一個(gè)特殊的特征圖。利用一個(gè)7×7的卷積對(duì)這個(gè)特征圖進(jìn)行卷積,然后輸入Sigmoid函數(shù),得到一個(gè)特征圖維數(shù)相同的加上空間注意力權(quán)重的空間矩陣。把得到的空間注意力矩陣對(duì)應(yīng)相乘到原特征圖上,得到的新的特征圖命名為MS。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 數(shù)據(jù)集
數(shù)據(jù)集選擇的是Hard Hat Workers Dataset,這是一個(gè)公開的數(shù)據(jù)集,數(shù)據(jù)集中包含大約5000張圖像,可以直接用于訓(xùn)練和測(cè)試安全帽檢測(cè)模型,是最接近安全帽檢測(cè)任務(wù)需求的數(shù)據(jù)集之一。模型進(jìn)行訓(xùn)練時(shí),隨機(jī)選擇80%作為訓(xùn)練集,20%作為測(cè)試集。
3.2 損失函數(shù)
定位損失(Localization Loss)用來評(píng)估模型預(yù)測(cè)的邊界框與真實(shí)邊界框之間的一致性,與模型如何精確地定位圖像中物體的位置和大小直接相關(guān)。置信度損失(Confidence Loss)用于度量模型預(yù)測(cè)邊界框中是否包含目標(biāo)以及對(duì)包含目標(biāo)的邊界框置信度水平的準(zhǔn)確性。對(duì)于負(fù)責(zé)檢測(cè)物體的邊界框,置信度損失將評(píng)價(jià)模型預(yù)測(cè)的置信度(通常是物體存在的概率)與實(shí)際存在物體的邊界框之間的誤差。對(duì)于不包含對(duì)象的邊界框,模型也須要給出一個(gè)接近零的置信度,這時(shí)的置信度損失是用來懲罰那些錯(cuò)誤地高估了對(duì)象存在概率的預(yù)測(cè),以提高模型的總體準(zhǔn)確度和魯棒性。
3.3 評(píng)價(jià)指標(biāo)
本文使用精度(Precision)、召回率(Recall)對(duì)模型性能進(jìn)行評(píng)估,計(jì)算公式如下:
其中,TP檢測(cè)正確,F(xiàn)P為檢測(cè)錯(cuò)誤,F(xiàn)N為漏檢。
3.4 對(duì)比實(shí)驗(yàn)
將本文的模型與YOLOv5、YOLOv7、YOLOv8進(jìn)行對(duì)比,結(jié)果如表1所示。由實(shí)驗(yàn)結(jié)果可知,本文的模型在精度和召回率上都有一定的提升。
4 結(jié)語
本文從提升網(wǎng)絡(luò)特征提取能力的角度出發(fā),通過引入膨脹卷積和卷積注意力機(jī)制,提高了檢測(cè)模型的性能。膨脹卷積增加了感受野,使得模型能夠捕捉更多的上下文信息,而不會(huì)喪失分辨率。同時(shí),卷積注意力機(jī)制加強(qiáng)了模型專注于圖像關(guān)鍵部分的能力,從而提高了其區(qū)分安全帽和非安全帽物體的能力。這些改進(jìn)不僅提升了模型對(duì)安全帽檢測(cè)的準(zhǔn)確度,還加強(qiáng)了其在復(fù)雜場(chǎng)景中的魯棒性。
參考文獻(xiàn)
[1]田鵬,毛力.改進(jìn)YOLOv8的道路交通標(biāo)志目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2024(8):202-212.
[2]郭愛心.基于深度卷積特征融合的多尺度行人檢測(cè)[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2018.
[3]羅會(huì)蘭,陳鴻坤.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究綜述[J].電子學(xué)報(bào),2020(6):1230-1239.
[4]鮑禹辰,徐增波,田丙強(qiáng).基于YOLOv8改進(jìn)的服裝疵點(diǎn)檢測(cè)算法[J].東華大學(xué)學(xué)報(bào)(自然科學(xué)版),2024(4):49-56.
[5]戚玲瓏,高建瓴.基于改進(jìn)YOLOv7的小目標(biāo)檢測(cè)[J].計(jì)算機(jī)工程,2023(1):41-48.
[6]汪昱東,郭繼昌,王天保.一種改進(jìn)的霧天圖像行人和車輛檢測(cè)算法[J].西安電子科技大學(xué)學(xué)報(bào),2020(4):70-77.
[7]左靜,巴玉林.基于多尺度融合的深度人群計(jì)數(shù)算法[J].激光與光g4Ucr+fVlKRhOko2m/2Wlw==電子學(xué)進(jìn)展,2020(24):315-323.
[8]GU W C,SUN K X.AYOLOv5:Improved YOLOv5 based on attention mechanism for blood cell detection[J].Biomedical Signal Processing and Control,2024(Part C):105034.1-105034.8.
[9]朱張莉,饒?jiān)瑓菧Y,等.注意力機(jī)制在深度學(xué)習(xí)中的研究進(jìn)展[J].中文信息學(xué)報(bào),2019(6):1-11.
[10]蔣弘毅,王永娟,康錦煜.目標(biāo)檢測(cè)模型及其優(yōu)化方法綜述[J].自動(dòng)化學(xué)報(bào),2021(6):1232-1255.
Research on safety helmet wearing detection based on YOLOv8
Abstract: With the increasing awareness of safety production, construction site safety supervision is increasingly valued, and testing whether workers wear safety helmets has become an important measure to ensure the safety of construction sites. However, there are also significant challenges in the detection of safety helmets, such as changes in target size and complex background interference. This article proposes a safety helmet wearing detection method based on YOLOv8, which improves the network’s feature extraction ability by introducing dilated convolution and convolutional attention mechanism, and updates parameters by combining localization loss function and confidence loss function. The experimental data shows that the accuracy of this method has been improved compared to the original YOLOv8, and it can accurately detect whether employees are wearing safety helmets.
Key words: YOLOv8; feature extraction; neural network; helmet detection