摘" 要:文章針對水電廠中工作人員著裝不規(guī)范問題,提出一種基于改進YOLOv5的著裝檢測方法,即采用目標(biāo)檢測技術(shù)對工作人員是否佩戴安全帽以及工作服穿著規(guī)范與否進行自動檢測。針對安全帽這類小目標(biāo)檢測問題,在YOLOv5網(wǎng)絡(luò)模型的基礎(chǔ)上嵌入輕量級ECAnet注意力機制模塊,以減少無用信息通道的計算量,在保證YOLOv5檢測速度優(yōu)勢的同時提高了小目標(biāo)特征提取能力。結(jié)果表明,改進后模型的準(zhǔn)確率、召回率、mAP@0.5分別提升了4.3%、2.1%、1.4%。
關(guān)鍵詞:目標(biāo)檢測;著裝識別;YOLOv5s;注意力機制
中圖分類號:TP391.4" " 文獻標(biāo)識碼:A" 文章編號:2096-4706(2024)10-0060-05
Research on Electrician Dressing Inspection Method Based on Improved YOLOv5
LI Gongle
(Nanjing Institute of Technology, Nanjing" 211167, China)
Abstract: This paper proposes a dressing detection method based on improved YOLOv5 to address the issue of non-standard dressing among working personnel in hydroelectric power plants. This method uses object detection technology to automatically detect whether working personnel are wearing safety helmets and their work clothes are wearing properly. For small object detection such as helmets, a lightweight ECAnet attention mechanism module is embedded on the basis of the YOLOv5 network model to reduce the computational complexity of useless information channels, while ensuring the advantage of YOLOv5 detection speed, the ability to extract small object features is improved. The results show that the accuracy, recall, and mAP@0.5 of the improved module increased by 4.3%, 2.1%, and 1.4% respectively.
Keywords: target detection; dressing recognition; YOLOv5s; attention mechanism
0" 引" 言
水電廠電力生產(chǎn)過程中由于工作人員繁多、工作內(nèi)容相對復(fù)雜及危險,工人的著裝問題經(jīng)常出現(xiàn)問題,為了保障水電廠工作人員的人身安全,安全帽的佩戴及安全著裝顯得尤為重要。在電力生產(chǎn)過程中,存在小部分施工人員安全防范意識薄弱,未佩戴安全帽或未安全著裝[1]就進入工作地點,更有甚者為了一時方便,在工作過程中會脫下安全帽和脫下工作服,給電力建設(shè)帶來了很多安全隱患,故很多作業(yè)現(xiàn)場就不得不以人工監(jiān)督的原始方式進行預(yù)防[2],但此種方式效率低下,無法24小時對員工進行不安全行為的監(jiān)督。圖1(a)展示了電廠員工在進行帶電作業(yè)時未佩戴了絕緣手套,屬于不規(guī)范著裝的示例;圖1(b)展示了電廠員工在進行帶電作業(yè)時佩戴了絕緣手套,屬于規(guī)范著裝示例。
隨著計算機視覺技術(shù)的快速發(fā)展,可以將機器視覺技術(shù)運用到水電廠中的監(jiān)控系統(tǒng)中,通過相關(guān)技術(shù)的應(yīng)用可以有效克服人工監(jiān)督效率低下和成本過高的問題。
近年來國內(nèi)外研究人員對于著裝檢測展開了大量的工作。Dahiya [3]等人提出一種摩托車駕駛員安全帽檢測方法,該算法對小目標(biāo)駕駛員安全帽佩戴情況檢測效果欠佳。通過在SSD目標(biāo)檢測方法的基礎(chǔ)上加入注意力機制改進了該算法,但該算法對復(fù)雜背景視頻流下的著裝小目標(biāo)[4]的檢測仍有所欠缺,并且模型的計算量較大。施輝[5]等人利用YOLOv3在安全帽的檢測中提出多尺度融合的方法,再經(jīng)過特征提取對安全帽進行識別,模型的計算量同樣較大。烏民雨等人[6]也提出了一種基于改進YOLOv3的安全帽檢測方法,但是對于受背景因素影響大有誤檢錯檢情況。張錦[7]等人采用K-means++算法融入YOLOv5算法中,然而大大增加了其中的參數(shù)量和計算量。
目前對于著裝檢測任務(wù)的研究已經(jīng)取得了初步成果,但是仍有值得改進的地方?,F(xiàn)有的研究方法大多注重檢測算法的推理速度,從而忽略了對小目標(biāo)的檢測精度。本文提出一種基于改進型YOLOv5的水電廠電工的著裝不規(guī)范的檢測方法,在YOLOv5網(wǎng)絡(luò)的基礎(chǔ)上,融合了ECAnet注意力機制模塊,將NMS替換成DIOU-NMS。
本文方法可以有效降低背景特征對圖像檢測的影響,提高檢測目標(biāo)的特征情況,有效緩解水電廠工作現(xiàn)場復(fù)雜背景帶來的漏檢現(xiàn)象,同時提高對安全帽、絕緣手套、絕緣靴等小目標(biāo)的檢測能力。
1" 網(wǎng)絡(luò)結(jié)構(gòu)
1.1" YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5具有網(wǎng)絡(luò)模型小,推理速度快的特點。本文選擇使用YOLOv5s網(wǎng)絡(luò)作為基礎(chǔ)模型,既滿足水電廠作業(yè)現(xiàn)場實時檢測需求,同時模型大小屬于輕量級,適合監(jiān)控視頻下目標(biāo)檢測任務(wù)。如圖2所示為YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)。
YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)可以分為Input輸入端、Backbone特征提取端、Neck頸部端以及Prediction輸出端四個部分組成。其中輸入端采用Mosaic增強方法能夠進行隨機比例、隨機剪裁和隨機順序?qū)D像拼接在一起,豐富檢測物體的背景,有效增強小目標(biāo)檢測效果,適用于安全規(guī)范著裝檢測任務(wù)。
Backbone的特征提取端采用CSPDarknet53網(wǎng)絡(luò)結(jié)構(gòu),利用Conv(k = 6,s = 2,p = 2)結(jié)構(gòu)進行切片操作,提高速度,并且方便導(dǎo)出其他模型。帶殘差的CSP1_X結(jié)構(gòu)可以避免梯度消失和網(wǎng)絡(luò)退化,SPPF空間池化塔結(jié)構(gòu)進行圖像尺寸統(tǒng)一。CSP網(wǎng)絡(luò)結(jié)構(gòu)和切片F(xiàn)ocus結(jié)構(gòu)增強了特征圖上的感受野,減少原始圖像信息丟失和降低了計算量,提高了檢測速度。
Neck網(wǎng)絡(luò)結(jié)構(gòu)采用自上而下的金字塔FPN和自下而上的PAN復(fù)合結(jié)構(gòu)。FPN可以將深層語義特征轉(zhuǎn)移到平面層,改善多尺度上的語義表達;PAN將平面位置信息傳輸?shù)缴顚?,提高多尺度上的定位能力。FPN+PAN復(fù)合結(jié)構(gòu)使不同尺寸的特征圖都包含圖像語義信息和圖像特征信息,保證了對不同尺寸的圖片的準(zhǔn)確預(yù)測。
Prediction輸出端能夠獲取關(guān)于圖像中檢測到的目標(biāo)的詳細信息,包括其位置、類別和置信度得分,根據(jù)這些信息繪制邊界框、過濾低置信度的檢測結(jié)果、計算目標(biāo)的具體位置。
1.2" 注意力機制
注意力機制可以使得模型增大重要信息權(quán)重,削弱無用信息權(quán)重,從而在保持參數(shù)不變的情況下,依然能提高任務(wù)效率。ECAnet [8]注意力機制可以顯著提高模型的檢測精度和魯棒性,降低無用信息的干擾,獲取重要信息特征,提高模型的泛化能力。此外,ECAnet注意力機制還可以幫助模型在處理小目標(biāo)時,提高檢測精度,從而使模型更適合于處理復(fù)雜場景下的目標(biāo)檢測任務(wù)??傊?,將ECAnet注意力機制插入到Y(jié)OLOv5中,可以有效提高模型的性能,進一步提高物體檢測的準(zhǔn)確性和實用性,該模塊只涉及少量參數(shù),同時帶來明顯的性能增益。圖3為ECA注意力機制結(jié)構(gòu)圖,實現(xiàn)過程如下:
1)輸入特征圖經(jīng)過全局平均池化(GAP)后,特征圖向量從[h,w,c]變成[1,1,c]矩陣。
2)得到自適應(yīng)一維卷積核k進行通道間的交互。
3)一維卷積運算后,得到特征圖中每個通道的權(quán)重σ。
4)將歸一化權(quán)重和原輸入特征圖逐通道相乘,生成加權(quán)后的特征圖輸出。
ECAnet使用一個矩陣Wk來學(xué)習(xí)通道注意力,Wk的計算式為:
Wk =(1)
顯然,Wk的數(shù)量與k通道中的特征圖通道數(shù)c相關(guān),一共涉及了k×c個參數(shù)。
權(quán)值wi的計算式為:
可以看出,權(quán)值yi的計算僅涉及與其k個鄰居通道之間的直接交互。σ為Sigmoid函數(shù),用于將交互權(quán)重限制在0到1之間。Ω為相關(guān)權(quán)重的參數(shù)集合。這種權(quán)值計算方法可以幫助強化對特定通道的注意力,以更好地捕捉特定特征通道的信息。
假設(shè)所有通道共享相同的學(xué)習(xí)參數(shù),那么就簡化了式(2),得到:
上述過程可以通過一個大小為k的一維卷積核來簡化實現(xiàn):
其中,C1D是一維卷積。
式(4)由ECAnet調(diào)用,它僅使用k個參數(shù)。k的值可以通過一個自適應(yīng)的函數(shù),該函數(shù)與輸入特征的通道維度C有關(guān),計算式為:
在卷積神經(jīng)網(wǎng)絡(luò)中,當(dāng)處理小目標(biāo)時,特征提取過程中的信息會因為多次降維縮小而遭受損失。為了應(yīng)對這個問題,在主干網(wǎng)絡(luò)的SPPF(Spatial Pyramid Pooling Feature)前一層,我們引入了ECAnet注意力機制網(wǎng)絡(luò)模塊。這個模塊的作用是加強小目標(biāo)信息的檢測,更好地保留小目標(biāo)的細節(jié)信息,同時強調(diào)重要信息特征,減弱非重要信息特征。具體的結(jié)構(gòu)示意圖如圖4所示。
1.3" 非最大抑制(NMS)算法改進
非最大抑制(NMS)在目標(biāo)檢測的預(yù)測階段時,會輸出許多候選的Anchor box,其中有很多是明顯重疊的預(yù)測邊界框都圍繞著同一個目標(biāo),這時候就可以使用NMS來合并同一目標(biāo)的類似邊界框。但不適用于多類別任務(wù)和重疊目標(biāo),在多類別目標(biāo)檢測任務(wù)中,傳統(tǒng)的NMS可能需要分別應(yīng)用于每個類別,這可能導(dǎo)致類別間的相互競爭,從而影響檢測結(jié)果;當(dāng)目標(biāo)之間有重疊時,NMS可能會導(dǎo)致一些目標(biāo)的丟失。將NMS替換為DIOU-NMS,可初步改善YOLOv5對重疊遮擋目標(biāo)的識別。鑒于水電廠工作區(qū)域內(nèi)人員密集,采用結(jié)合DIoU和NMS的方法,旨在減少漏檢情況。
DIoU-NMS公式如式(7)所示:
其中,M為具有最高分類分數(shù)的一個預(yù)測框,而Bi用于確定是否應(yīng)該移除其他預(yù)測框,具體移除規(guī)則由Si為的分類分數(shù)和ε為的NMS閾值決定。RDIoU為兩個邊界框的中心點之間的距離,式(8)中描述了相關(guān)計算公式:
其中,ρ2(?)為歐式距離,b和bgt分別為預(yù)測邊界框和真實邊界框的中心點,而c為兩個預(yù)測框之間的最小包圍框的最短對角線長度。用這些來計算邊界框之間的距離,以便在目標(biāo)檢測中評估它們之間的相似性或重疊程度。
故本文采用DIoU-NMS效果更符合實際,效果更佳,進而改善了目標(biāo)檢測中的漏檢問題,有效提高了檢測的精度。
2" 實驗與分析
2.1" 數(shù)據(jù)集構(gòu)建
2.1.1" 數(shù)據(jù)集預(yù)處理
水電廠作業(yè)現(xiàn)場要求佩戴安全帽、絕緣手套、絕緣靴子、工作服等,針對水電廠目前并沒有公開的真實場景的數(shù)據(jù)集,且網(wǎng)絡(luò)上研究的樣本量較少,所以一般需在真實場景中進行數(shù)據(jù)采集。故本文采用的數(shù)據(jù)集選自網(wǎng)絡(luò)數(shù)據(jù)集以及個人自建的數(shù)據(jù)集。為了提高數(shù)據(jù)集的多樣性,對樣本圖片采用翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪、高斯噪聲等數(shù)據(jù)增強方式,提高模型泛化能力[9],獲得達到更好的目標(biāo)檢測效果的作用[10],最終獲得5 000張數(shù)據(jù)樣本圖,用于本文中進行人員的著裝檢測訓(xùn)練。
2.1.2" 圖片標(biāo)注
利用LabelImg作圖像的標(biāo)注工具,其中根據(jù)規(guī)范化安全著裝檢測目標(biāo),規(guī)定了安全帽、非安全帽等10種類別的檢測標(biāo)簽,并將數(shù)據(jù)集分別按8:2劃分為訓(xùn)練集和測試集,如圖5所示為目標(biāo)在數(shù)據(jù)集中所占圖像數(shù)量分布。
2.2" 實驗環(huán)境和參數(shù)設(shè)置
實驗代碼基于PyTorch深度框架,實驗環(huán)境配置:Windows 10、GPU GeForce GTX 3060、CUDA11.2、Python 3.9。模型衰減權(quán)重未為0.000 05,Batch-size設(shè)置為16,epoch設(shè)置為300epoch。GPU測試時圖像輸入為640×640,考慮到大多數(shù)移動設(shè)備并沒有圖形卡加速,因此同時進行CPU測試模擬移動端的情況,CPU測試時輸入為320×320。
2.3" 評價指標(biāo)
判斷模型的好壞往往是通過評價指標(biāo)來得到的。本文對于水電廠中安全著裝檢測任務(wù)采用查準(zhǔn)率 (Precision)、查全率(Recall)、平均精度均值(mAP)作為模型的評價指標(biāo)。
2.4" 消融實驗
為了驗證改進算法的有效性,進行消融實驗,基于YOLOv5s網(wǎng)絡(luò)進行不同的模型設(shè)計:模型1:保持YOLOv5s網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)不做任何改變。模型2:在YOLOv5s網(wǎng)絡(luò)中添加了ECAnet注意力機制,其余部分保持不變。模型3:我們將原本使用的非最大抑制算法NMS替換為DIOU-NMS,其他模塊維持不變。模型4:在YOLOv5s網(wǎng)絡(luò)中添加ECAnet注意力機制,并同時將NMS替換為DIOU-NMS。這些模型旨在檢驗不同改進措施對目標(biāo)檢測性能的影響。最終,使用精確率、召回率和均值平均精確率(mAP)作為評估指標(biāo),實驗結(jié)果在表1中。
從表1中的數(shù)據(jù)可以看出,通過在原始YOLOv5s結(jié)構(gòu)的基礎(chǔ)上添加注意力模塊以及將非最大抑制算法NMS替換為DIOU-NMS的方法,都顯著提高了模型的性能表現(xiàn)。當(dāng)這兩種改進都被同時引入到模型中時,性能提升更加顯著,具體來說,準(zhǔn)確率提高了4.3%,召回率提高了2.1%,mAP@0.5提高了1.4%。這表明本文提出的模型修改部分有效地改善了模型的性能。檢測結(jié)果的部分示例如圖6所示。
3" 結(jié)" 論
水電廠員工日常工作中的著裝規(guī)范問題是重中之重,根據(jù)工作需求,在不同的場合需要佩戴和穿著相應(yīng)的服飾。本文針對水電廠工作人員著裝問題中安全帽等小目標(biāo)的漏檢問題,以及遮擋問題進行優(yōu)化,通過在YOLOv5s模型上添加ECAnet注意力機制,我們能夠更好地捕捉目標(biāo)的有效信息。同時,將非最大抑制算法NMS替換為DIOU-NMS有助于提高小目標(biāo)的檢測效果,并提高對遮擋目標(biāo)的辨識度。通過實驗證明,本文提出的方法表現(xiàn)出出色的性能,非常適合應(yīng)用于工作人員的著裝智能識別任務(wù)。
參考文獻:
[1] 張仕廉,王黎明,葉貴,等.建筑安全全要素投入研究:以重慶市為例 [J].中國安全科學(xué)學(xué)報,2018,28(3):161-166.
[2] 劉欣宜,張寶峰,符燁,等.基于深度學(xué)習(xí)的污染場地作業(yè)人員著裝規(guī)范性檢測 [J].中國安全生產(chǎn)科學(xué)技術(shù),2020,16(7):169–175.
[3] DAHIYA K,SINGH D,MOHAN C K. Automatic Detection of Bike-Riders Without Helmet Using Surveillance Videos in Real-time [C]//2016 International Joint Conference on Neural Networks.Vancouver:IEEE,2016:3046-3051.
[4] 梁鴻,王慶瑋,張千.小目標(biāo)檢測技術(shù)研究綜述 [J].計算機工程與應(yīng)用,2021,57(1):17-28.
[5] 施輝,陳先橋,楊英.改進 YOLOv3 的安全帽佩戴檢測方法 [J].計算機工程與應(yīng)用,2019,55(11):213-220.
[6] 烏民雨,陳曉輝.一種基于改進YOLOv3的安全帽檢測方法 [J].信息通信,2020(6):12-14.
[7] 張錦,屈佩琪,孫程,等.基于改進YOLOv5的安全帽佩戴檢測算法 [J].計算機應(yīng)用,2022(4):1292-1300.
[8] HU J,SHEN L,SUN G. Squeeze-and-Excitation Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[9] 靳陽陽,韓現(xiàn)偉,周書寧,等.圖像增強算法綜述 [J].計算機系統(tǒng)應(yīng)用,2021,30(6):18-27.
[10] 鐘志峰,夏一帆,周冬平,等.基于改進YOLOv4的輕量化目標(biāo)檢測算法 [J].計算機應(yīng)用,2022,42(7):2201-2209.
作者簡介:李恭樂(1999—),男,漢族,江西南昌人,碩士研究生在讀,研究方向:基于目標(biāo)檢測的水電廠作業(yè)人員不安全行為檢測。