亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)YOLOv5的口罩佩戴識(shí)別研究

2025-04-13 00:00:00韋偉陶亞明王翔翔

中國新技術(shù)新產(chǎn)品 2025年6期

摘要：目前，檢測人們是否戴口罩主要基于人工檢查，但是該方法過于消耗人力成本，也會(huì)帶來更多感染風(fēng)險(xiǎn)。為了解決該問題，本文采用一種改進(jìn)的YOLOv5算法，可以實(shí)時(shí)檢測佩戴情況。該算法在特征金字塔中引入注意力機(jī)制，增強(qiáng)對輸入圖像中重要部分的識(shí)別能力。進(jìn)而與原YOLOv5算法進(jìn)行比較，并在其他模型中應(yīng)用相同的注意力模塊，驗(yàn)證了本文算法在檢測效果上具有顯著優(yōu)勢。

關(guān)鍵詞：深度學(xué)習(xí)；Ghost卷積；YOLO；人臉口罩檢測

中圖分類號(hào)：TP 391" " " " " 文獻(xiàn)標(biāo)志碼：A

自HINTON G E等[1]提出深度神經(jīng)網(wǎng)絡(luò)以來，人工智能技術(shù)，尤其是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)受到越來越多的關(guān)注。在新冠疫情管控下，由于新冠病毒主要通過飛沫傳播，因此佩戴口罩能夠有效降低感染風(fēng)險(xiǎn)。然而，傳統(tǒng)的口罩檢測方法效率較低且需要消耗大量人力。許多科技公司推出了具有人臉檢測和口罩識(shí)別功能的設(shè)備，顯著提高了檢測效率，降低了資源消耗。盡管如此，目前的人臉口罩識(shí)別技術(shù)仍然面臨一些挑戰(zhàn)，例如需要在固定角度進(jìn)行檢測、無法準(zhǔn)確捕捉移動(dòng)人臉、部分人臉遮擋導(dǎo)致判斷困難和樣本不足影響模型訓(xùn)練效。本文針對上述問題，基于YOLOv5提出了一種新的人臉口罩檢測技術(shù)，該方案包括Ghost輕量級(jí)卷積和注意力機(jī)制，旨在提升算法的精確與效率[2]。

1 YOLOv5算法

1.1 YOLOv5算法網(wǎng)絡(luò)結(jié)構(gòu)

YOLOv5[3-4]主要分為骨干網(wǎng)絡(luò)、特征金字塔模塊和預(yù)測部分。YOLOv5在目標(biāo)檢測任務(wù)中表現(xiàn)出色，得益于多個(gè)有效模塊的優(yōu)良組合，分別是CBL模塊、CSP1_X模塊和CSP2_X模塊，顯著增強(qiáng)了模型的表達(dá)能力。此外，F(xiàn)ocus模塊利用切片和CBL操作進(jìn)行特征提取，SPP模塊利用CBL和最大池化操作來提升多尺度特征的提取能力。這些模塊的設(shè)計(jì)和協(xié)同配合，使YOLOv5在復(fù)雜的目標(biāo)檢測任務(wù)中具有優(yōu)異性能。

1.2 YOLOv5算法原理

YOLOv5是一種備受關(guān)注的深度學(xué)習(xí)目標(biāo)檢測算法，具有高效性和精準(zhǔn)性，并且應(yīng)用廣泛。與之前的版本相比，YOLOv5在速度和準(zhǔn)確性方面具有顯著提升。首先，圖像預(yù)處理將輸入圖像調(diào)整為800×800的尺寸，將像素值調(diào)整為0～1。其次，CSPDarknet 53用于骨干網(wǎng)絡(luò)提取特征。此網(wǎng)絡(luò)包括多個(gè)卷積層、殘差塊以及特征金字塔模塊，可以有效提取多尺度特征，進(jìn)而提升檢測精確率。最后，YOLOv5[5]利用一個(gè)由卷積層構(gòu)成的檢測頭來預(yù)測物體的位置和類別。該檢測頭生成一個(gè)張量，包括類別可信度、物體的具體坐標(biāo)和高寬度。同時(shí)，YOLOv5采用sigmoid函數(shù)將輸出值限制在0～1，并應(yīng)用非極大值抑制算法對檢測結(jié)果進(jìn)行篩選，可以減少重疊情況。

在推理階段，YOLOv5算法采用一種基于中心點(diǎn)的檢測方法，即模型會(huì)預(yù)測每個(gè)物體的中心點(diǎn)坐標(biāo)、寬度、高度以及物體類別，再根據(jù)預(yù)測結(jié)果將物體進(jìn)行歸類，進(jìn)行選取時(shí)使用非極大值抑制算法，得出檢測結(jié)論。

2 基于注意力機(jī)制改進(jìn)的YOLOv5人臉佩戴口罩檢測算法

2.1 注意力機(jī)制

注意力機(jī)制是一種模仿人類注意力的計(jì)算方法，該方法能夠?qū)⑤斎霐?shù)據(jù)的不同部分賦予不同權(quán)重，可以提高模型在特定任務(wù)上的表現(xiàn)，其核心思想是使模型集中關(guān)注最相關(guān)的信息，忽略無關(guān)的部分。根據(jù)輸入特征，自適應(yīng)調(diào)整各部分的權(quán)重，使重要的信息在計(jì)算過程中占據(jù)更大的比重，將輸入數(shù)據(jù)（例如序列或圖像特征）表示為向量。例如，在自然語言處理中，輸入句子可以將詞嵌入（Word Embedding）轉(zhuǎn)換為特征向量，將計(jì)算得到的注意力權(quán)重應(yīng)用于值（Value）向量，生成最終的輸出表示，最終的輸出向量可以用于后續(xù)的模型層，例如全連接層或其他任務(wù)的后續(xù)處理。該過程如公式（1）所示。

公式（1）計(jì)算了每個(gè)鍵值對的權(quán)重，并將權(quán)重應(yīng)用到值向量vi上，進(jìn)而通過加權(quán)求和得出最終的輸出向量O。

人臉口罩識(shí)別的關(guān)鍵是識(shí)別人臉的鼻子和嘴巴。卷積網(wǎng)絡(luò)神經(jīng)的所有卷積層都可以提取特征，但是特征的重要性各異，無法有效突出關(guān)鍵特征，可能會(huì)對模型的整體性能產(chǎn)生負(fù)面影響。為了解決該問題，本文引入注意力機(jī)制，以增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)對關(guān)鍵特征的關(guān)注，從而優(yōu)化YOLOv5算法，提高口罩檢測的準(zhǔn)確性。

卷積塊注意模塊（CBAM）是一種增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)注意力機(jī)制的方法。該模塊基于改進(jìn)的擠壓-激勵(lì)網(wǎng)絡(luò)，并增加了空間注意力機(jī)制。此外，CBAM能夠無縫集成到網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)中，無須進(jìn)行修改，因此其應(yīng)用更靈活，便于與現(xiàn)有網(wǎng)絡(luò)架構(gòu)相結(jié)合。

CBAM模塊的主要結(jié)構(gòu)如圖1所示。模塊包括通道注意力和空間注意力模塊[6]。通道注意力模塊能夠?qū)⒉煌瑱?quán)重賦予不同通道，幫助模型聚焦于重要的特征，從而提升模型在圖像分類、目標(biāo)檢測等任務(wù)中的表現(xiàn)?？臻g注意力模塊強(qiáng)調(diào)輸入特征圖中重要的空間位置，幫助模型提升對關(guān)鍵特征的感知能力，從而提高整體性能。CBAM模塊可以無縫集成到現(xiàn)有的網(wǎng)絡(luò)架構(gòu)中，并對計(jì)算資源的要求相對較低，適合在YOLOv5追求實(shí)時(shí)性和高效性的目標(biāo)檢測模型中使用。

在通道注意力機(jī)制中，需要對輸入特征圖進(jìn)行全局平均池化和全局最大池化操作，以獲得每個(gè)通道的全局信息。進(jìn)而將2個(gè)池化的結(jié)果拼接或者相加，形成一個(gè)通道描述向量。將通道描述向量輸入一個(gè)小的全連接網(wǎng)絡(luò)，通常包括一個(gè)隱藏層，并通過激活函數(shù)進(jìn)行非線性變換，再利用Sigmoid激活函數(shù)，將輸出轉(zhuǎn)換為通道注意力權(quán)重。

空間注意力機(jī)制能夠?qū)斎胩卣鲌D進(jìn)行全局平均池化和全局最大池化操作，以獲取空間信息，將這2個(gè)特征圖在通道維度上拼接，得到一個(gè)新的特征圖。采用一個(gè)小的卷積層（通常是7*7或3*3的卷積）對拼接后的特征圖進(jìn)行卷積操作，以生成空間注意力權(quán)重圖。最后，將原始特征圖與空間注意力權(quán)重圖相乘，生成加權(quán)后的特征圖，這2個(gè)操作通常在通道維度上進(jìn)行。

2.2 改進(jìn)的YOLOv5人臉口罩檢測算法優(yōu)化過程

YOLOv5在目標(biāo)檢測中表現(xiàn)優(yōu)異，但是在小目標(biāo)捕捉方面存在一些不足之處，主要原因是其網(wǎng)格單元化程度較低，對小目標(biāo)的細(xì)節(jié)捕捉存在不足。為了解決該問題，本文將空間注意力于通道注意力與YOLOv5相結(jié)合，以提升算法的感知能力和準(zhǔn)確性。改進(jìn)后的算法能夠減少下采樣層數(shù)或使用特征金字塔網(wǎng)絡(luò)（FPN），保留更多細(xì)節(jié)信息，提高小目標(biāo)的可檢測性，空間注意力或通道注意力機(jī)制能夠幫助模型關(guān)注重要特征區(qū)域，提高小目標(biāo)的特征提取能力。在訓(xùn)練過程中賦予小目標(biāo)樣本更高的權(quán)重，以提高模型對小目標(biāo)的敏感度。針對小目標(biāo)的特性進(jìn)行優(yōu)化，減少誤報(bào)和漏檢，提高檢測結(jié)果的準(zhǔn)確性。

結(jié)合注意力機(jī)制改進(jìn)的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。Focus主要通過在空間維度上降低特征圖的分辨率，同時(shí)在通道維度上進(jìn)行特征融合。CSP是YOLOv5中用于提高模型效率和性能的組件，它將網(wǎng)絡(luò)分成2路，一路進(jìn)行正常的卷積操作。圖中加入的CBAM層主要用于提高模型的特征表達(dá)能力和目標(biāo)檢測的精度。CBAM能夠引入空間注意力和通道注意力機(jī)制，幫助模型更有效地聚焦于重要特征，從而提高檢測性能。注意力機(jī)制的引入可以顯著提升模型的特征表達(dá)能力和檢測精度。

與傳統(tǒng)版本相比，結(jié)合注意力機(jī)制的YOLOv5主要通過引入通道注意力和空間注意力機(jī)制來提升模型性能，顯著提升了模型的表達(dá)能力和精確度。通道注意力機(jī)制能夠分析特征圖不同通道的重要性，動(dòng)態(tài)調(diào)整每個(gè)通道的權(quán)重，強(qiáng)化與目標(biāo)檢測相關(guān)的重要通道，抑制冗余或不重要的通道特征，使網(wǎng)絡(luò)能夠適應(yīng)多樣化的輸入?？臻g注意力機(jī)制通過分析特征圖中不同位置的重要性，為每個(gè)空間位置分配權(quán)重。它通常基于通道聚合的信息生成一個(gè)二維的注意力圖，聚焦于重要的空間區(qū)域，提升了模型處理小目標(biāo)或密集目標(biāo)場景的性能。這一改進(jìn)使YOLOv5在實(shí)際應(yīng)用中更高效、可靠，更適用于口罩佩戴檢測。

3 試驗(yàn)過程與結(jié)果分析

3.1 試驗(yàn)過程

在自建數(shù)據(jù)集上篩選出需要的圖像，按照6∶4的比例劃分得到3600張用于訓(xùn)練的圖像和2400張用于測試的圖像。圖像一共有3類。第一種不戴口罩，標(biāo)簽定義為1；第二種戴口罩，標(biāo)簽定義為2；第三種戴錯(cuò)口罩，標(biāo)簽定義為3。

在試驗(yàn)中，將圖像的分辨率調(diào)整為800×800，將其輸入檢測網(wǎng)絡(luò)進(jìn)行訓(xùn)練。使用訓(xùn)練命令啟動(dòng)訓(xùn)練過程，主要采用YOLOv5改進(jìn)前、后2個(gè)版本進(jìn)行訓(xùn)練，并結(jié)合CBAM模塊討論注意力機(jī)制對算法精準(zhǔn)度的提升。先將學(xué)習(xí)率設(shè)定為0.01，經(jīng)過280輪訓(xùn)練后，設(shè)定新的學(xué)習(xí)率為0.001，并采取Pytorch的混合精度訓(xùn)練（amp）模塊，使訓(xùn)練速度更快。選擇AdamW優(yōu)化器，解決L2正則化過程中的權(quán)重衰減問題。

在模型驗(yàn)證方面，YOLOv5采用COCO類型的驗(yàn)證方法，并以均值平均精度（mAP）為評估標(biāo)準(zhǔn)。靜賢驗(yàn)證時(shí)，先將預(yù)測結(jié)果與真實(shí)標(biāo)注相匹配，得出檢測框的交并比（IoU）。根據(jù)不同的IoU閾值，將檢測框分為真陽性（TP）、假陽性（FP）和假陰性（FN）。進(jìn)而基于TP、FP和FN的數(shù)量，計(jì)算各個(gè)IoU閾值下的精確率（Precision），并綜合mAP和精確率等指標(biāo)來評估模型的整體性能。

3.2 試驗(yàn)結(jié)果

3.2.1 試驗(yàn)結(jié)果分析

在算法實(shí)現(xiàn)階段，YOLOv5結(jié)合通道注意力和空間注意力機(jī)制進(jìn)行CBAM模塊改進(jìn)。為了保證公平，試驗(yàn)中使用本文搜索的數(shù)據(jù)集對YOLOv5及其改進(jìn)版本進(jìn)行訓(xùn)練。此外，本文還在部分YOLO模型中引入CBAM模塊，以驗(yàn)證這些改進(jìn)的有效性。改進(jìn)前、后算法在測試集上的檢測結(jié)果見表1。

根據(jù)表1數(shù)據(jù)，改進(jìn)后的YOLOv5算法在各項(xiàng)檢測精度指標(biāo)上均具有優(yōu)異表現(xiàn)。與原始YOLOv5相比，mAP提升了1.3%，而精確率提高了1.7%。綜上所述，經(jīng)過改進(jìn)的YOLOv5具有出色的目標(biāo)檢測能力，注意力機(jī)制的引入使算法能夠更有效地聚焦于佩戴口罩的人臉區(qū)域。但是其在模型大小和推理延遲方面仍有進(jìn)一步優(yōu)化的潛力。

3.2.2 口罩檢測結(jié)果圖對比

本算法的目的是識(shí)別出人臉是否戴了口罩，因此直接將識(shí)別結(jié)果展現(xiàn)出來有利于后續(xù)試驗(yàn)。在該過程中，本文挑選出一些圖像，使用改進(jìn)前、后的算法分別進(jìn)行檢測，挑出2組最好的檢測效果圖。第一個(gè)是在場景簡單的條件下，對2種算法的檢測結(jié)果進(jìn)行比較，2種方法均能較準(zhǔn)確地進(jìn)行預(yù)測，但是改進(jìn)后的YOLOv5算法在有些檢測框的可信度方面更精確。同時(shí)，本文也挑選了一些圖像在場景復(fù)雜的條件下進(jìn)行檢測。雖然這些圖像的場景比較復(fù)雜且有些人臉被遮住，但是2種算法的檢測結(jié)果均比較準(zhǔn)確。進(jìn)行進(jìn)一步分析后，改進(jìn)后的YOLOv5算法檢測結(jié)果更準(zhǔn)確。改進(jìn)算法可以正確識(shí)別出沒有戴口罩的圖像，原始的YOLOv5算法沒有做到這一點(diǎn)。通過上述試驗(yàn)，可以得出結(jié)論：改進(jìn)后的YOLOv5算法在網(wǎng)絡(luò)結(jié)構(gòu)中引入了2種機(jī)制，顯著增強(qiáng)了模型對人臉佩戴口罩特征的提取能力。

4 結(jié)論

本文提出的基于注意力機(jī)制改進(jìn)的YOLOv5算法引入了注意力機(jī)制，顯著增強(qiáng)了模型對重要特征的關(guān)注能力，從而提高了口罩檢測的準(zhǔn)確性和效率。試驗(yàn)結(jié)果表明，與傳統(tǒng)目標(biāo)檢測算法相比，改進(jìn)后的YOLOv5在口罩佩戴識(shí)別任務(wù)中具有更好的性能。該成果能夠?yàn)楣残l(wèi)生事件的防控提供有力支持，未來可進(jìn)一步推廣至其他相關(guān)領(lǐng)域。該算法引入了通道注意力和空間注意力機(jī)制，特征提取能力更出色。由試驗(yàn)結(jié)果可知，改進(jìn)后的YOLOv5算法使平均精度均值（mAP）和精確率分別提高了1.3%和1.7%，這一改進(jìn)使算法能夠更快速地檢測出人臉是否佩戴口罩，在口罩檢測任務(wù)中具有更優(yōu)異的性能。

參考文獻(xiàn)

[1]RUMELHART D E，HINTON G E，WILLIAMS R J.Learning"representations by back-propagating errors[J].Nature，1986，323（6088）：533-536.

[2]MOORE P V，WOODCOCK J.Augmented exploitation：Artificial"intelligence，automation，and work[M].London：Pluto Press，2021.

[3]王琳毅，白靜，李文靜，等．YOLO系列目標(biāo)檢測算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用，2023，59（14）：15-29．

[4]張靜，農(nóng)昌瑞，楊智勇.基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法綜述[J].兵器裝備工程學(xué)報(bào)，2022，43（6）：37-47.

[5]李澤琛，李恒超，胡文帥，等.多尺度注意力學(xué)習(xí)的Faster R-CNN口罩人臉檢測模型[J].西南交通大學(xué)學(xué)報(bào)，2021，56（5）：1002-1010．

[6]王琳毅，白靜，李文靜，等．YOLO系列目標(biāo)檢測算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用，2023，59（14）：15-29．

通信作者：陶亞明（1998—），男，安徽蕪湖市人，碩士，研究方向?yàn)橘|(zhì)量管理與工程。

電子郵箱：869236511@qq.com。