亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力機(jī)制的人體檢測(cè)技術(shù)應(yīng)用

2023-12-04 14:18:36韓霏

信息記錄材料 2023年10期

韓霏

（呼和浩特職業(yè)學(xué)院內(nèi)蒙古呼和浩特 010070）

0 引言

隨著科技的發(fā)展，人體檢測(cè)技術(shù)在各個(gè)領(lǐng)域已經(jīng)得到廣泛應(yīng)用，尤其是深度學(xué)習(xí)的目標(biāo)檢測(cè)算法（you only look once，YOLO）系列已經(jīng)在各領(lǐng)域中表現(xiàn)出了優(yōu)異的性能。但在處理復(fù)雜場(chǎng)景和大量目標(biāo)時(shí)，目標(biāo)檢測(cè)算法（you only look once：unified， real-time object detection， YOLOv1）仍存在局限性。為了解決這些問(wèn)題，本文提出了一種基于空間注意力機(jī)制的人體檢測(cè)技術(shù)改進(jìn)方法。

空間注意力機(jī)制已經(jīng)在其他計(jì)算機(jī)視覺(jué)任務(wù)中取得了一定成果，通過(guò)對(duì)比YOLOv1 和改進(jìn)模型在人體檢測(cè)任務(wù)上的性能，本文旨在驗(yàn)證改進(jìn)方法的有效性。同時(shí)，結(jié)合呼和浩特職業(yè)學(xué)院的體育實(shí)踐具體情況，進(jìn)一步探討基于空間注意力機(jī)制的人體檢測(cè)技術(shù)改進(jìn)方法在各體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)中的潛在應(yīng)用。

1 模型的改進(jìn)與處理

1.1 YOLOv1 算法簡(jiǎn)介

YOLOv1 是一種實(shí)時(shí)目標(biāo)檢測(cè)算法，它將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)化為回歸問(wèn)題，通過(guò)單次前向傳播實(shí)現(xiàn)目標(biāo)檢測(cè)。YOLOv1 將輸入圖像劃分為S×S 的網(wǎng)格，每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)B 個(gè)邊界框及其置信度［1］，以及C 個(gè)類(lèi)別概率，YOLOv1的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。

圖1 YOLOv1 的網(wǎng)絡(luò)模型結(jié)構(gòu)圖

YOLOv1 具有較高的實(shí)時(shí)性能和較低的誤檢率［2］。但是，它對(duì)于小目標(biāo)和密集排列的目標(biāo)檢測(cè)效果較差，且不能很好地處理遮擋情況。

1.2 空間注意力機(jī)制的引入

1.2.1 基本概念與原理

空間注意力機(jī)制是一種動(dòng)態(tài)調(diào)整卷積神經(jīng)和網(wǎng)絡(luò)特征圖權(quán)重分布的機(jī)制，它能夠使模型關(guān)注重點(diǎn)區(qū)域，從而提高檢測(cè)模型的性能。通過(guò)空間注意力機(jī)制可以將這些權(quán)重與原始特征圖相乘，從而更改特征圖特定區(qū)域的權(quán)重比例。

1.2.2 空間注意力機(jī)制的應(yīng)用

注意力機(jī)制包含空間注意力機(jī)制以及通道注意力機(jī)制，在人體檢測(cè)技術(shù)中更加關(guān)注空間注意力機(jī)制，空間注意力機(jī)制被廣泛應(yīng)用于目標(biāo)檢測(cè)任務(wù)，如行人重識(shí)別［3］、車(chē)間人員檢測(cè)以及交通標(biāo)志識(shí)別。引入空間注意力機(jī)制后，模型可以更加關(guān)注目標(biāo)所在的重點(diǎn)區(qū)域，從而提高檢測(cè)準(zhǔn)確性以及魯棒性。

1.3 基于空間注意力機(jī)制的人體檢測(cè)模型改進(jìn)

1.3.1 注意力機(jī)制模塊的引入

在YOLOv1 的基礎(chǔ)上，引入空間注意力機(jī)制設(shè)計(jì)一個(gè)空間注意力模塊（convolutional block attention module，CBAM）。 CBAM 模塊包含兩個(gè)部分：通道注意力模塊和空間注意力模塊。在人體檢測(cè)模型的過(guò)程中，只需添加空間注意力模塊，具體結(jié)構(gòu)如圖2 所示。

圖2 引入注意力模型網(wǎng)絡(luò)圖

添加空間注意力模塊步驟可總結(jié)如下：

（1）將7×7×30 的特征圖輸入到空間注意力模塊［4］。

（2）對(duì)特征圖進(jìn)行全局平均池化（global average pooling， GAP）和全局最大池化（global max pooling，GMP），得到兩個(gè)1×1×30 的特征向量［5-6］。

（3）將兩個(gè)特征向量沿通道維度拼接，得到1×1×60的向量。

（4）創(chuàng)建一個(gè)1×1 的卷積層，輸入通道數(shù)為60，輸出通道數(shù)為1，將拼接后的向量作為輸入，卷積后得到一個(gè)1×1×1 的輸出張量，使用Sigmoid 激活函數(shù)對(duì)其進(jìn)行激活，得到1×1×1 的輸出張量。將輸出張量通過(guò)重復(fù)復(fù)制操作，將其擴(kuò)展為1×7×7 的空間注意力權(quán)重。

（5）將空間注意力權(quán)重與原始特征圖（7×7×30）進(jìn)行逐元素相乘，得到7×7×30 的加權(quán)特征圖。

該注意力機(jī)制模塊計(jì)算輸入特征圖的權(quán)重分布，其功能實(shí)現(xiàn)的偽代碼如表1 所示，通過(guò)將權(quán)重與原始特征圖相乘，從而實(shí)現(xiàn)特征圖可以更加關(guān)注重點(diǎn)區(qū)域。引入空間注意力機(jī)制后，模型將更關(guān)注人流量較大區(qū)域的特征信息，減少誤檢和漏檢。

表1 改進(jìn)功能實(shí)現(xiàn)的偽代碼表

基于YOLOv1 模型，在卷積層之后插入空間注意力模塊。使用一個(gè)1×1 卷積層將特征圖的通道數(shù)壓縮到低維度，再通過(guò)全局平均池化和全局最大池化的操作去更新并計(jì)算其空間權(quán)重。將這兩個(gè)權(quán)重疊加并使用Sigmoid 激活函數(shù)進(jìn)行歸一化操作。將計(jì)算得到的空間權(quán)重與原始特征圖相乘，得到加權(quán)后的特征圖。如表1 所示。

本文改進(jìn)方法的創(chuàng)新之處在于將空間注意力機(jī)制引入基于YOLOv1 人體檢測(cè)模型中，使模型能夠更關(guān)注人流量較大的區(qū)域，從而提高檢測(cè)準(zhǔn)確性和魯棒性，并且希望該模型可以在較高幀率下運(yùn)行，符合監(jiān)控視頻的幀率要求。在引入CBAM 模塊的過(guò)程中需要注意以下問(wèn)題。

（1）選擇合適的空間注意力模塊，以便在保持實(shí)時(shí)性能的同時(shí)提高模型性能。

（2）在訓(xùn)練過(guò)程中，需要選擇合適的超參數(shù)，如學(xué)習(xí)率和權(quán)重衰減，以防止過(guò)擬合和欠擬合現(xiàn)象［7］。

（3）在實(shí)際人流量統(tǒng)計(jì)應(yīng)用中，需要注意不同場(chǎng)景和攝像頭角度對(duì)模型性能的影響，有針對(duì)性地進(jìn)行數(shù)據(jù)增強(qiáng)和模型調(diào)整。

2 模型的改進(jìn)與處理

2.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

2.1.1 數(shù)據(jù)集

本文使用呼和浩特職業(yè)學(xué)院多處體育場(chǎng)所主要入口處的攝像頭所獲取的視頻像（幀率為30fps）以及Pascal VOC 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。將呼和浩特職業(yè)學(xué)院多處體育場(chǎng)所主要入口處的攝像頭所獲取的視頻圖像逐幀拆解為圖片，經(jīng)過(guò)篩選獲得2000 張帶有清晰人像照片并進(jìn)行人工標(biāo)注，結(jié)合Pascal VOC 數(shù)據(jù)集進(jìn)行篩選，共計(jì)獲得4500 張圖片和標(biāo)簽，并將圖片數(shù)據(jù)集全部處理為448*448*3 的RGB 圖像，以此為基礎(chǔ)從而整理數(shù)據(jù)集進(jìn)行模型訓(xùn)練。

2.1.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)過(guò)程中的軟硬件配置如表2 所示：

表2 實(shí)驗(yàn)環(huán)境配置表

在訓(xùn)練過(guò)程中，CPU 為1 個(gè)intel Xeon 至強(qiáng)鉑金8276 2.2 G 主頻28 核56 線程，顯卡為4 塊顯存為11GB 的NVIDIA GEForce RTX1080Ti，操作系統(tǒng)為Ubuntu18.04，使用的語(yǔ)言為Python3.6，使用的深度學(xué)習(xí)接口為Pytorch-GPU 的1.7.0 版本［8］。如表2 所示。

2.2 實(shí)驗(yàn)結(jié)果與評(píng)估

引入空間注意力機(jī)制后，損失函數(shù)不需要進(jìn)行特殊修改。繼續(xù)使用YOLOv1 的原始損失函數(shù)，如式（1）所示，即包含邊界框坐標(biāo)回歸、目標(biāo)置信度和類(lèi)別概率的損失，式中的i代表所屬單元格，λcoord代表位置損失的權(quán)重調(diào)節(jié)，其中判別第i個(gè)單元格中的第j個(gè)標(biāo)注框是否負(fù)責(zé)這個(gè)類(lèi)別的檢，noobj代表未檢測(cè)到所負(fù)責(zé)的真實(shí)物體，代表檢測(cè)到了其所負(fù)責(zé)的真實(shí)物體，classes代表目標(biāo)分類(lèi)。在訓(xùn)練過(guò)程中，損失函數(shù)會(huì)同時(shí)優(yōu)化注意力權(quán)重和其他參數(shù)［9］。

實(shí)驗(yàn)結(jié)果的改進(jìn)通過(guò)平均準(zhǔn)確率和召回率（Recall）來(lái)量化，其對(duì)比提升如表3 所示：

表3 改進(jìn)前后算法指標(biāo)對(duì)比表

平均準(zhǔn)確率（average precision， AP）用于評(píng)估模型在不同召回率水平下的性能。引入空間注意力機(jī)制后，通過(guò)計(jì)算每個(gè)召回率水平下的精確率，并對(duì)其取平均值，平均準(zhǔn)確率得以提高。其中n表示召回率水平的數(shù)量，P（Ri）表示在第i個(gè)召回率水平時(shí)的精確率，ΔRi為召回率水平的變化量。

召回率（Recall）是衡量模型對(duì)正例樣本識(shí)別能力的指標(biāo)。其中，TP表示真正例，F(xiàn)N表示真負(fù)例。在引入空間注意力機(jī)制后，召回率有所提高，表示模型更能捕捉到人體目標(biāo)的重要特征。

實(shí)驗(yàn)結(jié)果中，改進(jìn)后的模型在平均準(zhǔn)確率和召回率上分別提高了3.5%和5%，但是由于增加了空間注意力模塊，其運(yùn)行的幀率相較YOLOv1 所能運(yùn)行的幀率有所下降，為了模型在實(shí)際運(yùn)行中的流暢度，調(diào)整為30 幀/s。通過(guò)改進(jìn)，如圖3 所示，可以更直觀地看到在人體識(shí)別中，置信度有較大提升，其中左圖為YOLOv1 模型運(yùn)行后的結(jié)果，右圖為改進(jìn)后模型運(yùn)行的結(jié)果。結(jié)合指標(biāo)對(duì)比可以看出，該模型可以適應(yīng)性地關(guān)注感興趣區(qū)域，而YOLOv1 更可能關(guān)注較多的區(qū)域，所以該模型較YOLOv1 能夠更準(zhǔn)確地預(yù)測(cè)人體位置和姿態(tài)，從而為在各體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)中的潛在應(yīng)用提供了更精確的數(shù)據(jù)支持。這些實(shí)驗(yàn)結(jié)果為在各體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)中的潛在應(yīng)用提供了有力的理論和實(shí)證基礎(chǔ)。

圖3 改進(jìn)前后效果對(duì)比圖

2.3 模型在體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)中的應(yīng)用

改進(jìn)后的人體檢測(cè)模型在體育場(chǎng)所人流量預(yù)測(cè)中具有廣泛的應(yīng)用前景。該模型可以實(shí)現(xiàn)智能排課和各體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)的功能，后續(xù)將會(huì)對(duì)該模型制作對(duì)應(yīng)的客戶端，方便教師們的日常使用，從而為體育場(chǎng)所人流量預(yù)測(cè)提供強(qiáng)有力的數(shù)據(jù)支持和決策依據(jù)。這些應(yīng)用將在以下兩方面產(chǎn)生積極影響。

（1）通過(guò)分析人流量的分布情況和高峰期的發(fā)生時(shí)間，可以合理安排課程，優(yōu)化資源利用，減少教學(xué)場(chǎng)地的空閑時(shí)間，提高教學(xué)效率和資源利用率。

（2）在體育賽事和大型活動(dòng)中，改進(jìn)后的人體檢測(cè)模型也可以發(fā)揮重要作用。通過(guò)實(shí)時(shí)監(jiān)測(cè)人流量和密度，從而幫助相關(guān)部門(mén)制定合理的安全措施和疏散計(jì)劃。

3 結(jié)語(yǔ)

綜上所述，本文在YOLOv1 的基礎(chǔ)上，通過(guò)引入空間注意力機(jī)制，使模型能夠更關(guān)注人流量較大的區(qū)域，從而提高人體檢測(cè)的準(zhǔn)確性。與前人研究相比，本研究在模型性能上取得了部分提升，改進(jìn)后的模型在平均準(zhǔn)確率和召回率上分別提高了3.5%和5%，驗(yàn)證了空間注意力機(jī)制在基于YOLOv1 的人體檢測(cè)任務(wù)中具有一定的性能提升作用，實(shí)現(xiàn)了對(duì)前人研究成果的修正和補(bǔ)充。同時(shí)為體育場(chǎng)所人流量預(yù)測(cè)領(lǐng)域的實(shí)際智能化應(yīng)用發(fā)展提供了技術(shù)支持，也為提高空置體育場(chǎng)地的利用率和領(lǐng)導(dǎo)的決策質(zhì)量提供有效參考。