韓 霏
(呼和浩特職業(yè)學(xué)院 內(nèi)蒙古 呼和浩特 010070)
隨著科技的發(fā)展,人體檢測(cè)技術(shù)在各個(gè)領(lǐng)域已經(jīng)得到廣泛應(yīng)用,尤其是深度學(xué)習(xí)的目標(biāo)檢測(cè)算法(you only look once,YOLO)系列已經(jīng)在各領(lǐng)域中表現(xiàn)出了優(yōu)異的性能。但在處理復(fù)雜場(chǎng)景和大量目標(biāo)時(shí),目標(biāo)檢測(cè)算法(you only look once:unified, real-time object detection, YOLOv1)仍存在局限性。 為了解決這些問(wèn)題,本文提出了一種基于空間注意力機(jī)制的人體檢測(cè)技術(shù)改進(jìn)方法。
空間注意力機(jī)制已經(jīng)在其他計(jì)算機(jī)視覺(jué)任務(wù)中取得了一定成果,通過(guò)對(duì)比YOLOv1 和改進(jìn)模型在人體檢測(cè)任務(wù)上的性能,本文旨在驗(yàn)證改進(jìn)方法的有效性。 同時(shí),結(jié)合呼和浩特職業(yè)學(xué)院的體育實(shí)踐具體情況,進(jìn)一步探討基于空間注意力機(jī)制的人體檢測(cè)技術(shù)改進(jìn)方法在各體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)中的潛在應(yīng)用。
YOLOv1 是一種實(shí)時(shí)目標(biāo)檢測(cè)算法,它將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)化為回歸問(wèn)題,通過(guò)單次前向傳播實(shí)現(xiàn)目標(biāo)檢測(cè)。YOLOv1 將輸入圖像劃分為S×S 的網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)B 個(gè)邊界框及其置信度[1],以及C 個(gè)類(lèi)別概率,YOLOv1的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。
圖1 YOLOv1 的網(wǎng)絡(luò)模型結(jié)構(gòu)圖
YOLOv1 具有較高的實(shí)時(shí)性能和較低的誤檢率[2]。但是,它對(duì)于小目標(biāo)和密集排列的目標(biāo)檢測(cè)效果較差,且不能很好地處理遮擋情況。
1.2.1 基本概念與原理
空間注意力機(jī)制是一種動(dòng)態(tài)調(diào)整卷積神經(jīng)和網(wǎng)絡(luò)特征圖權(quán)重分布的機(jī)制,它能夠使模型關(guān)注重點(diǎn)區(qū)域,從而提高檢測(cè)模型的性能。 通過(guò)空間注意力機(jī)制可以將這些權(quán)重與原始特征圖相乘,從而更改特征圖特定區(qū)域的權(quán)重比例。
1.2.2 空間注意力機(jī)制的應(yīng)用
注意力機(jī)制包含空間注意力機(jī)制以及通道注意力機(jī)制,在人體檢測(cè)技術(shù)中更加關(guān)注空間注意力機(jī)制,空間注意力機(jī)制被廣泛應(yīng)用于目標(biāo)檢測(cè)任務(wù),如行人重識(shí)別[3]、車(chē)間人員檢測(cè)以及交通標(biāo)志識(shí)別。 引入空間注意力機(jī)制后,模型可以更加關(guān)注目標(biāo)所在的重點(diǎn)區(qū)域,從而提高檢測(cè)準(zhǔn)確性以及魯棒性。
1.3.1 注意力機(jī)制模塊的引入
在YOLOv1 的基礎(chǔ)上,引入空間注意力機(jī)制設(shè)計(jì)一個(gè)空間注意力模塊(convolutional block attention module,CBAM)。 CBAM 模塊包含兩個(gè)部分:通道注意力模塊和空間注意力模塊。 在人體檢測(cè)模型的過(guò)程中,只需添加空間注意力模塊,具體結(jié)構(gòu)如圖2 所示。
圖2 引入注意力模型網(wǎng)絡(luò)圖
添加空間注意力模塊步驟可總結(jié)如下:
(1)將7×7×30 的特征圖輸入到空間注意力模塊[4]。
(2) 對(duì)特征圖進(jìn)行全局平均池化(global average pooling, GAP) 和全局最大池化(global max pooling,GMP),得到兩個(gè)1×1×30 的特征向量[5-6]。
(3)將兩個(gè)特征向量沿通道維度拼接,得到1×1×60的向量。
(4)創(chuàng)建一個(gè)1×1 的卷積層,輸入通道數(shù)為60,輸出通道數(shù)為1,將拼接后的向量作為輸入,卷積后得到一個(gè)1×1×1 的輸出張量,使用Sigmoid 激活函數(shù)對(duì)其進(jìn)行激活,得到1×1×1 的輸出張量。 將輸出張量通過(guò)重復(fù)復(fù)制操作,將其擴(kuò)展為1×7×7 的空間注意力權(quán)重。
(5)將空間注意力權(quán)重與原始特征圖(7×7×30)進(jìn)行逐元素相乘,得到7×7×30 的加權(quán)特征圖。
該注意力機(jī)制模塊計(jì)算輸入特征圖的權(quán)重分布,其功能實(shí)現(xiàn)的偽代碼如表1 所示,通過(guò)將權(quán)重與原始特征圖相乘,從而實(shí)現(xiàn)特征圖可以更加關(guān)注重點(diǎn)區(qū)域。 引入空間注意力機(jī)制后,模型將更關(guān)注人流量較大區(qū)域的特征信息,減少誤檢和漏檢。
表1 改進(jìn)功能實(shí)現(xiàn)的偽代碼表
基于YOLOv1 模型,在卷積層之后插入空間注意力模塊。 使用一個(gè)1×1 卷積層將特征圖的通道數(shù)壓縮到低維度,再通過(guò)全局平均池化和全局最大池化的操作去更新并計(jì)算其空間權(quán)重。 將這兩個(gè)權(quán)重疊加并使用Sigmoid 激活函數(shù)進(jìn)行歸一化操作。 將計(jì)算得到的空間權(quán)重與原始特征圖相乘,得到加權(quán)后的特征圖。 如表1 所示。
本文改進(jìn)方法的創(chuàng)新之處在于將空間注意力機(jī)制引入基于YOLOv1 人體檢測(cè)模型中,使模型能夠更關(guān)注人流量較大的區(qū)域,從而提高檢測(cè)準(zhǔn)確性和魯棒性,并且希望該模型可以在較高幀率下運(yùn)行,符合監(jiān)控視頻的幀率要求。 在引入CBAM 模塊的過(guò)程中需要注意以下問(wèn)題。
(1)選擇合適的空間注意力模塊,以便在保持實(shí)時(shí)性能的同時(shí)提高模型性能。
(2)在訓(xùn)練過(guò)程中,需要選擇合適的超參數(shù),如學(xué)習(xí)率和權(quán)重衰減,以防止過(guò)擬合和欠擬合現(xiàn)象[7]。
(3)在實(shí)際人流量統(tǒng)計(jì)應(yīng)用中,需要注意不同場(chǎng)景和攝像頭角度對(duì)模型性能的影響,有針對(duì)性地進(jìn)行數(shù)據(jù)增強(qiáng)和模型調(diào)整。
2.1.1 數(shù)據(jù)集
本文使用呼和浩特職業(yè)學(xué)院多處體育場(chǎng)所主要入口處的攝像頭所獲取的視頻像(幀率為30fps)以及Pascal VOC 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。 將呼和浩特職業(yè)學(xué)院多處體育場(chǎng)所主要入口處的攝像頭所獲取的視頻圖像逐幀拆解為圖片,經(jīng)過(guò)篩選獲得2000 張帶有清晰人像照片并進(jìn)行人工標(biāo)注,結(jié)合Pascal VOC 數(shù)據(jù)集進(jìn)行篩選,共計(jì)獲得4500 張圖片和標(biāo)簽,并將圖片數(shù)據(jù)集全部處理為448*448*3 的RGB 圖像,以此為基礎(chǔ)從而整理數(shù)據(jù)集進(jìn)行模型訓(xùn)練。
2.1.2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)過(guò)程中的軟硬件配置如表2 所示:
表2 實(shí)驗(yàn)環(huán)境配置表
在訓(xùn)練過(guò)程中,CPU 為1 個(gè)intel Xeon 至強(qiáng)鉑金8276 2.2 G 主頻28 核56 線程,顯卡為4 塊顯存為11GB 的NVIDIA GEForce RTX1080Ti,操作系統(tǒng)為Ubuntu18.04,使用的語(yǔ)言為Python3.6,使用的深度學(xué)習(xí)接口為Pytorch-GPU 的1.7.0 版本[8]。 如表2 所示。
引入空間注意力機(jī)制后,損失函數(shù)不需要進(jìn)行特殊修改。 繼續(xù)使用YOLOv1 的原始損失函數(shù),如式(1)所示,即包含邊界框坐標(biāo)回歸、目標(biāo)置信度和類(lèi)別概率的損失,式中的i代表所屬單元格,λcoord代表位置損失的權(quán)重調(diào)節(jié),其中判別第i個(gè)單元格中的第j個(gè)標(biāo)注框是否負(fù)責(zé)這個(gè)類(lèi)別的檢,noobj代表未檢測(cè)到所負(fù)責(zé)的真實(shí)物體,代表檢測(cè)到了其所負(fù)責(zé)的真實(shí)物體,classes代表目標(biāo)分類(lèi)。 在訓(xùn)練過(guò)程中,損失函數(shù)會(huì)同時(shí)優(yōu)化注意力權(quán)重和其他參數(shù)[9]。
實(shí)驗(yàn)結(jié)果的改進(jìn)通過(guò)平均準(zhǔn)確率和召回率(Recall)來(lái)量化,其對(duì)比提升如表3 所示:
表3 改進(jìn)前后算法指標(biāo)對(duì)比表
平均準(zhǔn)確率(average precision, AP)用于評(píng)估模型在不同召回率水平下的性能。 引入空間注意力機(jī)制后,通過(guò)計(jì)算每個(gè)召回率水平下的精確率,并對(duì)其取平均值,平均準(zhǔn)確率得以提高。 其中n表示召回率水平的數(shù)量,P(Ri)表示在第i個(gè)召回率水平時(shí)的精確率,ΔRi為召回率水平的變化量。
召回率(Recall)是衡量模型對(duì)正例樣本識(shí)別能力的指標(biāo)。 其中,TP表示真正例,F(xiàn)N表示真負(fù)例。 在引入空間注意力機(jī)制后,召回率有所提高,表示模型更能捕捉到人體目標(biāo)的重要特征。
實(shí)驗(yàn)結(jié)果中,改進(jìn)后的模型在平均準(zhǔn)確率和召回率上分別提高了3.5%和5%,但是由于增加了空間注意力模塊,其運(yùn)行的幀率相較YOLOv1 所能運(yùn)行的幀率有所下降,為了模型在實(shí)際運(yùn)行中的流暢度,調(diào)整為30 幀/s。 通過(guò)改進(jìn),如圖3 所示,可以更直觀地看到在人體識(shí)別中,置信度有較大提升,其中左圖為YOLOv1 模型運(yùn)行后的結(jié)果,右圖為改進(jìn)后模型運(yùn)行的結(jié)果。 結(jié)合指標(biāo)對(duì)比可以看出,該模型可以適應(yīng)性地關(guān)注感興趣區(qū)域,而YOLOv1 更可能關(guān)注較多的區(qū)域,所以該模型較YOLOv1 能夠更準(zhǔn)確地預(yù)測(cè)人體位置和姿態(tài),從而為在各體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)中的潛在應(yīng)用提供了更精確的數(shù)據(jù)支持。 這些實(shí)驗(yàn)結(jié)果為在各體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)中的潛在應(yīng)用提供了有力的理論和實(shí)證基礎(chǔ)。
圖3 改進(jìn)前后效果對(duì)比圖
改進(jìn)后的人體檢測(cè)模型在體育場(chǎng)所人流量預(yù)測(cè)中具有廣泛的應(yīng)用前景。 該模型可以實(shí)現(xiàn)智能排課和各體育場(chǎng)所人流量預(yù)測(cè)統(tǒng)計(jì)的功能,后續(xù)將會(huì)對(duì)該模型制作對(duì)應(yīng)的客戶端,方便教師們的日常使用,從而為體育場(chǎng)所人流量預(yù)測(cè)提供強(qiáng)有力的數(shù)據(jù)支持和決策依據(jù)。 這些應(yīng)用將在以下兩方面產(chǎn)生積極影響。
(1)通過(guò)分析人流量的分布情況和高峰期的發(fā)生時(shí)間,可以合理安排課程,優(yōu)化資源利用,減少教學(xué)場(chǎng)地的空閑時(shí)間,提高教學(xué)效率和資源利用率。
(2)在體育賽事和大型活動(dòng)中,改進(jìn)后的人體檢測(cè)模型也可以發(fā)揮重要作用。 通過(guò)實(shí)時(shí)監(jiān)測(cè)人流量和密度,從而幫助相關(guān)部門(mén)制定合理的安全措施和疏散計(jì)劃。
綜上所述,本文在YOLOv1 的基礎(chǔ)上,通過(guò)引入空間注意力機(jī)制,使模型能夠更關(guān)注人流量較大的區(qū)域,從而提高人體檢測(cè)的準(zhǔn)確性。 與前人研究相比,本研究在模型性能上取得了部分提升,改進(jìn)后的模型在平均準(zhǔn)確率和召回率上分別提高了3.5%和5%,驗(yàn)證了空間注意力機(jī)制在基于YOLOv1 的人體檢測(cè)任務(wù)中具有一定的性能提升作用,實(shí)現(xiàn)了對(duì)前人研究成果的修正和補(bǔ)充。 同時(shí)為體育場(chǎng)所人流量預(yù)測(cè)領(lǐng)域的實(shí)際智能化應(yīng)用發(fā)展提供了技術(shù)支持,也為提高空置體育場(chǎng)地的利用率和領(lǐng)導(dǎo)的決策質(zhì)量提供有效參考。