顏冰 劉佳慶 池強(qiáng)
關(guān)鍵詞:模式識(shí)別;神經(jīng)網(wǎng)絡(luò);人群計(jì)數(shù);YOLOv3;計(jì)算機(jī)視覺
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)03-0030-04
1 概述
隨著機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)的發(fā)展,人們對(duì)視頻監(jiān)控的智能化水平的需求逐步提高,其中的人群自動(dòng)計(jì)數(shù)有著重要的社會(huì)意義和市場(chǎng)應(yīng)用前景,如公共安全、應(yīng)急疏散等領(lǐng)域[1-2]。本文主要針對(duì)教室人群的精確檢測(cè)統(tǒng)計(jì)問題,在YOLOv3[8]檢測(cè)框架下展開研究,為室內(nèi)人群智能化監(jiān)控提供支持。檢測(cè)場(chǎng)景設(shè)定為室內(nèi)人群,以教室和會(huì)議室人員檢測(cè)統(tǒng)計(jì)為應(yīng)用背景,該場(chǎng)所決定了場(chǎng)景中的人的行為大多時(shí)間都為坐著,導(dǎo)致檢測(cè)目標(biāo)的身體大部分都是處于桌椅或周圍人群的遮擋,對(duì)目標(biāo)全身輪廓檢測(cè)產(chǎn)生不考慮。除此之外,被大量使用的人臉檢測(cè)也由于學(xué)生在教室學(xué)習(xí)時(shí)存在低頭狀態(tài)導(dǎo)致人臉識(shí)別困難,以及攝像機(jī)對(duì)目標(biāo)的遠(yuǎn)距離采集特征不足,而造成漏檢、精度低問題始終存在,同時(shí)訓(xùn)練時(shí)由于背景噪聲而產(chǎn)生的負(fù)樣本影響,使得依賴人臉和輪廓檢測(cè)技術(shù)來實(shí)現(xiàn)人數(shù)統(tǒng)計(jì)得到的結(jié)果效果并不是很好。
鑒于在標(biāo)注目標(biāo)時(shí)對(duì)可能在檢測(cè)時(shí)因?yàn)槲矬w等遮擋造成加大漏檢率的情況,本文采用具有較好魯棒性的人頭作為檢測(cè)對(duì)象,通過改進(jìn)YOLOv3的錨點(diǎn)(Anchor)參數(shù)更新、目標(biāo)真實(shí)邊界框和模型預(yù)測(cè)框的交并比(In?tersection over Union, IoU) ,并將批量歸一化(Batch Nor?malization, BN) 層參數(shù)合并到卷積層以改進(jìn)人頭的精確檢測(cè),從而達(dá)到室內(nèi)人群精確檢測(cè)統(tǒng)計(jì)的目的。
2 YOLO 框架與改進(jìn)
2.1 YOLO v3檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv3對(duì)輸入的圖片處理與卷積神經(jīng)網(wǎng)絡(luò)不同的是將圖片整體進(jìn)行輸入,不需要對(duì)目標(biāo)進(jìn)行分割處理,通過這種方式加快了檢測(cè)的速度,在YOLO-v3中網(wǎng)絡(luò)將輸入的圖片下采樣到第一檢測(cè)層,在該檢測(cè)層中檢測(cè)使用步長(zhǎng)為32的層的特征映射。
在YOLOv3中引入了殘差(ResNet) [4]作為主干網(wǎng)絡(luò)結(jié)構(gòu)(Darknet-53) 的部分,在殘差網(wǎng)絡(luò)中通過使用網(wǎng)中網(wǎng)結(jié)構(gòu)[5],使網(wǎng)絡(luò)在卷積的計(jì)算過程中減少通道數(shù)和參數(shù)以及模型的體積。該模型采用5個(gè)下采樣層,設(shè)置每次采樣的步長(zhǎng)為2,結(jié)構(gòu)如圖1所示。
2.2 聚類Anchor 參數(shù)更新
YOLO在對(duì)輸入圖像目標(biāo)進(jìn)行檢測(cè)時(shí)預(yù)測(cè)3種尺度的Anchor,通過對(duì)不相同尺寸輸入處理,使之變?yōu)橄嗤叽绲妮敵觯瑢?duì)所標(biāo)記的圖片中不同大小的目標(biāo)進(jìn)行計(jì)算得到最適合Anchor的值。
為此,本文基于聚類思想,設(shè)計(jì)Anchor參數(shù)更新方法。為提高效率,選擇無監(jiān)督學(xué)習(xí)典型算法kmeans作為聚類算法,在聚類時(shí),使用歐式距離公式或曼哈頓公式進(jìn)行計(jì)算距離,分別定義為:
3 訓(xùn)練與測(cè)試
3.1 數(shù)據(jù)準(zhǔn)備
實(shí)驗(yàn)數(shù)據(jù)主要來自普通監(jiān)控?cái)z像機(jī)采集,同時(shí)從網(wǎng)絡(luò)中收集、篩選并進(jìn)行適當(dāng)處理后的教室環(huán)境中的圖片,它們具有不同的對(duì)象姿勢(shì)、光亮、角度與像素,從而豐富數(shù)據(jù)集。驗(yàn)證數(shù)據(jù)集、測(cè)試數(shù)據(jù)分別由120、30張樣本組成實(shí)驗(yàn)驗(yàn)證主要針對(duì)教室人群的精確檢測(cè)統(tǒng)計(jì),所以訓(xùn)練數(shù)據(jù)集通過對(duì)同一教室不同時(shí)間段、不同坐姿、站姿等行為進(jìn)行采集的圖像數(shù)據(jù)構(gòu)成,使用上文提出的算法進(jìn)行訓(xùn)練從而得到特征模型分別在不同的測(cè)試數(shù)據(jù)集上進(jìn)行測(cè)試,測(cè)試結(jié)果對(duì)訓(xùn)練時(shí)的參數(shù)進(jìn)行更改選擇使其達(dá)到模型最優(yōu)化。
在圖片的預(yù)處理過程中,為了增加網(wǎng)絡(luò)的魯棒性進(jìn)行了以下處理方式:縮放、色彩調(diào)節(jié)、反轉(zhuǎn)等圖片處理,在數(shù)據(jù)增強(qiáng)上通過在線增強(qiáng)使用了隨機(jī)翻轉(zhuǎn)、隨機(jī)剪裁、隨機(jī)旋轉(zhuǎn)、顏色抖動(dòng)等處理方法來達(dá)到樣本的擴(kuò)充從而增大訓(xùn)練的數(shù)據(jù)量。
實(shí)驗(yàn)中對(duì)教室現(xiàn)場(chǎng)環(huán)境(Identify the scene, ITS)分別取不同的時(shí)間段、學(xué)生姿勢(shì)將其分為6類,分別記為:C1(早晨)、C2(中午)、C3(晚上)、C4(上課)、C5(下課)、C6(自習(xí)),C1、C2、C3圖片的時(shí)間狀態(tài)均處于上課狀態(tài),C4、C5、C6樣本背景均處于普通光強(qiáng),每類測(cè)試樣本為5張。
3.2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)主要在普通PC機(jī)上完成,基本配置包括:Windows 10系統(tǒng),i5處理器,顯卡為NVIDIA GeForceGTX 1060(顯存6G) ,16G運(yùn)行內(nèi)存,對(duì)YOLO-V3的訓(xùn)練使用Darknet-53框架,配置CUDA9.0和CUDNN7.0進(jìn)行加速計(jì)算。部分測(cè)試數(shù)據(jù)如圖2所示。
3.3 實(shí)驗(yàn)結(jié)果及分析
3.3.1 訓(xùn)練參數(shù)優(yōu)化及預(yù)測(cè)精度值分析
在學(xué)習(xí)率(Learning rate, LR) 訓(xùn)練選擇上,所選的學(xué)習(xí)率分別為0.010、0.009、0.007、0.005、0.003、0.001,對(duì)應(yīng)的1200張訓(xùn)練樣本模型的預(yù)測(cè)估計(jì)概率值(Esti?mated probability of prediction, EPP) 和真實(shí)預(yù)測(cè)值(True prediction probability, TPP) 如圖4和表1所示。
由表1與圖4可以看出,預(yù)測(cè)概率估計(jì)值和真實(shí)概率估計(jì)值隨著學(xué)習(xí)率的改變先增大后減小,當(dāng)學(xué)習(xí)率小于0.01時(shí),學(xué)習(xí)率的減小,使得訓(xùn)練產(chǎn)生的模型的預(yù)測(cè)概率估計(jì)值與識(shí)別準(zhǔn)確率均有明顯的增大趨勢(shì)。當(dāng)學(xué)習(xí)率為0.007 時(shí),真實(shí)預(yù)測(cè)值達(dá)到最大為0.94。在越過此點(diǎn)后當(dāng)學(xué)習(xí)率從0.007減小到0.001的整個(gè)過程中,預(yù)測(cè)概率估計(jì)值處于0.90附近,真實(shí)預(yù)測(cè)值處于0.92左右,此時(shí)的學(xué)習(xí)率的變化對(duì)上述兩個(gè)性能指標(biāo)的影響較小。當(dāng)學(xué)習(xí)率從0.007 減小到0.001時(shí),預(yù)測(cè)概率估計(jì)值先上升至最大點(diǎn)后下降,真實(shí)預(yù)測(cè)值隨著學(xué)習(xí)率的變小而下降。
綜上分析可以得出結(jié)論,當(dāng)學(xué)習(xí)率設(shè)為0.007時(shí),對(duì)訓(xùn)練產(chǎn)生的模型具有較好的預(yù)測(cè)表現(xiàn)能力,在使用時(shí)可以選擇此學(xué)習(xí)率作為經(jīng)驗(yàn)值。
3.3.2 不同迭代次數(shù)下的模型預(yù)測(cè)精度
本次實(shí)驗(yàn)針對(duì)訓(xùn)練的1200個(gè)樣本,設(shè)置了8種訓(xùn)練的迭代次數(shù),由上一節(jié)的學(xué)習(xí)率分析可知,學(xué)習(xí)率的最佳選擇為0.007,迭代次數(shù)(iterations) 、改進(jìn)前預(yù)測(cè)值(Prediction before improvement, PBI)、改進(jìn)后預(yù)測(cè)值(Improved predictive value, IPV)和關(guān)系如表2所示,改進(jìn)前預(yù)測(cè)值和改進(jìn)后預(yù)測(cè)值與迭代次數(shù)變化趨勢(shì)如圖5所示。
可以看出,在訓(xùn)練的整個(gè)過程中,在訓(xùn)練過程中預(yù)測(cè)值均呈上升趨勢(shì),其中改進(jìn)后的模型預(yù)測(cè)值上升速度較快,改進(jìn)前模型的預(yù)測(cè)值上升速度較為緩慢,如圖5所示,當(dāng)?shù)螖?shù)為16000時(shí),預(yù)測(cè)值最高,兩個(gè)模型結(jié)果分別為0.94、0.97,由此可知,改進(jìn)后模型在訓(xùn)練時(shí)的預(yù)測(cè)值明顯優(yōu)于未參加改進(jìn)的模型。
3.3.3 不同場(chǎng)景識(shí)別性能
在前兩節(jié)通過對(duì)學(xué)習(xí)率和迭代次數(shù)的分析過程中,得到了較好的模型,本節(jié)實(shí)驗(yàn)內(nèi)容主要包括模型對(duì)上述不同場(chǎng)景的實(shí)驗(yàn)?zāi)P偷臏y(cè)試。所選學(xué)習(xí)率為0.007,迭代次數(shù)為16000次,表3表示模型對(duì)6類不同場(chǎng)景下測(cè)試數(shù)據(jù)的識(shí)別誤差(Number of recognition er?rors, NORE) 與單圖識(shí)別時(shí)間(Single graph identifica?tion time, SGIT)關(guān)系。
由表3可以看出由于遮擋(低頭狀態(tài)或背影)、環(huán)境等造成的漏檢問題,該模型在檢測(cè)圖片中C4(上課)的識(shí)別誤差明顯低于其他狀態(tài),這是因?yàn)閷W(xué)生在上課時(shí)保持抬頭姿勢(shì)便于識(shí)別,處于C2(中午)和C6(自習(xí))的識(shí)別誤差較高,這是因?yàn)镃2(中午)時(shí)間受光源影響,在光照較強(qiáng)情況下的識(shí)別誤差高于普通光照(C1、C3) 的誤差,C5(下課)和C6(自習(xí))時(shí)學(xué)生處于低頭、站立、走動(dòng)、聚集聊天等狀態(tài)下容易造成目標(biāo)間的遮擋問題,使得識(shí)別誤差大。由實(shí)驗(yàn)識(shí)別的時(shí)間可以看出該檢測(cè)模型能夠滿足實(shí)時(shí)檢測(cè)應(yīng)用需求。
4 結(jié)束語
本文所提方法通過使用聚類算法對(duì)Anchor的設(shè)定使網(wǎng)絡(luò)可使用符合室內(nèi)人群數(shù)據(jù)集特征的參數(shù),同時(shí)采用基于G-IoU進(jìn)行邊界框的優(yōu)化方式加大網(wǎng)絡(luò)模型的適應(yīng)力和表現(xiàn)力,使得網(wǎng)絡(luò)在處理應(yīng)對(duì)具有特定室內(nèi)場(chǎng)景圖像數(shù)據(jù)時(shí),可以有較好的性能,在室內(nèi)人群檢測(cè)統(tǒng)計(jì)任務(wù)中性能優(yōu)于原有算法,可以為室內(nèi)人群精準(zhǔn)檢測(cè)和識(shí)別等智能監(jiān)控應(yīng)用提供參考。