顏冰 劉佳慶 池強
關(guān)鍵詞:模式識別;神經(jīng)網(wǎng)絡(luò);人群計數(shù);YOLOv3;計算機視覺
中圖分類號:TP391.4 文獻標識碼:A
文章編號:1009-3044(2023)03-0030-04
1 概述
隨著機器學習和計算機視覺技術(shù)的發(fā)展,人們對視頻監(jiān)控的智能化水平的需求逐步提高,其中的人群自動計數(shù)有著重要的社會意義和市場應用前景,如公共安全、應急疏散等領(lǐng)域[1-2]。本文主要針對教室人群的精確檢測統(tǒng)計問題,在YOLOv3[8]檢測框架下展開研究,為室內(nèi)人群智能化監(jiān)控提供支持。檢測場景設(shè)定為室內(nèi)人群,以教室和會議室人員檢測統(tǒng)計為應用背景,該場所決定了場景中的人的行為大多時間都為坐著,導致檢測目標的身體大部分都是處于桌椅或周圍人群的遮擋,對目標全身輪廓檢測產(chǎn)生不考慮。除此之外,被大量使用的人臉檢測也由于學生在教室學習時存在低頭狀態(tài)導致人臉識別困難,以及攝像機對目標的遠距離采集特征不足,而造成漏檢、精度低問題始終存在,同時訓練時由于背景噪聲而產(chǎn)生的負樣本影響,使得依賴人臉和輪廓檢測技術(shù)來實現(xiàn)人數(shù)統(tǒng)計得到的結(jié)果效果并不是很好。
鑒于在標注目標時對可能在檢測時因為物體等遮擋造成加大漏檢率的情況,本文采用具有較好魯棒性的人頭作為檢測對象,通過改進YOLOv3的錨點(Anchor)參數(shù)更新、目標真實邊界框和模型預測框的交并比(In?tersection over Union, IoU) ,并將批量歸一化(Batch Nor?malization, BN) 層參數(shù)合并到卷積層以改進人頭的精確檢測,從而達到室內(nèi)人群精確檢測統(tǒng)計的目的。
2 YOLO 框架與改進
2.1 YOLO v3檢測網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv3對輸入的圖片處理與卷積神經(jīng)網(wǎng)絡(luò)不同的是將圖片整體進行輸入,不需要對目標進行分割處理,通過這種方式加快了檢測的速度,在YOLO-v3中網(wǎng)絡(luò)將輸入的圖片下采樣到第一檢測層,在該檢測層中檢測使用步長為32的層的特征映射。
在YOLOv3中引入了殘差(ResNet) [4]作為主干網(wǎng)絡(luò)結(jié)構(gòu)(Darknet-53) 的部分,在殘差網(wǎng)絡(luò)中通過使用網(wǎng)中網(wǎng)結(jié)構(gòu)[5],使網(wǎng)絡(luò)在卷積的計算過程中減少通道數(shù)和參數(shù)以及模型的體積。該模型采用5個下采樣層,設(shè)置每次采樣的步長為2,結(jié)構(gòu)如圖1所示。
2.2 聚類Anchor 參數(shù)更新
YOLO在對輸入圖像目標進行檢測時預測3種尺度的Anchor,通過對不相同尺寸輸入處理,使之變?yōu)橄嗤叽绲妮敵?,對所標記的圖片中不同大小的目標進行計算得到最適合Anchor的值。
為此,本文基于聚類思想,設(shè)計Anchor參數(shù)更新方法。為提高效率,選擇無監(jiān)督學習典型算法kmeans作為聚類算法,在聚類時,使用歐式距離公式或曼哈頓公式進行計算距離,分別定義為:
3 訓練與測試
3.1 數(shù)據(jù)準備
實驗數(shù)據(jù)主要來自普通監(jiān)控攝像機采集,同時從網(wǎng)絡(luò)中收集、篩選并進行適當處理后的教室環(huán)境中的圖片,它們具有不同的對象姿勢、光亮、角度與像素,從而豐富數(shù)據(jù)集。驗證數(shù)據(jù)集、測試數(shù)據(jù)分別由120、30張樣本組成實驗驗證主要針對教室人群的精確檢測統(tǒng)計,所以訓練數(shù)據(jù)集通過對同一教室不同時間段、不同坐姿、站姿等行為進行采集的圖像數(shù)據(jù)構(gòu)成,使用上文提出的算法進行訓練從而得到特征模型分別在不同的測試數(shù)據(jù)集上進行測試,測試結(jié)果對訓練時的參數(shù)進行更改選擇使其達到模型最優(yōu)化。
在圖片的預處理過程中,為了增加網(wǎng)絡(luò)的魯棒性進行了以下處理方式:縮放、色彩調(diào)節(jié)、反轉(zhuǎn)等圖片處理,在數(shù)據(jù)增強上通過在線增強使用了隨機翻轉(zhuǎn)、隨機剪裁、隨機旋轉(zhuǎn)、顏色抖動等處理方法來達到樣本的擴充從而增大訓練的數(shù)據(jù)量。
實驗中對教室現(xiàn)場環(huán)境(Identify the scene, ITS)分別取不同的時間段、學生姿勢將其分為6類,分別記為:C1(早晨)、C2(中午)、C3(晚上)、C4(上課)、C5(下課)、C6(自習),C1、C2、C3圖片的時間狀態(tài)均處于上課狀態(tài),C4、C5、C6樣本背景均處于普通光強,每類測試樣本為5張。
3.2 實驗環(huán)境
實驗主要在普通PC機上完成,基本配置包括:Windows 10系統(tǒng),i5處理器,顯卡為NVIDIA GeForceGTX 1060(顯存6G) ,16G運行內(nèi)存,對YOLO-V3的訓練使用Darknet-53框架,配置CUDA9.0和CUDNN7.0進行加速計算。部分測試數(shù)據(jù)如圖2所示。
3.3 實驗結(jié)果及分析
3.3.1 訓練參數(shù)優(yōu)化及預測精度值分析
在學習率(Learning rate, LR) 訓練選擇上,所選的學習率分別為0.010、0.009、0.007、0.005、0.003、0.001,對應的1200張訓練樣本模型的預測估計概率值(Esti?mated probability of prediction, EPP) 和真實預測值(True prediction probability, TPP) 如圖4和表1所示。
由表1與圖4可以看出,預測概率估計值和真實概率估計值隨著學習率的改變先增大后減小,當學習率小于0.01時,學習率的減小,使得訓練產(chǎn)生的模型的預測概率估計值與識別準確率均有明顯的增大趨勢。當學習率為0.007 時,真實預測值達到最大為0.94。在越過此點后當學習率從0.007減小到0.001的整個過程中,預測概率估計值處于0.90附近,真實預測值處于0.92左右,此時的學習率的變化對上述兩個性能指標的影響較小。當學習率從0.007 減小到0.001時,預測概率估計值先上升至最大點后下降,真實預測值隨著學習率的變小而下降。
綜上分析可以得出結(jié)論,當學習率設(shè)為0.007時,對訓練產(chǎn)生的模型具有較好的預測表現(xiàn)能力,在使用時可以選擇此學習率作為經(jīng)驗值。
3.3.2 不同迭代次數(shù)下的模型預測精度
本次實驗針對訓練的1200個樣本,設(shè)置了8種訓練的迭代次數(shù),由上一節(jié)的學習率分析可知,學習率的最佳選擇為0.007,迭代次數(shù)(iterations) 、改進前預測值(Prediction before improvement, PBI)、改進后預測值(Improved predictive value, IPV)和關(guān)系如表2所示,改進前預測值和改進后預測值與迭代次數(shù)變化趨勢如圖5所示。
可以看出,在訓練的整個過程中,在訓練過程中預測值均呈上升趨勢,其中改進后的模型預測值上升速度較快,改進前模型的預測值上升速度較為緩慢,如圖5所示,當?shù)螖?shù)為16000時,預測值最高,兩個模型結(jié)果分別為0.94、0.97,由此可知,改進后模型在訓練時的預測值明顯優(yōu)于未參加改進的模型。
3.3.3 不同場景識別性能
在前兩節(jié)通過對學習率和迭代次數(shù)的分析過程中,得到了較好的模型,本節(jié)實驗內(nèi)容主要包括模型對上述不同場景的實驗模型的測試。所選學習率為0.007,迭代次數(shù)為16000次,表3表示模型對6類不同場景下測試數(shù)據(jù)的識別誤差(Number of recognition er?rors, NORE) 與單圖識別時間(Single graph identifica?tion time, SGIT)關(guān)系。
由表3可以看出由于遮擋(低頭狀態(tài)或背影)、環(huán)境等造成的漏檢問題,該模型在檢測圖片中C4(上課)的識別誤差明顯低于其他狀態(tài),這是因為學生在上課時保持抬頭姿勢便于識別,處于C2(中午)和C6(自習)的識別誤差較高,這是因為C2(中午)時間受光源影響,在光照較強情況下的識別誤差高于普通光照(C1、C3) 的誤差,C5(下課)和C6(自習)時學生處于低頭、站立、走動、聚集聊天等狀態(tài)下容易造成目標間的遮擋問題,使得識別誤差大。由實驗識別的時間可以看出該檢測模型能夠滿足實時檢測應用需求。
4 結(jié)束語
本文所提方法通過使用聚類算法對Anchor的設(shè)定使網(wǎng)絡(luò)可使用符合室內(nèi)人群數(shù)據(jù)集特征的參數(shù),同時采用基于G-IoU進行邊界框的優(yōu)化方式加大網(wǎng)絡(luò)模型的適應力和表現(xiàn)力,使得網(wǎng)絡(luò)在處理應對具有特定室內(nèi)場景圖像數(shù)據(jù)時,可以有較好的性能,在室內(nèi)人群檢測統(tǒng)計任務中性能優(yōu)于原有算法,可以為室內(nèi)人群精準檢測和識別等智能監(jiān)控應用提供參考。