葉張帆,黃立勤
(福州大學(xué)物理與信息工程學(xué)院,福建 福州 350116)
人群計數(shù)是計算機(jī)視覺研究領(lǐng)域最基本但最具挑戰(zhàn)性的任務(wù)之一,這是具有許多實際應(yīng)用的課題,有著廣泛的實際應(yīng)用前景。人群計數(shù),尤其是動態(tài)場景下不同密度人群的高精度人數(shù)統(tǒng)計,可以監(jiān)測和報警,減少公共災(zāi)難,也可用于商業(yè)為商家提供消費人流量參考等。人群計數(shù)所使用的技術(shù),目前主要分為兩類:直接檢測法和間接估計法。直接的方法,主要通過檢測場景中的每一個個體,實現(xiàn)人群的統(tǒng)計。這種方法,在低密度人群情況下的計數(shù)模型,具有構(gòu)建成本低和檢測速度快等優(yōu)點。在近年的研究中,有使用人頭檢測的模型[1],或者頭和肩膀檢測模型[2-4],提升檢測的精確度。但當(dāng)密度增大時,由于遮擋等問題,人體的表達(dá)特征受到破壞,行人不能得到很好的檢測分割,只能采用間接估計的方法進(jìn)行統(tǒng)計。間接估計法多采用構(gòu)建場景中特征和人數(shù)的關(guān)系,實現(xiàn)人群數(shù)量的回歸計算[5-6],可以實現(xiàn)高密度和超高密度的場景下的人數(shù)統(tǒng)計,但當(dāng)人群密度變化,在低密度時使用間接法,相較于直接法,有著不必要的復(fù)雜度和高成本。近年來,深度學(xué)習(xí)在圖像檢測和識別領(lǐng)域不斷取得突破,在行人檢測領(lǐng)域,準(zhǔn)確度大幅度提高[7-8]。為此,本文結(jié)合直接檢測和回歸方法的特點,將深度學(xué)習(xí)檢測結(jié)果和迪里赫雷特混合模型[6,9]聚類相結(jié)合,以使人群能夠有效從圖片中被檢測,然后采用基于特征點的方法統(tǒng)計人群數(shù)量,并設(shè)計人群數(shù)量聚合三幀預(yù)計數(shù)結(jié)果與幀內(nèi)檢測框平均置信度的數(shù)據(jù)融合方法,建立了基于深度學(xué)習(xí)和特征點數(shù)量的人數(shù)統(tǒng)計方法,在動態(tài)場景中,人群低密度和高密度情境下均能準(zhǔn)確穩(wěn)健地進(jìn)行人群計數(shù)。
將視頻幀序列圖片分別輸入深度學(xué)習(xí)檢測器和語義分割兩個不同的深度學(xué)習(xí)模型,得到大量的候選框,剔除語義分割閾值外的檢測框。然后對處理過的檢測候選框進(jìn)行特征提取,計算每個類內(nèi)的人數(shù)。有別于行人檢測,該算法將重點放在了精確統(tǒng)計人數(shù)的問題上。對聚類后的每個類進(jìn)行基于特征點的人群初步計數(shù),分析特征點和人群密度的關(guān)系,最后根據(jù)相鄰幀的數(shù)據(jù)進(jìn)行融合輸出結(jié)果。算法框架如圖1。
深度學(xué)習(xí)檢測器基于深度卷積神經(jīng)網(wǎng)絡(luò),將數(shù)據(jù)輸入網(wǎng)絡(luò)訓(xùn)練后,能夠更好地檢測圖片中的物體。這種基于學(xué)習(xí)的方法,經(jīng)過近幾年的的嘗試,準(zhǔn)確率大幅提升,優(yōu)于DPM[10]檢測器。
從Zhang等[7]得到啟發(fā),使用的深度神經(jīng)網(wǎng)絡(luò)檢測方法源于訓(xùn)練好的候選區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN),使用了同樣的策略,在網(wǎng)絡(luò)后加上同樣的級聯(lián)增強(qiáng)分類器,算法框圖如圖2。
輸入圖像經(jīng)過數(shù)據(jù)卷積得到一個特征圖像,然后在特征圖像上生成候選區(qū)域,做法在這個特征圖上使用3×3滑動窗口與特征圖進(jìn)行卷積,這個3×3的區(qū)域卷積后可以獲得一個256維的特征向量,用于判斷預(yù)測區(qū)域是否為候選區(qū)域。根據(jù)區(qū)域生成網(wǎng)絡(luò)產(chǎn)生的候選區(qū)域以及置信度得分和特征值,輸入級聯(lián)的增強(qiáng)分類器進(jìn)行分類。分類器的算法依照檢測器系統(tǒng)的設(shè)計采用標(biāo)準(zhǔn)的RealBoost algorithm[11]。
通常行人檢測算法都存在誤檢和漏檢等輸出不連續(xù)的問題,使用高斯混合模型[6]對背景進(jìn)行建模,可以緩解這一問題但仍不能充分的分割出前景人群。全卷積網(wǎng)絡(luò)的語義分割方法,替代傳統(tǒng)的高斯混合模型,可以大幅提升前景人群提取的有效性,即便嚴(yán)重的遮擋,或是在圖片邊緣微小位置,也能分割出行人。從Li等[12]得到啟發(fā),用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)模型用于人群的分割。將人分割出的閾值去除行人檢測器中未包含前景人群的檢測窗。從而有效降低候選框的誤檢率。
迪里赫雷特混合模型是一種無監(jiān)督聚類方法,相較于其他不需要定義類數(shù)目的聚類算法,迪里赫雷特過程混合模型有聚類準(zhǔn)確、資源消耗低的優(yōu)點。將檢測候選框的時間空間以及顏色特征綜合,實現(xiàn)精確的聚類。
定義每個檢測框由8個參數(shù)構(gòu)成,也就是(μx,μy,μa,μb,μh1…4),而每個類由17個參數(shù)(ux,σx,uy,σy,∑xy,ua,σa,ub,σb,uh1…4,σh1…4),則觀測到的檢測候選框Xn是在參數(shù)Θk下由類k生成的概率如公式(1)[3]49所示
(1)
為了學(xué)習(xí)得到迪里赫雷特過程混合模型的參數(shù)Θk,采用吉布斯采樣[6],通過對輸入的數(shù)據(jù)進(jìn)行迭代采樣,計算所需要的迪里赫雷特過程混合模型的參數(shù),其中采樣的概率公式如公式(2)示
(2)
其中:cn為類的編號;M為預(yù)處理過后候的數(shù)目;Mk是被分配到類的候選框的數(shù)目;α是一個參數(shù),控制著聚類生成類的數(shù)目,大的α值生成的類多,小的α值生成的類少。取視頻幀中每15幀的圖片進(jìn)行訓(xùn)練,得到合適的α值。
基于類內(nèi)檢測框平均特征點數(shù)的人群統(tǒng)計方法,如公式(3)所示。
(3)
視頻幀序列是一個連續(xù)的圖片流,其中有中低密度的人群,也有高密度的人群。當(dāng)人群比較稀疏時,行人身上包含的特征點的數(shù)量與人數(shù)幾乎是一致的,檢測器能夠準(zhǔn)確的將行人檢測出來,所以人群中的人數(shù)可以被準(zhǔn)確的統(tǒng)計出來。當(dāng)預(yù)計數(shù)出的人數(shù)增加或者減少的時候,特征點數(shù)量應(yīng)該一樣增加或者減少。實際上,隨著行人密度增加,人群遮擋問題越來越嚴(yán)重,行人檢測器不能準(zhǔn)確的檢測分割出行人,所以一個檢測框常常會包含多于一個人,而又被當(dāng)作一個人,造成漏檢。所以當(dāng)密度增加的時候,計數(shù)出的人數(shù)的增減并不能和特征點數(shù)量的增減相同步。
基于特征點數(shù)量與人群屬性相關(guān)性的人群密度估計方法,需要找到人群密度為高密度的視頻幀的開始與結(jié)束的時間,判斷出視頻序列幀中哪些是高密度的哪些是低密度的。首先對輸入的數(shù)據(jù)用公式(4)進(jìn)行歸一化。
(4)
為了檢測到高密度人群的開始和結(jié)束時間,計算固定間距的輸入數(shù)據(jù)的梯度,如公式(5)和公式(6)所示。
(5)
(6)
其中:KFn代表第n幀的特征點的梯度;Fn+s和Fn分別是第n+s幀與第n幀的特征點數(shù)量;KCn代表第n幀的檢測結(jié)果,Cn+s和Cn分別代表第n+s幀與第n幀的預(yù)計數(shù)結(jié)果;N代表總的幀數(shù);S代表預(yù)定于的步長。
為了獲得高密度區(qū)間的開始與結(jié)束幀,用公式(7)判斷:
(7)
其中:Fs表示高密度場景開始的幀號;Fe表示幀密度區(qū)間結(jié)束的幀號;如果Fs不存在或者Fs與Fe之間的間隔小于S,則該視頻幀序列不存在高密度區(qū)間。
在獲得了高密度場景的開始幀和結(jié)束幀后,對數(shù)據(jù)進(jìn)行融合。對于中低密度人群場景也就是使用低通濾波器[4]對數(shù)據(jù)進(jìn)行平滑平均。
對于高密度人群場景,使用一個回歸模型對相鄰幀的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合。當(dāng)人群密度增加的時候,人群遮擋嚴(yán)重,檢測器不能準(zhǔn)確的檢測分割出前景目標(biāo),所以檢測候選框的平均置信度變得更低,當(dāng)人群密度稀疏的時候,檢測器檢測的準(zhǔn)確率和穩(wěn)健性增加,所以檢測候選框的平均置信度變高。
為此提出聚合三幀預(yù)計數(shù)結(jié)果與幀內(nèi)檢測框平均置信度的數(shù)據(jù)融合方法,如公式(8)所示
O(xn)=C0+C1an-1Nn-1+C2anNn+C3an+1Nn+1。
(8)
其中:O(xn)是經(jīng)過聚合的第n幀的計數(shù)結(jié)果;an表示第n幀的平均置信度;Nn表示預(yù)計數(shù)結(jié)果;C0,C1,C2,C3是回歸模型的系數(shù)。
所用數(shù)據(jù)集來自于英國雷丁大學(xué)行人標(biāo)定數(shù)據(jù)庫PETS2009[13]。擁有4196張分辨率為768×576的室外場景RGB圖片,密度范圍為0~42,擁有4個攝像頭角度。采用S1部分,該部分的數(shù)據(jù)集主要包含高密度人群和中低密度人群,每種級別的密度人群又包含兩個時間序列,每個時間序列包含4個視角。其中代表中低密度場景的數(shù)據(jù)集為S1.L2.13-57,以及S1.L1.13-59數(shù)據(jù)集,代表高密度場景的數(shù)據(jù)集為S1.L2.14-06以及S1.L3.14-17。實驗的深度學(xué)習(xí)部分,使用了Ubuntu操作系統(tǒng),采用開源框架Tensorflow,GPU使用Nvidia1080 Ti。人群估計部分在Windows操作系統(tǒng)和C#語言編寫的框架下完成。
先用深度學(xué)習(xí)檢測器和語義分割模型對視頻幀序列圖片進(jìn)行檢測和分割。檢測框得到的坐標(biāo)數(shù)據(jù)與分割坐標(biāo)進(jìn)行對比,剔除閾值坐標(biāo)外的檢測框,以降低誤檢率。語義分割的結(jié)果如圖3所示。
為了降低漏檢率,建立前一幀與當(dāng)前幀,后一幀與當(dāng)前幀的光流圖,將前后幀的檢測候選窗都映射到當(dāng)前幀,然后對處理和映射完成的檢測框進(jìn)行聚類。聚類的特征包含了檢測候選框中心,檢測候選框顏色空間中的a和b空間分量和方向光流直方圖特征。將獲得的光流點存下來留作后續(xù)進(jìn)行基于特征點的人群計數(shù)使用。聚類后的特征點如圖4所示。
在聚類后,理想情況下每個類只有一個人,實際上因為人群的遮擋,一個類中時常有多個人。這里有兩個重要的前提:(1)同一個人身上大量重疊的檢測框內(nèi)的特征點數(shù)量變化不大;(2)如果一個類里面不止有一個人,則類內(nèi)的特征點數(shù)會大大的增加。所以采用了基于類內(nèi)檢測框平均特征點數(shù)的人群統(tǒng)計方法。在視頻幀序列圖片中,人群數(shù)量是不斷變化的?;谔卣鼽c數(shù)量與人群屬性相關(guān)性的人群密度估計方法可以用來找到人群密度為低密度或高密度的視頻幀的開始與結(jié)束的時間。在計算出高密度人群的區(qū)間范圍后,根據(jù)密度的不同,在低密度數(shù)據(jù)段采用低通濾波器的方法平滑平均數(shù)據(jù),高密度段則采用三幀預(yù)計數(shù)結(jié)果與幀內(nèi)檢測框平均置信度的數(shù)據(jù)融合方法融合數(shù)據(jù)。圖5是一段高密度區(qū)間的人數(shù)估計。
在得出實驗結(jié)果數(shù)據(jù)后,為方便與其他算法做比較,采用當(dāng)前最通用的兩種性能衡量指標(biāo)對算法的性能進(jìn)行衡量,分別是平均絕對誤差(mean absolute error,EA)和平均相對誤差(mean relative error,ER)。其中EA衡量的是平均每幀錯多少人,方便在當(dāng)前數(shù)據(jù)庫下做一個縱向比較,而ER則是衡量算法平均每幀的錯誤率,這樣方便本算法與別的算法在不同數(shù)據(jù)庫進(jìn)行一個橫向比較。其中,EA與ER的定義如公式(9)和公式(10)所示,
(9)
(10)
其中:N表示總的幀數(shù);G(i)和T(i)分別表示第i幀計算出來的人數(shù)值以及真實的人數(shù)值。為便于比較選擇使用相同數(shù)據(jù)庫的文獻(xiàn)結(jié)果,性能檢測結(jié)果對照見表1。
表1 不同密度情景下各算法檢測性能對照表Table 1 Algorithm test performance in low and high density compared
其中:Albiol 采用了直接計算人群特征點提取的方法進(jìn)行人數(shù)統(tǒng)計;Donatello采用了計算運動人群特征點運動速度和特征點數(shù)量的方法來統(tǒng)計人群數(shù)量;Ibrahim采用了檢測框聚類的方法,3種方法都屬于間接統(tǒng)計法。由表1可見在低密度場景下,Ibrahim的效果略好于Donatello和Albiol。數(shù)據(jù)證明了,直接檢測的方法,在低密度場景下效果更好。而在高密度場景下Donatello的成績稍好,基于回歸的方法在高密度場景下效果比直接檢測法更好。但不論低密度場景還是高密度場景,本實驗平均誤差和相對誤差均為最低,方法結(jié)合了直接檢測和回歸方法的特點,實現(xiàn)一套系統(tǒng),低密度高密度皆能實現(xiàn)準(zhǔn)確穩(wěn)健計數(shù)。
為了解決包含高密度人群和低密度人群的高度動態(tài)情境下人數(shù)統(tǒng)計問題,引用深度學(xué)習(xí)的檢測和語義分割方法檢測出圖片中人群的位置,將檢測結(jié)果使用迪里赫雷特混合模型聚類。根據(jù)人群的不同密度,在低密度數(shù)據(jù)段采用低通濾波器的方法平滑平均數(shù)據(jù),高密度段先檢測出高密度人群的開始和結(jié)束時間,采用三幀預(yù)計數(shù)結(jié)果與幀內(nèi)檢測框平均置信度的數(shù)據(jù)融合方法融合數(shù)據(jù),估計出高密度人群的人數(shù)。實驗結(jié)果表明,本文提出的算法在變化的人群密度的場景下能更為準(zhǔn)確地統(tǒng)計人數(shù)。人群計數(shù)可以提供人群密度的監(jiān)測和報警,減少公共災(zāi)難,也可用于商業(yè),為商家提供購物人流量參考。
[參考文獻(xiàn)]
[1]SUBBURAMAN V B,DESCAMPS A,CARINCOTTE C.Countingpeople in the crowd using a generic head detector[C]//IEEE ninth international conference on advanced video and signal-based surveillance.Beijing:IEEE Press,2012:470-475.
[2]HU R,WANG R,SHAN S,et al.Robusthead-shoulder detection using a two-stage cascade framework[C]//IEEE International conference on pattern recognition.IEEE Computre Society,2014:2 796-2 801.doi:10.1109/ICPR.2014.482.
[3]HOU Y L,PANG G K H.People counting and human detection in a challenging situation[J].IEEE Transactions on Systems,Man,and Cybernetics - Part A:Systems and Humans,2011,41(1):24-33.
[4]ALBIOL A,SILLA M J,MOSSI J M.Video analysis using corner motion statistics[J/OL].Proc.of the IEEE Int.workshop on Performance Evaluation of Tracking & Surveillance Appl,2010:1-7.http://gpiserver.dcom.upv.es/publications/pdf/albiol_pets2009.pdf.
[5]CONTE D,FOGGIA P,PERCANNELLA G,et al.Counting moving persons in crowded scenes[J].Machine Vision & Applications,2013,24(5):1 029-1 042.
[6]TOPKAYA I S,ERDOGAN H,PORIKLI F.Counting people by clustering person detector outputs[C]//IEEE International Conference on Advanced Video and Signal Based Surveillance.London:IEEE Press,2014:313-318.
[7]ZHANG L,LIN L,LIANG X,et al.Is faster R-CNN doing well for pedestrian detection[J].Uropean Conference on Computer Vision,2016,24(7):443- 457.
[8]REN S,GIRSHICK R,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1 137.
[9]DAN L,MALMAUD J,ADAMS R P,et al.Cluster:parallel markov chain monte carlo for dirichlet process mixtures[C/OL].Workshop on Big Learning Nips,2013:1-12.[2017-08-20].https://arxiv.org/pdf/1304.2302v1.pdf.
[10]FELZENSZWALB P F,MCALLESTER D A,RAMANAN D.A discriminatively trained,multiscale,deformable part model.In CVPR[C]//IEEE Conference on Computer Vision and Pattern Recognition.Anchorage:IEEE Press,2008:1-8.
[11]WU B,AI H,HUANG C,et al.Fast rotation invariant multi-view face detection based on real adaboost[C]//IEEE Computer Society.IEEE International Conference on Automatic Face and Gesture Recognition.Seoul:IEEE Press,2004:79-84.
[12]LI Y,QI H,DAI J,et al.Fully convolutional instance-aware semantic segmentation[J/OL].2017[2017-11-20].https://arxiv.org/abs/1611.07709.
[13]FERRYMAN J,SHAHROKNI A.PETS2009:Dataset and challenge[C]//Twelfth IEEE International Workshop on Performance Evaluation of Tracking and Surveillance.2010:1-6.(PETS-Winter).Snowbird:IEEE Press,2009:1-6.doi:10.1109/PETS-WINTER.2009.5399556.