易國憲,熊淑華,何小海,吳曉紅,鄭新波
(1.四川大學(xué) 電子信息學(xué)院,成都 610065; 2.東莞前沿技術(shù)研究院,廣東 東莞 523000)(*通信作者電子郵箱xiongsh@scu.edu.cn)
當(dāng)前我國經(jīng)濟(jì)高速發(fā)展,城市人口密度日益增大。公共場所人群數(shù)量監(jiān)管不足極易導(dǎo)致嚴(yán)重的踩踏事件,如2014年12月31日上海外灘踩踏事件[1]。人數(shù)是公共場所監(jiān)管的重要指標(biāo),良好的人數(shù)檢測預(yù)警系統(tǒng)可有效避免此類事件。監(jiān)控視頻作為公共場所最直接的監(jiān)控?cái)?shù)據(jù)載體,具有信息量大、易獲取的特點(diǎn),因此基于視頻的人數(shù)統(tǒng)計(jì)方法有較大現(xiàn)實(shí)研究意義。然而實(shí)際公共監(jiān)控視頻存在諸多影響人數(shù)統(tǒng)計(jì)精確度的因素,如復(fù)雜背景干擾、光照變化、目標(biāo)的透視失真以及行人間的遮擋。實(shí)際監(jiān)控場景下的人數(shù)統(tǒng)計(jì)極具挑戰(zhàn)性,有必要探索精度更高的人數(shù)統(tǒng)計(jì)方法。
張君軍等[2]對人數(shù)統(tǒng)計(jì)技術(shù)研究現(xiàn)狀作出了詳盡的分析。現(xiàn)有的人數(shù)統(tǒng)計(jì)方法主要有以下幾種:基于檢測的方法、基于聚類的方法、基于回歸的方法和基于深度學(xué)習(xí)的方法。
基于檢測的方法主要是使用運(yùn)動(dòng)特征和表面特征來訓(xùn)練檢測器,以檢測頭部或身軀的方式統(tǒng)計(jì)行人個(gè)體數(shù)量。Ge等[3]通過檢測與目標(biāo)匹配的形狀實(shí)現(xiàn)目標(biāo)人數(shù)統(tǒng)計(jì)。Brostow 等[4]將Tomasi-Kanade等圖像特征用于運(yùn)動(dòng)聚類框架。Rabaud 等[5]使用KLT(Kanade-Lucas-Tomasi)跟蹤器將視頻幀中的目標(biāo)處理成一組軌跡,同時(shí)為了防止軌跡碎片,在時(shí)間和空間上兩個(gè)域上調(diào)節(jié)信號(hào)。與基于檢測和基于聚類的方法相比,基于回歸的方法更為準(zhǔn)確,它能夠更好地應(yīng)對擁擠場景。韓迎輝等[6]使用多元線性回歸的方法實(shí)現(xiàn)了良好的人數(shù)估計(jì)效果。Albiol等[7]最早提出角點(diǎn)數(shù)與人數(shù)成正比關(guān)系,以統(tǒng)計(jì)目標(biāo)角點(diǎn)數(shù)目的方式估計(jì)人數(shù)。曹志通等[8]在文獻(xiàn)[7]的基礎(chǔ)上提出借鑒卡爾曼濾波思想的一階動(dòng)態(tài)線性模型,結(jié)合當(dāng)前幀角點(diǎn)的數(shù)量實(shí)時(shí)更新比例系數(shù),這兩種方法后者在前者的基礎(chǔ)上大幅提升了人數(shù)統(tǒng)計(jì)精度,但兩種方法均只能檢測出運(yùn)動(dòng)目標(biāo)。Lempitsky等[9]最早提出了基于學(xué)習(xí)的目標(biāo)計(jì)數(shù)方法,且提出了針對圖像目標(biāo)計(jì)數(shù)的子陣列最大差分(Maximum Excess over SubArrays, MESA)距離,實(shí)現(xiàn)了較高的細(xì)胞計(jì)數(shù)精度。Arteta等[10]進(jìn)一步提出了一種快速迭代交互式的多目標(biāo)計(jì)數(shù)系統(tǒng),可快速地統(tǒng)計(jì)出場景中的細(xì)胞或某種車輛的數(shù)量。該方法只適用于目標(biāo)外形較統(tǒng)一、背景較簡單的場景,在現(xiàn)實(shí)公共場景的人數(shù)統(tǒng)計(jì)中表現(xiàn)不佳。隨著深度學(xué)習(xí)的蓬勃發(fā)展,Zhang等[11]和Sam等[12]提出基于多列卷積神經(jīng)網(wǎng)絡(luò)的人群計(jì)數(shù)方法,該方法在人群密度極高場景下表現(xiàn)優(yōu)異,較前述其他方法精度更高,但這些深度網(wǎng)絡(luò)訓(xùn)練成本較高,需要大量的標(biāo)注數(shù)據(jù),硬件要求高。
本文在有限的硬件條件下選擇精度較高的基于回歸的思路,針對實(shí)際公共場景監(jiān)控視頻,在文獻(xiàn)[9-10]方法的基礎(chǔ)上借鑒文獻(xiàn)[8]的改進(jìn)思想提出了一種結(jié)合特征圖譜學(xué)習(xí)的人數(shù)統(tǒng)計(jì)方法。
本文方法原理框圖如圖1所示,訓(xùn)練部分首先由輸入圖像序列提取尺度不變特征變換(Scale-Invariant Feature Transform, SITF)[13]特征,同時(shí)通過預(yù)先訓(xùn)練好的碼本對特征作預(yù)處理以減小計(jì)算量。其次,以文獻(xiàn)[9]中的目標(biāo)計(jì)數(shù)框架為基礎(chǔ),將真實(shí)密度圖作為對應(yīng)標(biāo)簽,圖像的SIFT特征為輸入特征,兩者由嶺回歸得到特征圖譜映射模型。圖像SIFT特征經(jīng)過特征圖譜模型得出一個(gè)與行人密度相關(guān)的特征圖譜X。
圖1 本文方法原理框圖Fig. 1 Functional block diagram of the proposed method
測試部分與訓(xùn)練部分類似,圖像序列提取出的SIFT特征先后經(jīng)過預(yù)處理實(shí)現(xiàn)特征稀疏化表示,其次SITF特征經(jīng)過訓(xùn)練部分得到的圖譜映射模型得出與目標(biāo)密度相關(guān)的特征圖譜,最后圖譜的積分經(jīng)過訓(xùn)練好的人數(shù)回歸模型即可得到相應(yīng)圖像的人數(shù)。
2.1.1 特征提取與預(yù)處理
本文使用圖像在每個(gè)像素點(diǎn)處的SIFT特征作為圖像底層特征。SIFT是一個(gè)使用廣泛的紋理描述符,它將興趣點(diǎn)位置定義為尺度空間中高斯差分的最大值或最小值。SIFT特征具有旋轉(zhuǎn)、亮度變化、尺度縮放不變性,它對透視失真不敏感,且信息量豐富,這些性能使得它適用于本文場景下的人數(shù)統(tǒng)計(jì)。
本文從圖像中提取稠密SIFT特征,用一個(gè)512維的實(shí)值向量表示圖像I中的每一個(gè)像素點(diǎn)。為了減小計(jì)算時(shí)間復(fù)雜度和空間復(fù)雜度,本文通過構(gòu)建碼本的形式將特征空間細(xì)分為K個(gè)單元。劃分的原則為在對特征空間作足夠劃分的前提下使每個(gè)分區(qū)至少存在幾個(gè)像素屬于標(biāo)注區(qū)域。具體的,從訓(xùn)練圖像中提取出SIFT特征后,應(yīng)用K均值聚類將每個(gè)像素點(diǎn)處的特征以特征間的距離為度量聚類為K種特征,即K個(gè)特征空間單元,這K個(gè)特征空間的中心向量對應(yīng)碼本中的K條項(xiàng)目。對于后續(xù)的訓(xùn)練圖像和測試圖像,先將圖像特征映射到K個(gè)特征空間,以該特征空間的中心特征向量表示對應(yīng)特征空間中像素點(diǎn)處的特征,實(shí)現(xiàn)稠密SIFT特征的稀疏化表示,從而減小后續(xù)計(jì)算量。
2.1.2 真實(shí)密度圖
圖像標(biāo)注一直以來都是機(jī)器學(xué)習(xí)研究中一項(xiàng)極繁瑣的工作。相比于像素標(biāo)注和邊界框標(biāo)注等標(biāo)注方法,點(diǎn)標(biāo)注較簡單耗時(shí)更少,且出于人數(shù)統(tǒng)計(jì)方式的考慮,本文選擇點(diǎn)標(biāo)注式。訓(xùn)練圖像中的每一個(gè)行人的標(biāo)注以單點(diǎn)的形式位于行人頭部中心,記錄目標(biāo)行人在圖像中的位置gti(x,y)。
圖2 標(biāo)記監(jiān)控圖與真實(shí)密度圖Fig. 2 Labeled monitoring map and true density map
(1)
其中:p表示一個(gè)像素點(diǎn);N(p;pm,σ2E2×2)表示像素點(diǎn)p上的一個(gè)標(biāo)準(zhǔn)二維高斯核估計(jì),均值點(diǎn)位于點(diǎn)pm,σ2E2×2為一個(gè)值極小的各向同性協(xié)方差矩陣。由于真實(shí)密度圖上靠近邊界的標(biāo)注點(diǎn),其高斯估計(jì)不會(huì)全部位于圖像內(nèi)部,由該公式計(jì)算得到的總?cè)藬?shù)不一定等于標(biāo)注點(diǎn)數(shù)C(i)。在行人密度估計(jì)中,相比于去邊界點(diǎn),邊界行人數(shù)量上分?jǐn)?shù)化處理更為合理。
2.1.3 特征圖譜學(xué)習(xí)
直接由現(xiàn)實(shí)場景下的監(jiān)控圖像學(xué)習(xí)它與真實(shí)人群密度圖之間的密度模型,需要做大量的訓(xùn)練且對硬件資源要求高。本文在傳統(tǒng)人數(shù)回歸方法的思路下提出結(jié)合特征圖譜學(xué)習(xí)的人數(shù)回歸模型。首先以Lempitsky 等[9]提出的目標(biāo)計(jì)數(shù)學(xué)習(xí)框架為基礎(chǔ),以真實(shí)密度圖為標(biāo)簽Y學(xué)習(xí)底層特征X與Y之間的關(guān)系Y=XTW。
給定一個(gè)訓(xùn)練圖像集和它的真實(shí)密度圖集,本文的目標(biāo)是由行人特征圖擬合行人密度圖,學(xué)習(xí)它們之間的線性轉(zhuǎn)換關(guān)系:
(2)
其中:w∈RK,是訓(xùn)練過程中需要學(xué)習(xí)的線性轉(zhuǎn)換參數(shù)向量;Fi(·|w)是密度函數(shù)在某一參數(shù)向量w下的密度估計(jì)。由結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略知,應(yīng)該選擇能使真實(shí)密度值和估計(jì)密度值之間誤差和最小的w:
(3)
其中:λ為尺度標(biāo)準(zhǔn)化超參數(shù),它控制著回歸力度;Dist是測量損失的距離,即估計(jì)的和地面真實(shí)密度之間的不匹配程度。如何選擇測量損失距離的函數(shù)成為此處的一個(gè)關(guān)鍵點(diǎn)。文獻(xiàn)[9]的目標(biāo)是回歸一個(gè)總數(shù),所以選擇MESA正規(guī)化距離作為損失函數(shù)。而這種選擇與本文獲取特征局部的目標(biāo)不符,因此,更適當(dāng)?shù)腄ist函數(shù)可以是一個(gè)Lp度量。同時(shí),我們注意到MESA距離考察了所有可能的子圖像區(qū)域上的積分。 雖然這種距離極大地改善了算法的泛化性能,但MESA距離的學(xué)習(xí)成本是昂貴的,因?yàn)樗褂眉s束生成并且必須解決大量的計(jì)算成本為二次方的函數(shù)。同時(shí)考慮計(jì)算成本與計(jì)算精度問題,本文借鑒文獻(xiàn)[10]中的高斯平滑方法,在原始嶺回歸L2度量基礎(chǔ)上加入高斯核卷積:
(4)
其中:x表示底層特征向量,每一行為前述分割好的特征空間中的一個(gè)中心特征向量;y為x對應(yīng)真實(shí)密度圖上相應(yīng)點(diǎn)的圖像強(qiáng)度組成的向量;g代表高斯核,本文將xTw與y之間的誤差向量的重新排列二維圖像的形式,再與高斯核g進(jìn)行卷積實(shí)現(xiàn)誤差圖譜平滑。式(4)將式(3)轉(zhuǎn)化為簡化版的嶺回歸問題,其中每個(gè)樣本對應(yīng)像素底層特征組成的二維向量而不再是原來整個(gè)圖像的三維特征矩陣。實(shí)驗(yàn)表明當(dāng)高斯核的標(biāo)準(zhǔn)差參數(shù)滿足σ>dia/2時(shí)(其中dia為行人頭部區(qū)域圖像的平均直徑),σ的變化對估計(jì)模型在測試集上的表現(xiàn)影響較小。
將式(4)展開可以得到:
(5)
分別用xs和ys表示g*x和g*y,就可以得到標(biāo)準(zhǔn)的嶺回歸。進(jìn)一步的,此處可以直接應(yīng)用標(biāo)準(zhǔn)的嶺回歸參數(shù)估計(jì)方式來求解w:
w=(xsTxs+λE)-1xsTys
(6)
其中:E為單位矩陣;λ是回歸超參數(shù)。
對于測試圖像Xtest中任意一像素點(diǎn)的底層特征向量xp,僅需作簡單的線性投影即可得到測試圖像對應(yīng)特征圖譜相應(yīng)像素點(diǎn)的強(qiáng)度:
xstep2(p)=wTxp
(7)
Lempitsky等[9]提出了目標(biāo)計(jì)數(shù)學(xué)習(xí)框架,將目標(biāo)計(jì)數(shù)問題視為目標(biāo)密度估計(jì)問題,估計(jì)密度特征圖譜的積分量即為圖像中目標(biāo)的數(shù)量,也就是說圖像中目標(biāo)數(shù)量與密度特征圖譜成正比例關(guān)系:
(8)
在本文場景下,圖像背景較為復(fù)雜且較為穩(wěn)定,本文算法跳過了常規(guī)的前景提取步驟,估計(jì)出的特征圖譜Xstep2中不僅包含目標(biāo)密度特征還包含背景密度特征,所以本文此處將基本無變化的背景特征量視為偏置b,采用更為合理的一階動(dòng)態(tài)線性模型估計(jì)特征圖譜的積分量與人數(shù)之間的關(guān)系:
(9)
通過觀察可知通常監(jiān)控視頻中的連續(xù)兩幀圖像中的人數(shù)變化較小,可用式(10)計(jì)算相鄰兩幀的平均比例系數(shù)K:
(10)
(11)
此處結(jié)合當(dāng)前幀的狀態(tài)和前一幀的狀態(tài)確定K值,這使得人數(shù)回歸模型更加接近于真實(shí)狀態(tài)。同時(shí)為了使此處的比例系數(shù)不會(huì)偏離模型總體趨勢太遠(yuǎn),將K和K0分別乘以相應(yīng)的權(quán)重,用它們的和作為當(dāng)前第i幀的比例系數(shù)Ki:
(12)
由實(shí)驗(yàn)經(jīng)驗(yàn)知在MALL數(shù)據(jù)集[14-17]上wa=0.932,wb=0.068,在PETS2009數(shù)據(jù)集[18]的實(shí)驗(yàn)上wa=0.85,wb=0.15,則第i幀的人數(shù)可由式(9)模型求得。
在MALL數(shù)據(jù)集上進(jìn)行本文方法和文獻(xiàn)[14]方法的對比實(shí)驗(yàn),驗(yàn)證本文方法的性能。MALL數(shù)據(jù)集是一個(gè)真實(shí)場景下的公共場所監(jiān)控視頻數(shù)據(jù)集,其中包含2 000幀某商場高峰時(shí)段的行人監(jiān)控圖像。該數(shù)據(jù)集中除了一般數(shù)據(jù)集中存在的透視畸變問題和光照變化問題,還存在靜態(tài)和動(dòng)態(tài)兩種不同的人群活動(dòng)模式、人群密度從稀疏到擁擠變化不等的問題,是一個(gè)具有較高現(xiàn)實(shí)研究意義且極具挑戰(zhàn)性的數(shù)據(jù)集。與文獻(xiàn)[14]相同,本文也采用前800幀作為訓(xùn)練數(shù)據(jù),后1 200幀作為測試數(shù)據(jù)。
其次,本文使用公共數(shù)據(jù)集PETS2009中的Dataset S1:Person Count and Density Estimation,并選用數(shù)據(jù)集S1中的一段視頻S1.L1.Time_13-57.View_001進(jìn)行本文方法和文獻(xiàn)[8]方法的對比實(shí)驗(yàn)。該視頻段總共包含220幀圖像,與MALL數(shù)據(jù)集相比目標(biāo)更大、背景更簡單、透視和光照能影響更小。此處采用前105幀作為訓(xùn)練數(shù)據(jù),后115幀為測試數(shù)據(jù)。
本文沿用大多數(shù)人群計(jì)數(shù)研究中使用的誤差統(tǒng)計(jì)方法:相對于每幀中的真實(shí)人數(shù)計(jì)算平均絕對誤差(Mean Absolute Error, MAE)、均方差(Mean Squared Error, MSE)和平均相對誤差(Mean Relative Error, MRE),其定義分別如式(13)、(14)、(15):
(13)
(14)
(15)
其中:N表示圖像幀數(shù);G(i)表示算法估計(jì)的第i幀的人數(shù);T(i)表示第i幀的真實(shí)人數(shù)。
圖3(a)、(b)分別給出了MALL數(shù)據(jù)集上和PETS2009數(shù)據(jù)集上本文方法與真實(shí)人數(shù)間的比較結(jié)果,表1給出了MALL數(shù)據(jù)集上和PETS2009數(shù)據(jù)集上本文方法分別和文獻(xiàn)[14] 方法、文獻(xiàn)[8]方法的性能結(jié)果比較。
圖3 不同數(shù)據(jù)集上實(shí)驗(yàn)估計(jì)人數(shù)與真實(shí)人數(shù)對比Fig. 3 Comparison of experimental estimate number of people and actual number of people on different datasets
從表1可以看出,相比于對比文獻(xiàn)[14]的累積屬性空間方法和文獻(xiàn)[8]的基于角點(diǎn)檢測的一階動(dòng)態(tài)線性回歸方法,本文方法均取得了較好的統(tǒng)計(jì)結(jié)果,主要有以下幾點(diǎn)原因:首先,SIFT特征有較強(qiáng)的區(qū)分力;其次,本文通過學(xué)習(xí)的方法將圖像中的所有紋理投影到與目標(biāo)密度相關(guān)的特征空間,以特征圖譜的形式實(shí)現(xiàn)了紋理的歸一化。圖譜模型以行人頭部對應(yīng)區(qū)域的密度圖作為訓(xùn)練標(biāo)簽,一定程度上降低了目標(biāo)間的遮擋影響。最后,根據(jù)場景中背景穩(wěn)定性以及實(shí)際人數(shù)的漸變趨勢,本文利用先驗(yàn)信息結(jié)合多幀圖像的狀態(tài)建立一階動(dòng)態(tài)線性模型,獲得了更符合實(shí)際情況的人數(shù)統(tǒng)計(jì)結(jié)果。相比于文獻(xiàn)[14]方法,本文方法在簡化算法的同時(shí)其MAE降低了2.2%;相比于文獻(xiàn)[8]方法,本文使用的基于特征圖譜學(xué)習(xí)的方法在特征檢測上更為穩(wěn)定,其MAE及MRE指標(biāo)上表現(xiàn)更好,MAE降低了6.5%, MRE降低了2.3%。
表1 不同數(shù)據(jù)集上的性能結(jié)果對比Tab. 1 Comparison of performance results on different data sets
針對實(shí)際監(jiān)控場景視頻,本文提出了一種結(jié)合特征圖譜學(xué)習(xí)的人數(shù)統(tǒng)計(jì)方法,并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性,本文方法比文獻(xiàn)[8]方法、文獻(xiàn)[14]方法精度更高。實(shí)驗(yàn)發(fā)現(xiàn),在較長時(shí)間的人數(shù)統(tǒng)計(jì)檢測中,隨著一階動(dòng)態(tài)模型誤差的累計(jì),人數(shù)統(tǒng)計(jì)誤差會(huì)逐漸增大;其次,對于幀間行人數(shù)量變化較大的視頻段,估計(jì)人數(shù)誤差較大。這主要是由于本文方法關(guān)于人數(shù)平穩(wěn)變化的假設(shè)造成的。后續(xù)將繼續(xù)研究無此假設(shè)的情況,以及如何矯正時(shí)間累計(jì)誤差。