武海燕,李躍新,2,李衛(wèi)平
(1.鐵道警察學(xué)院 公安技術(shù)系,河南 鄭州 450000;2.湖北大學(xué) 計算機(jī)與信息工程學(xué)院,湖北 武漢 430070;3.武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢 430070)
行人是視頻監(jiān)控、智能交通等領(lǐng)域關(guān)注的主要對象之一,研究基于視頻圖像的行人檢測技術(shù)對于提高視頻監(jiān)控等系統(tǒng)的智能化水平有重要促進(jìn)作用,理論研究和應(yīng)用價值都非常大[1]。
近些年,行人檢測領(lǐng)域取得到許多創(chuàng)新的研究成果。按照特征描述子的不同,現(xiàn)有行人檢測方法大致可以分為4類:一是基于Haar-like特征的行人檢測方法,此類方法主要采用Haar-like特征以及一些融合的其它特征來描述行人與其它物體的差異,然后采用Adaboost、支持向量機(jī)(support vector machines,SVM)等分類器來檢測行人目標(biāo)。由于Haar-like特征在提取時可以采用積分圖進(jìn)行加速,因此此類方法的運算效率較高[2,3]。二是采用局部二元模式等紋理特征的行人檢測方法,此類特征的優(yōu)點是受光照變化的影響較小,然而此類特征對于行人這種非剛性目標(biāo)的區(qū)分能力偏弱,因此采用此類特征檢測行人時往往會造成較多的誤檢現(xiàn)象[4,5]。三是基于方向梯度直方圖(histogram of oriented gradients,HOG)特征的行人檢測方法,此類方法主要采用HOG特征來描述行人目標(biāo),采用SVM、隨機(jī)森林等分類器來檢測行人目標(biāo)。與Haar-like特征相比,HOG特征可以更好地描述行人的結(jié)構(gòu)化特征,因此采用HOG特征檢測行人目標(biāo)往往可以取得比Haar-like特征更好的檢測效果,尤其是在假正率指標(biāo)方面具有較大優(yōu)勢[6-8]。四是采用深度學(xué)習(xí)等方法自動提取行人目標(biāo)特征和進(jìn)行行人檢測。此類方法在大規(guī)模數(shù)據(jù)集訓(xùn)練的情況下往往可以取得較好的行人分類結(jié)果,但此類方法的運算效率偏低,資源占用率也較大[9,10]。
本文主要研究面向監(jiān)控視頻的行人檢測方法。對于視頻監(jiān)控系統(tǒng)的應(yīng)用而言,為保障實時處理的需求,要求行人檢測算法的運算效率要高。另外,視頻監(jiān)控系統(tǒng)中同時要監(jiān)控的攝像機(jī)路數(shù)非常多,此時對行人檢測算法的虛警率指標(biāo)要求較高,如果行人檢測算法經(jīng)常引起虛警,那么視頻監(jiān)控系統(tǒng)的行人智能預(yù)警功能就難以達(dá)到降低值班人員工作量的目標(biāo)?,F(xiàn)有行人檢測算法還難以滿足視頻監(jiān)控系統(tǒng)的這兩種應(yīng)用需求,尤其是虛警率指標(biāo)。
為此,本文提出一種結(jié)合貝葉斯理論的行人檢測方法,設(shè)計思想是先依據(jù)運動檢測方法剔除大面積背景區(qū)域,降低這些背景區(qū)域引起的虛警現(xiàn)象和時間耗費;然后在傳統(tǒng)的結(jié)合HOG特征和SVM分類器的行人檢測的基礎(chǔ)上,基于貝葉斯理論估計每一個像素點屬于行人目標(biāo)的后驗概率,濾除錯誤檢測的行人目標(biāo)區(qū)域,最終目標(biāo)是降低視頻監(jiān)控系統(tǒng)的虛警率。
本文面向監(jiān)控視頻的行人檢測難題,提出一種基于貝葉斯理論的行人檢測方法,實現(xiàn)流程如圖1所示。首先,采用Vibe方法進(jìn)行前景提取,初步定位可疑行人區(qū)域;然后,采用經(jīng)典的結(jié)合HOG特征和SVM分類器的行人檢測方法,獲取行人目標(biāo)矩形窗口;在此基礎(chǔ)上,依據(jù)貝葉斯理論計算像素點屬于行人目標(biāo)的后驗概率,得到一幅概率圖像;最后采用OTSU方法對概率圖像進(jìn)行自適應(yīng)分割,得到最終的行人檢測結(jié)果,詳細(xì)過程描述如下。
圖1 本文方法實現(xiàn)流程
在監(jiān)控視頻中,行人屬于運動的前景目標(biāo),可以通過運動檢測方法快速提取前景目標(biāo)區(qū)域。
常用的運動檢測方法可以分為背景差分法、幀間差分法和光流法3類??紤]到本文的目標(biāo)是快速檢測監(jiān)控視頻中的行人目標(biāo),這里采用背景差分法來提取前景區(qū)域。主要原因是光流法運算效率偏低,而幀間差分法提取的運動目標(biāo)不完整且對走走停停的目標(biāo)容易漏檢。
背景差分法的關(guān)鍵是構(gòu)建背景模型,常用的有混合高斯背景模型、自組織背景模型等。本文采用文獻(xiàn)[11]所述的Vibe方法,該方法的突出特點是背景模型構(gòu)建效率很高,而且可以針對單幀圖像構(gòu)建背景模型,不需要特定數(shù)據(jù)的訓(xùn)練過程。對于攝像機(jī)固定的監(jiān)控視頻而言,該方法在高效提取前景目標(biāo)區(qū)域的前提下,還取得了非常高的召回率指標(biāo)。對于本文的行人目標(biāo)檢測應(yīng)用而言,采用該運動檢測方法提取前景目標(biāo)時,目標(biāo)漏檢現(xiàn)象很少,這非常有利于后續(xù)行人目標(biāo)的檢測。
運動檢測之后可以得到一幅二值掩膜圖像B,其中,前景區(qū)域的像素點賦值為1,背景區(qū)域的像素點賦值為0。
為了修復(fù)前景區(qū)域目標(biāo)的不完整現(xiàn)象和降低噪聲干擾,本文采用數(shù)學(xué)形態(tài)學(xué)的頂帽變換對二值掩膜圖像B進(jìn)行濾波,濾波模板尺寸設(shè)為5×5。
在基于圖像的行人檢測方法中,結(jié)合HOG特征與SVM分類器的行人檢測方法相對而言兼顧了運算效率和檢測效果。本文選用該方法提取行人特征并進(jìn)行分類,詳見文獻(xiàn)[8]。需要說明的是,本文是針對監(jiān)控視頻進(jìn)行行人檢測的,因此可以采用前述的前景提取步驟來縮小行人檢測的范圍。具體到實現(xiàn)時,在提取HOG特征前對檢測窗口所對應(yīng)的二值掩膜窗口進(jìn)行判斷,如果對應(yīng)的二值掩膜窗口中不包含前景像素點,則認(rèn)為該檢測窗口不包含行人目標(biāo),不需要再進(jìn)行HOG特征提取和SVM分類步驟,這樣不僅可以提高運算效率,而且可以降低背景區(qū)域?qū)π腥四繕?biāo)檢測的干擾,從而降低虛警。需要指出的是,在檢測窗口中提取HOG特征時針對的是窗口區(qū)域的灰度圖像。
另外,文獻(xiàn)[8]在檢測行人時對圖像進(jìn)行多尺度的平滑窗遍歷,這樣每一個位置可能檢測出多個行人目標(biāo)窗口,文獻(xiàn)[8]通過窗口合并和過濾來降低誤檢,并得到最終的行人檢測結(jié)果。然而,簡單的窗口合并與過濾難以有效降低行人目標(biāo)的誤檢現(xiàn)象。本文的思路是充分利用視頻的時間相關(guān)性,結(jié)合貝葉斯理論來對結(jié)合HOG特征與SVM分類得到的檢測結(jié)果進(jìn)行濾波,詳細(xì)見下一節(jié)的描述。因此,這里不像文獻(xiàn)[8]那樣進(jìn)行窗口的合并與過濾,而是直接保存所有檢測到的行人目標(biāo)矩形框集合R。
經(jīng)過前述的前景提取過程,得到了一個二值掩膜B;經(jīng)過結(jié)合HOG特征與SVM分類的行人檢測,得到了一個行人目標(biāo)矩形框集合R。本文結(jié)合這兩組信息,依據(jù)貝葉斯理論來計算各個像素點屬于行人目標(biāo)的后驗概率。
給定兩個隨機(jī)變量Sp和Zp。其中,Sp用于指示圖像中像素點p處是否真實存在行人目標(biāo)。Zp用于指示圖像中像素點p處是否檢測到行人目標(biāo),也即采用前述的行人檢測方法在像素點p處輸出的行人檢測結(jié)果。
采用貝葉斯理論,可以通過觀測值Zp來估計Sp的概率,表示為
p(Sp|Zp)=p(Sp)p(Zp|Sp)
(1)
其中,p(Sp|Zp)也稱為后驗概率,p(Sp)稱為先驗概率,p(Zp|Sp)表示似然。
采用貝葉斯理論的目標(biāo)是通過與前面的觀測結(jié)果進(jìn)行比較,來濾除錯誤檢測到的虛假行人目標(biāo)。
下面介紹先驗概率和似然的計算方法。
(1)先驗概率計算
對于每一個像素點p,本文先從目標(biāo)矩形框集合R中找到包含該像素點的矩形框子集,表示為Rp。
C(Rp)=
(2)
其中
(3)
(4)
記像素點p的坐標(biāo)為(xp,yp),按照距離的遠(yuǎn)近,橫坐標(biāo)xp相對與矩形框子集Rp的權(quán)重因子可以采用分段線性函數(shù)來表示,為
w(xp,Rp)=
(5)
類似地,縱坐標(biāo)yp相對與矩形框子集Rp的權(quán)重因子可以表示為
w(yp,Rp)=
(6)
本文采用這兩個權(quán)重來計算像素點p屬于行人目標(biāo)的概率表示為
(7)
上式所表示的意義是,像素點p所從屬的目標(biāo)矩形框數(shù)量越多,離這些矩形框的最小交叉矩形區(qū)域的中心越近,離這些矩形框的最大外接矩形區(qū)域的邊界越遠(yuǎn),那么該像素點屬于行人目標(biāo)的概率越大。其中,|R|表示該幀圖像所檢測的目標(biāo)矩形框總數(shù)。
基于此,像素點p屬于行人目標(biāo)的先驗概率可以表示為
(8)
這樣,每一幀圖像檢測完之后,存儲每一個像素點屬于行人目標(biāo)的先驗概率,經(jīng)過每一幀計算結(jié)果的更新,行人目標(biāo)的先驗概率越來越準(zhǔn)確。
(2)似然計算
對于圖像中的每一個像素點,如果該像素點屬于行人目標(biāo),那么需要滿足兩個條件:一是該像素點是前景區(qū)域,也即在二值掩膜B中該像素點所對應(yīng)的灰度值應(yīng)當(dāng)為1;二是該像素點應(yīng)當(dāng)屬于目標(biāo)矩形框集合R,而且該像素點所從屬的目標(biāo)矩形框越多,則該像素點屬于行人目標(biāo)的概率越大?;谶@一思路,本文設(shè)計的似然計算公式為
(9)
其中,NRi表示矩形框Ri的面積,也即Ri所包含的像素點數(shù)量。B(t)表示二值掩膜B在像素點t處的取值。
得到先驗概率和似然之后,依據(jù)式(1)可以計算像素點p屬于行人目標(biāo)的后驗概率。
經(jīng)過上述處理之后,每幀圖像上的每一個像素點都對應(yīng)了一個后驗概率,取值范圍為0~1。將其乘以灰度級L,這樣每一幀圖像就可以轉(zhuǎn)換成一幅灰度級為L的概率圖像,記為I。本文取L=100。
在前面得到的概率圖像I中,像素點的值越大,說明該像素點屬于行人目標(biāo)的概率越大,反之越小。這樣,可以通過圖像分割的方法來提取行人目標(biāo)像素點。
在圖像分割領(lǐng)域,OTSU方法依據(jù)類間方差最大準(zhǔn)則計算最優(yōu)分割閾值,是公認(rèn)的分割結(jié)果穩(wěn)定且自適應(yīng)能力強(qiáng)的圖像分割方法。本文采用OTSU方法計算概率圖像的最佳分割閾值,表示為
(10)
其中,δ(t)表示以灰度值t為分割閾值將圖像分為兩類時的類間方差,可以表示為
(11)
其中
(12)
(13)
(14)
(15)
這里,N表示概率圖像I中的像素點總數(shù),ni表示概率圖像I中灰度值為i的像素點個數(shù)。
可見,OTSU算法是從所有灰度值中,選出一個使得分割后類間方差最大的灰度值作為最優(yōu)的分割閾值。這樣可以保證圖像分割時錯分概率最小,而且分割效果理想與穩(wěn)定。
采用最優(yōu)分割閾值Topt對概率圖像進(jìn)行分割,大于分割閾值Topt的像素點判定為行人目標(biāo)像素點,賦值為1;其它像素點判定為背景像素點,賦值為0。最后對分割后的二值圖像進(jìn)行數(shù)學(xué)形態(tài)學(xué)的頂帽變換,此處的濾波模板尺寸設(shè)為3×3,主要用于濾除噪聲。這樣,即可得到屬于行人目標(biāo)的像素點。掃描這些像素點組成的各個連通域的外接矩形框,即為最終的行人檢測結(jié)果。
為了定量評價本文方法的性能,本文在公開測試數(shù)據(jù)集上進(jìn)行行人檢測實驗,將本文方法與文獻(xiàn)[3,7,8]所述的行人檢測方法進(jìn)行性能對比,定量評價本文方法的檢測性能。下面首先說明本文實驗采用的行人數(shù)據(jù)集以及定量評價指標(biāo),然后給出不同方法的實驗結(jié)果與性能對比分析。
(1)實驗數(shù)據(jù)集
在行人檢測領(lǐng)域的公開測試數(shù)據(jù)集中,Caltech數(shù)據(jù)集與本文的研究對象相符,為監(jiān)控視頻數(shù)據(jù)集。本文選用該數(shù)據(jù)集測試本文方法的性能指標(biāo)。另外,本文方法中用到SVM分類器,該分類器的訓(xùn)練常用INRIA數(shù)據(jù)集,如文獻(xiàn)[8]所述。因此,本文也選用INRIA數(shù)據(jù)集進(jìn)行SVM分類器的訓(xùn)練。下面簡要介紹這兩個數(shù)據(jù)集。
1)Caltech數(shù)據(jù)集
Caltech數(shù)據(jù)集收集的是在實際監(jiān)控場所拍攝的街區(qū)視頻,分辨率為640×480,幀率為30 fps,其中約含250 000幀圖像,所有行人目標(biāo)都已進(jìn)行人工標(biāo)注,共計2300個行人、350 000個行人窗口。
2)INRIA數(shù)據(jù)集
INRIA數(shù)據(jù)集收集的是裁剪過的行人圖像和非行人圖像,其中,圖像總數(shù)為5264幅,行人圖像3548幅,非行人圖像1716幅。
在后續(xù)的性能指標(biāo)測試過程中,所有行人檢測方法都采用INRIA數(shù)據(jù)集進(jìn)行分類器的訓(xùn)練,采用Caltech數(shù)據(jù)集進(jìn)行行人檢測測試。
(2)性能評價指標(biāo)
行人檢測領(lǐng)域常用的檢測效果評價指標(biāo)有兩個,一是真正率(true positive,TP)指標(biāo),可以表示為
(16)
二是假正率(false positive,F(xiàn)P)指標(biāo),可以表示為
(17)
這里,行人窗口檢測結(jié)果是否正確是由IoU指標(biāo)來判斷的,如文獻(xiàn)[8]所述。IoU的定義為
(18)
另外,對于監(jiān)控視頻分析而言,算法的運算效率也是非常重要的性能評價指標(biāo)。本文采用檢測幀率(detection frame rate,DFR)來描述算法的運算效率,檢測幀率是指每秒可以處理的圖像數(shù)量,單位為fps??紤]到算法運行的軟硬件平臺性能越高,檢測幀率越快。為此,本文在對比不同方法的檢測幀率時,在相同軟硬件平臺下測試檢測幀率指標(biāo),軟硬件平臺參數(shù)為:
操作系統(tǒng):Windows 7 Service Pack 1 64 bits;
CPU:Intel(R) CoreTMi5-4570 @3.2 GHZ;
內(nèi)存:DDR3 16 G;
軟件平臺:Microsoft Visual Studio 2012;
圖2給出了不同行人檢測方法的真正率和假正率指標(biāo)的對比結(jié)果。表1給出了不同行人檢測方法的檢測幀率對比結(jié)果。
圖2 不同方法的TP和FP指標(biāo)對比
方法DFR/fps文獻(xiàn)[3]方法10.1文獻(xiàn)[7]方法21.3文獻(xiàn)[8]方法4.9本文方法21.6
由圖2可見,4種方法的真正率指標(biāo)相差不大,其中本文方法與文獻(xiàn)[8]所述方法的真正率指標(biāo)相當(dāng),高于其它兩種方法。這說明,4種方法在檢測行人目標(biāo)時漏檢行人目標(biāo)的次數(shù)差異不大。從假正率指標(biāo)來分析,本文方法的假正率指標(biāo)明顯低于其它3種方法,尤其是文獻(xiàn)[3,8]兩種方法,究其原因,主要有兩個方面:第一,本文方法在前景提取階段剔除了大面積的背景區(qū)域,降低了在這些區(qū)域可能產(chǎn)生的誤檢行人窗口,這一點與文獻(xiàn)[7]所述方法類似,因此,文獻(xiàn)[7]的假正率指標(biāo)也明顯低于文獻(xiàn)[3,8]兩種方法;第二,本文方法對結(jié)合HOG特征和SVM分類器檢測到的行人目標(biāo)窗口進(jìn)一步進(jìn)行貝葉斯學(xué)習(xí),依據(jù)視頻的時間相關(guān)性來增強(qiáng)行人目標(biāo)區(qū)域的先驗概率,依據(jù)二值掩膜和行人目標(biāo)窗口集來估計像素點屬于行人目標(biāo)的后驗概率,并采用OTSU方法進(jìn)行自適應(yīng)的分割,可以有效剔除誤檢的行人目標(biāo)窗口,大幅降低行人檢測的假正率指標(biāo)。
由表1可見,本文方法的檢測幀率指標(biāo)與文獻(xiàn)[7]所述方法相當(dāng),遠(yuǎn)高于文獻(xiàn)[3,8]所述方法。這主要是因為本文方法與文獻(xiàn)[7]所述方法一樣,先采用運動檢測方法剔除了大面積的背景區(qū)域,降低了在這些區(qū)域進(jìn)行行人檢測引起的時間消耗,因此大幅提高了整體檢測的檢測幀率指標(biāo)。與文獻(xiàn)[7]所述方法相比,本文方法盡管增加了后驗概率估計等步驟,但是,這些步驟的計算復(fù)雜度很低,而且本文方法在前景提取步驟的運算效率高于文獻(xiàn)[7]所述方法,因此,最終測試結(jié)果本文方法的檢測幀率指標(biāo)還略高于文獻(xiàn)[7]所述方法。
通過以上的實驗分析,可見本文方法在面向監(jiān)控視頻的行人檢測應(yīng)用時其行人檢測性能優(yōu)于其它3種對比方法,不僅真正率和檢測幀率指標(biāo)高,更重要的是假正率指標(biāo)遠(yuǎn)低于其它方法。這樣,將本文方法應(yīng)用于視頻監(jiān)控系統(tǒng),可以有效降低行人檢測的虛警率。
本文主要針對視頻監(jiān)控系統(tǒng)對行人檢測的效率和虛警率指標(biāo)的要求,提出了一種基于貝葉斯理論的監(jiān)控視頻行人檢測方法,與傳統(tǒng)方法相比,本文方法主要進(jìn)行了兩個方面的改進(jìn)和創(chuàng)新研究:
(1)結(jié)合監(jiān)控視頻特性,行人屬于運動的前景目標(biāo),因此本文先采用Vibe算法提取前景目標(biāo)區(qū)域,縮小后續(xù)行人檢測的范圍,間接降低虛警和提高運算效率。
(2)在前景提取結(jié)果和結(jié)合HOG特征與SVM分類的行人檢測結(jié)果的基礎(chǔ)上,基于貝葉斯理論計算每一個像素點屬于行人目標(biāo)的后驗概率,用于濾除前期錯誤檢測的虛假目標(biāo),降低虛警。
通過這兩個方面的改進(jìn)和創(chuàng)新,本文方法在Caltech數(shù)據(jù)集上進(jìn)行行人檢測實驗時,真正率和檢測幀率高,且假正率非常低。因此,采用本文方法進(jìn)行視頻監(jiān)控系統(tǒng)的行人檢測,可以有效降低系統(tǒng)的虛警率,同時具有較高的運算效率。
參考文獻(xiàn):
[1]Benenson R,Omran M,Hosang J,et al.Ten years of pedestrian detection,what have we learned?[J].Computer Scie-nce,2014,8926(1):613-627.
[2]ZHANG Ronghui,LI Fuliang,ZHOU Xi,et al.A pedestrian detection method based on spatio temporal data fusion of laser and video[J].Transportation System Engineering and Information,2015,15(3):49-55(in Chinese).[張榮輝,李福樑,周喜,等.一種基于激光與視頻信息時空數(shù)據(jù)融合的行人檢測方法[J].交通運輸系統(tǒng)工程與信息,2015,15(3):49-55.]
[3]Zhang S,Bauckhage C,Cremers A B.Informed Haar-like features improve pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:947-954.
[4]XIAO Degui,XIN Chen,ZHANG Ting,et al.Significant texture features and pedestrian detection in vehicular environment[J].Journal of Software,2014,25(3):675-689(in Chinese).[肖德貴,辛晨,張婷,等.顯著性紋理結(jié)構(gòu)特征及車載環(huán)境下的行人檢測[J].軟件學(xué)報,2014,25(3):675-689.]
[5]ZHOU Shuren,WANG Gang,XU Yuefeng.Pedestrian detection based on improved HLBP texture features[J].Computer Engineering and Science,2016,38(5):960-967(in Chinese).[周書仁,王剛,徐岳峰.改進(jìn)型HLBP紋理特征的行人檢測[J].計算機(jī)工程與科學(xué),2016,38(5):960-967.]
[6]Hoang V D,Le M H,Jo K H.Hybrid cascade boosting machine using variant scale blocks based HOG features for pedestrian detection[J].Neurocomputing,2014,135(8):357-366.
[7]Zhang S,Klein D A,Bauckhage C,et al.Fast moving pedestrian detection based on motion segmentation and new motion features[J].Multimedia Tools and Applications,2016,75(11):6263-6282.
[8]Yadav R P,Kutty K,Ugale S P.Implementation of robust HOG-SVM based pedestrian classification[J].International Journal of Computer Applications,2015,114(19):10-16.
[9]Luo P,Tian Y,Wang X,et al.Switchable deep network for pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:899-906.
[10]Cai Z,Saberian M,Vasconcelos N.Learning complexity-aware cascades for deep pedestrian detection[C]//IEEE International Conference on Computer Vision.IEEE,2015:3361-3369.
[11]Barnich O,Droogenbroeck M V.ViBe:A universal background subtraction algorithm for video sequences[J].IEEE Transactions on Image Processing,2015,20(6):1709-1724.