李 磊,張 博
(1.上海市公安局青浦分局, 上海 201700;2.上海交通大學(xué) a.電子工程系 圖像通信與網(wǎng)絡(luò)工程研究所;b.上海市數(shù)字媒體處理與傳輸重點實驗室, 上海 200240)
?
基于CENTRIST方法與顯著圖分割的行人檢測方法
李 磊1,2a,張 博2a,2b
(1.上海市公安局青浦分局, 上海 201700;2.上海交通大學(xué) a.電子工程系 圖像通信與網(wǎng)絡(luò)工程研究所;b.上海市數(shù)字媒體處理與傳輸重點實驗室, 上海 200240)
在智能監(jiān)控系統(tǒng)中,行人是最為關(guān)鍵的目標(biāo)對象。監(jiān)控系統(tǒng)可根據(jù)當(dāng)前捕獲的行人檢測結(jié)果,觸發(fā)跟蹤系統(tǒng)持續(xù)觀察興趣目標(biāo),從而給出興趣目標(biāo)的行為與狀態(tài)信息??紤]到行人檢測結(jié)果直接影響跟蹤系統(tǒng)的輸出,基于CENTRIST(Census Transform Histogram)方法的行人檢測結(jié)果,采用顯著圖分割技術(shù),將包含行人的前景區(qū)域與檢測框內(nèi)的背景區(qū)域分離開來,使得跟蹤系統(tǒng)能夠根據(jù)行人的主體運動部分做出準(zhǔn)確判斷,有效地緩解了背景區(qū)域以及行人局部運動(如手、腳運動)對跟蹤結(jié)果的干擾。實驗結(jié)果表明,該行人檢測方法在提高后續(xù)跟蹤模塊準(zhǔn)確率的同時,又能適用于實時性要求較高的智能視頻監(jiān)控系統(tǒng)。
智能監(jiān)控;行人檢測;顯著圖分割
行人檢測是計算機視覺領(lǐng)域中的一個重要問題,并且被廣泛應(yīng)用于場景監(jiān)控、智能交通、先進(jìn)車輛技術(shù)、視頻摘要提取等眾多領(lǐng)域。如何在各種復(fù)雜場景下,快速準(zhǔn)確地實現(xiàn)行人檢測仍然是極具挑戰(zhàn)性的課題。同時,行人檢測往往作為后續(xù)跟蹤系統(tǒng)的輸入,其檢測結(jié)果的精確性將直接影響跟蹤結(jié)果的穩(wěn)定性和準(zhǔn)確性。
近十年來,各種行人檢測的算法相繼被提出,并在計算機視覺領(lǐng)域產(chǎn)生了許多商業(yè)應(yīng)用,如比利時Traficon生產(chǎn)的等待區(qū)行人檢測產(chǎn)品Safe-walk, 瑞典沃爾沃集團(tuán)生產(chǎn)的車載行人檢測系統(tǒng)。但是,行人檢測仍然面臨諸多挑戰(zhàn)問題:當(dāng)行人被背景遮擋、行人之間發(fā)生相互遮擋,存在背景的混亂與干擾時,都會導(dǎo)致行人檢測的準(zhǔn)確率明顯下降。另一方面,為獲得對行人的持續(xù)觀察并實現(xiàn)后續(xù)行為分析,跟蹤模塊通常級聯(lián)在行人檢測模塊之后,為系統(tǒng)提供興趣目標(biāo)的時空軌跡和其他狀態(tài)信息。通常,智能交通系統(tǒng)對行人檢測和跟蹤的實時性和魯棒性有很高的要求,目前能代表最先進(jìn)水平的行人檢測與跟蹤系統(tǒng)中,往往行人檢測算法的計算復(fù)雜度較高,以給出初始幀興趣目標(biāo)的精確定位。接下來,跟蹤系統(tǒng)將根據(jù)行人檢測結(jié)果實時給出后續(xù)幀的時空軌跡定位,因此跟蹤系統(tǒng)的計算復(fù)雜度通常較低,性能主要依賴于初始幀目標(biāo)檢測模塊的定位結(jié)果。在這些系統(tǒng)中,行人檢測模塊與跟蹤模塊之間存在一個有效的反饋機制。一方面,跟蹤的結(jié)果可以限定檢測模塊的檢測范圍。一般在行人檢測問題中,假設(shè)行人的運動速度相對緩慢,行人在下一幀中可能出現(xiàn)的位置被限定在當(dāng)前跟蹤位置的鄰域范圍內(nèi),相比于在整個幀內(nèi)檢測,節(jié)省了大量計算時間,有效地提高了時效性。另一方面,檢測結(jié)果可以輔助調(diào)整跟蹤結(jié)果,并且在目標(biāo)物體從視頻視野外重新回到視野之中的這種情況下,檢測模塊是重新開啟跟蹤檢測機制的關(guān)鍵。當(dāng)跟蹤結(jié)果由于光流不穩(wěn)定等因素而導(dǎo)致偏移目標(biāo)物體實際位置時,檢測模塊能夠及時根據(jù)檢測到的結(jié)果對跟蹤結(jié)果進(jìn)行修正,防止跟蹤誤差累積;而在長期跟蹤的問題中,目標(biāo)物體一旦移動到視頻視野之外,跟蹤模塊無法工作,此時檢測模塊在整個幀內(nèi)檢測,一旦目標(biāo)物體回到視野范圍,檢測模塊可以重新確定其位置,并以此為初始位置再開啟跟蹤模塊,使得長期跟蹤得以繼續(xù)。
現(xiàn)在的檢測算法中,檢測結(jié)果均用矩形框表示,但包括行人在內(nèi)目標(biāo)物體通常具有不規(guī)則的外形,因此,檢測到的矩形框內(nèi)除了包括行人的興趣區(qū)域以外,還或多或少地存在背景區(qū)域的圖像內(nèi)容。就目前的跟蹤算法而言,無論是稀疏特征點跟蹤還是基于密集運動場的跟蹤,都會受到背景區(qū)域運動信息的干擾。在行人檢測問題中,人體軀干的主體運動是跟蹤算法重點分析的對象,人體手腳的局部運動也會對跟蹤計算結(jié)果造成干擾。因此,如何有效地定位人體的軀干部分是一個關(guān)鍵問題。
本文基于CENTRIST (Census Transform Histogram)行人檢測算法提出一種更為精確的行人檢測算法,選擇CENTRIST行人檢測算法主要考慮了其實時性和魯棒性,加入顯著圖分割方法可有效分離背景區(qū)域,使得跟蹤結(jié)果基于人體的全局運動信息輸出,實驗結(jié)果表明該方法顯著提升了后續(xù)跟蹤模塊的精確性和魯棒性。
在行人檢測領(lǐng)域,檢測器的特征描述子是決定檢測準(zhǔn)確率的關(guān)鍵。目前,HOG (Histogramsof Oriented Gradients),SIFT (Scale-Invariant Feature Transform),CENTRIST等都是十分常見的特征描述子。
HOG在行人檢測中的應(yīng)用十分廣泛,它通過對梯度方向做統(tǒng)計,生成HOG特征向量來訓(xùn)練SVM (Suport Vector Machine),從而檢測圖像或視頻中的人。HOG行人檢測的準(zhǔn)確率較高,可達(dá)到86%。但是,其處理過程較為繁瑣,并且在SVM分類器中使用高斯核,這使得HOG行人檢測的計算時間較長[1]。
SIFT對旋轉(zhuǎn)、尺度縮放、仿射變換、視角變化、光照變化等干擾因素具有一定的魯棒性,因此在圖像匹配、物體識別、圖像拼接等物體尺度、視角變化很大的領(lǐng)域中應(yīng)用十分廣泛。而在行人檢測中,行人往往以直立的姿態(tài)出現(xiàn),并且在同一視頻內(nèi),行人的尺度大小變化相對來說比較小。另一方面,對行人的跟蹤通常不會持續(xù)太長的時間,在這段時間內(nèi),光照等外界因素可以視為恒定,由此可見,SIFT在行人檢測中并不能發(fā)揮出其優(yōu)勢。
CENTRIST描述物體邊緣輪廓的信息,它先對圖像進(jìn)行Sobel邊緣提取,消去局部紋理特征;然后計算圖像中相鄰像素的比較信息,即比較1個像素與其周圍8個相鄰像素的灰度值大小來確定CT (Census Transform)值,如圖1所示??梢园l(fā)現(xiàn),CT值計算的是一種相對灰度分布特性,因此對光照變化和噪聲干擾都有一定的魯棒性。接下來,CENTRIST檢測方法將計算當(dāng)前候選區(qū)域內(nèi)所有像素點的CT值,得到CT直方圖,即CENTRIST描述符,它可以和線性分類器結(jié)合得十分緊密,因此,能夠很大程度地節(jié)約計算時間??偟膩碚f,CENTRIST是一種平均檢測率較高(83.5%),且速度較快的描述子[2-3]。
圖1 CENTRIST整體工作框架及CT值的計算方式
利用CENTRIST行人檢測結(jié)果進(jìn)行行人跟蹤時,通常先要選取興趣特征點來計算行人的運動場信息。因此,興趣特征點的提取正確與否直接決定了跟蹤效果的好壞。如果物體的檢測框不夠精確,則會混入較為可觀的背景區(qū)域信息。那么,計算行人的運動信息時,混入的背景特征點會作為局外點干擾,導(dǎo)致行人運動信息的計算結(jié)果存在較大誤差。
計算下一幀的行人定位框時,本文首先用Lucas Kanade光流法計算每個特征跟蹤點在下一幀的位置,再利用這些跟蹤點,計算每個特征跟蹤點的位移,以及每個點在相鄰兩幀中的尺度變化,即
(1)
式中,SNextk是第k個點對在下一幀中的歐氏距離;SPrevk是第k個點對在當(dāng)前幀中的歐氏距離。最后,取Si和Scalek的中值作為兩幀之間行人框的位移和尺度變化值,計算出下一幀中行人框的位置和大小。
如果有相當(dāng)數(shù)量的特征點落在背景區(qū)域,由于物體與背景的運動場存在明顯差異,計算出的位移和尺度變化將混入背景的相應(yīng)信息,導(dǎo)致計算結(jié)果不能真實反映行人的位置和尺度信息,進(jìn)而導(dǎo)致跟蹤系統(tǒng)的魯棒性顯著下降。
如圖2所示,圖2a顯示初始幀的行人檢測結(jié)果不夠精確,此時行人框定位不夠緊湊,導(dǎo)致有較大的背景區(qū)域被計入行人的跟蹤過程中,從而導(dǎo)致跟蹤結(jié)果的行人框明顯大于行人區(qū)域的尺度大小,如圖2b所示。對應(yīng)地,圖2c的行人檢測結(jié)果定位較為精確,行人框定位結(jié)果中混入的背景區(qū)域小,此時跟蹤的結(jié)果有更好的性能。如圖2d所示,跟蹤結(jié)果的行人框大小與實際的行人區(qū)域尺度大小基本一致。
圖2 行人檢測結(jié)果對跟蹤結(jié)果的影響
為了去除跟蹤過程中背景特征點對跟蹤結(jié)果的不良影響,筆者采用GMR (Graph-Based Manifold Ranking)方法來提取行人框中的顯著區(qū)域[4],也就是行人的軀干部分,并且將提取出的顯著區(qū)域作為掩模(mask)來濾除背景中的特征點。
從圖3中可以看出,直接根據(jù)初始檢測結(jié)果也就是圖3a的行人框中提取特征點,會有一小部分特征點落入背景區(qū)域,從而造成跟蹤精確度下降,最終得到如圖2(b)的尺度明顯變過大的跟蹤結(jié)果。采用圖3c中檢測獲得的顯著區(qū)域作為掩模濾除背景特征點之后,所有特征點都落在了行人身上,因此可以有效地排除背景特征點對行人跟蹤結(jié)果的影響。
表1左側(cè)的結(jié)果是利用CENTRIST行人檢測方法[4]的部分檢測結(jié)果,可以看到,行人區(qū)域的定位框雖然框到了目標(biāo)物體,但與此同時,大量的背景也被框入,這將會顯著降低檢測結(jié)果的精確度進(jìn)而影響后續(xù)跟蹤結(jié)果的準(zhǔn)確度。表1右側(cè)的結(jié)果在左側(cè)圖片的基礎(chǔ)上,利用GMR算法,分割出行人檢測框中的顯著區(qū)域后,根據(jù)顯著區(qū)域得到的可靠特征點修正初
始的檢測結(jié)果。對比兩種檢測方法,本文提出的行人檢測方法可保證檢測結(jié)果中包含的背景區(qū)域被大幅度縮減,從而提高后續(xù)跟蹤模塊的魯棒性。
表1 兩種檢測方法的實驗結(jié)果對比
筆者對Caltech數(shù)據(jù)庫中的2段視頻序列(其中30幀人工標(biāo)注了行人位置信息)進(jìn)行了行人跟蹤檢測的對比:基于CENTRIST檢測結(jié)果,行人所占百分比平均為45.3%;而本文結(jié)合GMR提取顯著區(qū)域從而濾除背景區(qū)域干擾后,行人檢測結(jié)果中行人所占百分比平均為60.4%。
表2的左側(cè)視頻跟蹤結(jié)果是利用CENTRIST行人檢測方法[5]得到的部分跟蹤結(jié)果,右側(cè)是本文結(jié)合GMR實現(xiàn)行人區(qū)域分割后,利用緊湊的初始行人框得到的部分跟蹤結(jié)果。
表2 跟蹤性能對比實驗
可以看到,左側(cè)的跟蹤結(jié)果中,由于行人框中的背景較多,且背景靜止不動,造成了對行人框位置移動的干擾,導(dǎo)致行人框的移動速度沒能跟上行人,而是更多地停留在了背景上;右側(cè)的結(jié)果表明,緊湊的初始行人框有效地減少了背景區(qū)域的干擾,行人框的移動和尺度均都十分準(zhǔn)確。計算兩種方法得到的跟蹤框與真實跟蹤框的重疊度,其中基于CENTRIST檢測的跟蹤結(jié)果,平均重疊度僅為51.1%;而本文結(jié)合GMR提取顯著區(qū)域從而濾除背景區(qū)域干擾后,行人跟蹤結(jié)果中行人框的重疊度達(dá)到88.9%。
本文在CENTRIST行人檢測的基礎(chǔ)上,結(jié)合基于顯著圖分割方法分離出CENTRIST行人檢測結(jié)果中的背景區(qū)域,在繼承CENTRIST行人檢測速度的同時,排除了背景區(qū)域?qū)罄m(xù)跟蹤的干擾,有效地提高了跟蹤準(zhǔn)確率。在對行人位置準(zhǔn)確度要求較高的應(yīng)用,如車載行人跟蹤系統(tǒng)中,本文提出的方法具有很高的實用價值。
[1]DALAL N,TRIGGS B.Histograms of oriented gradients forhuman detection[C]//Proc.IEEE Conf.Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2005:886-893.
[2]WU Jianxin,LIU Nini,GEYER C,et al.C4: a real-time object detection framework[J].IEEE Trans.Image Processing,2013,22(10):4096-4107.
[3]李廣春,羅揚.基于CENTRIST特征的實時行人檢測算法的實現(xiàn)[J].電腦知識與技術(shù),2013,9(2):370-372.
[4]YANG Chuan,ZHANG Lihe,LU Huchuan,et al.Saliency detection via graph-based manifold ranking[C]//Proc.IEEE Conf.Computer Vision and PatternRecognition.[S.l.]:IEEE Press,2013:3166-3173.
[5]WU Jianxin,GEYER C,REHG J M.Real-time human detection using contour cues[C]//Proc.IEEE International Conference on Robotics and Automation.[S.l.]:IEEE Press,2011:860-867.
Pedestrian Detection Based on CENTRIST Method and Saliency Segmentation
LI Lei1,2a, ZHANG Bo2a,2b
(1.ShanghaiCityPublicSecurityBureauQingpuBranch,Shanghai201700,China;2a.InstituteofImageCommunicationandNetworkEngineering,DepartmentofElectronicEngineering;2b.ShanghaiKeyLaboratoryofDigitalMediaProcessingandTransmissions,ShanghaiJiaotongUniversity,Shanghai200240,China)
Pedestrians are the most important objects in intelligent surveillance tasks.When a pedestrian is detected, tracking module of the surveillance system will be triggered.Therefore,activity analysis and status description of the pedestrian can be provided when he/she is detected and tracked.Considering that the tracking performance is directly affected by the initial detection result, in this paper,a pedestrian detection method based on CENTRIST algorithm and saliency segmentation is proposed,which alleviates the interference in tracking incurred by background regions and local motion of human’s hands and feet.The background region and the main moving part of a pedestrian in the CENTRIST detection bounding box can be efficiently separated by the saliency segmentation method.Therefore, the tracking performance can be improved effectively since only the global motion of a pedestrianis computed.The experimental results show that the proposed method achieves promising tracking performance and shows applicability for a real-time intelligent surveillance system.
intelligent surveillance; pedestrian detection; saliency segmentation
TN919.8
A
10.16280/j.videoe.2015.07.022
2014-08-14
【本文獻(xiàn)信息】李磊,張博.基于CENTRIST方法與顯著圖分割的行人檢測方法[J].電視技術(shù),2015,39(7).
李 磊(1982—),碩士,主研圖像處理;
張 博(1991—),碩士,主研圖像處理、智能視頻分析。
責(zé)任編輯:閆雯雯