彭景維,童基均
(浙江理工大學(xué) 信息學(xué)院,杭州 310018)
基于多尺度協(xié)同的人頭檢測(cè)方法
彭景維,童基均
(浙江理工大學(xué) 信息學(xué)院,杭州 310018)
針對(duì)HOG特征本身不具有尺度不變性,在實(shí)際應(yīng)用中僅能檢測(cè)出與樣本圖片大小相差不大的目標(biāo)對(duì)象這一弊端,提出多尺度窗口融合的頭部檢測(cè)的方法;利用線性支持向量機(jī)在分類決策方面的優(yōu)勢(shì),與提取的HOG特征結(jié)合作分類器的離線訓(xùn)練;在實(shí)時(shí)的目標(biāo)檢測(cè)階段,采用高斯金字塔式縮放對(duì)輸入的視頻序列作多尺度處理,得到對(duì)應(yīng)的不同分辨率下的待檢測(cè)幀,在不同的尺度空間作人頭的掃描檢測(cè)并存儲(chǔ)結(jié)果;之后融合各尺度的檢測(cè)結(jié)果并在相應(yīng)位置決策標(biāo)定;實(shí)驗(yàn)對(duì)某監(jiān)控視頻作檢測(cè)分析,結(jié)果表明,該方法在檢出率、召回率、準(zhǔn)確度等方面均有較大提升。
多尺度;金字塔變換;窗口融合;梯度直方圖
計(jì)算機(jī)智能視頻監(jiān)控系統(tǒng)成為近年來(lái)的熱點(diǎn)研究方向,行人人頭檢測(cè)技術(shù)在視頻監(jiān)測(cè)領(lǐng)域的應(yīng)用也越來(lái)越普及,比如安防、人流量統(tǒng)計(jì)分析、舞臺(tái)虛擬編排的走位校正等應(yīng)用正發(fā)揮著越來(lái)越大的社會(huì)效益和利用價(jià)值。人頭檢測(cè)的研究發(fā)展至今,研究人員已做了大量的探索,Zhou等[1]對(duì)于較為擁擠的人群場(chǎng)景,利用多核學(xué)習(xí)技術(shù)并結(jié)合梯度直方圖和局部二元模型的特征集訓(xùn)練一個(gè)頭部檢測(cè)的分類器,并用該技術(shù)建立模型框架,實(shí)現(xiàn)頭部的檢測(cè)及形狀準(zhǔn)確識(shí)別。在Guan等[2]的系統(tǒng)中,忽略人體其它部位的形態(tài),將頭部建模為橢圓形,并與基于顏色直方圖的特征融合,用融合后的特征為檢測(cè)子,實(shí)現(xiàn)人的頭部的驗(yàn)證和追蹤。Aziz等[3]提出了一種基于骨架圖形的人頭檢測(cè)方法,該方法利用一種適應(yīng)骨架圖形分析技術(shù),在擁擠環(huán)境中辨別每個(gè)選定斑點(diǎn)的輪廓信息,以達(dá)到檢測(cè)行人頭部的目的。
方法均可檢測(cè)出視頻中的行人,然而實(shí)時(shí)視頻中的準(zhǔn)確度、魯棒性等均有待提高,如文獻(xiàn)[1]方法在場(chǎng)景復(fù)雜時(shí)漏檢較高,文獻(xiàn)[3]方法在視頻中人數(shù)不多的時(shí)候較為有效。本文提出一種檢測(cè)實(shí)時(shí)場(chǎng)景中的人頭部的方法,將Dalal等[4]提出的梯度直方圖(Histogram of Gradient, HOG)特征運(yùn)用到人頭檢測(cè)上,針對(duì)傳統(tǒng)HOG本身不具有尺度不變性等弊端,提出一種多尺度協(xié)同及檢測(cè)窗口融合的方法,以提高檢測(cè)精度和效率。
傳統(tǒng)HOG特征本身不具備尺度不變性,檢測(cè)窗口大小固定,對(duì)于實(shí)時(shí)視頻場(chǎng)景中的位置、大小等不斷變化的人頭目標(biāo)很難及時(shí)作出有效響應(yīng),本文針對(duì)這一弊端作出改進(jìn),主要按照以下兩個(gè)模塊進(jìn)行:一是分類器的離線訓(xùn)練階段,主要表現(xiàn)在正負(fù)樣本的采集、HOG特征的提取過(guò)程、SVM分類學(xué)習(xí)并生成頭部分類器等幾個(gè)方面;二是實(shí)時(shí)的在線目標(biāo)檢測(cè)階段,主要是圖像尺度縮放,并對(duì)縮放后的圖像提取HOG特征,這樣減少滑動(dòng)窗口分類時(shí)的重復(fù)提取,接著做檢測(cè)窗口的密集掃描處理,并用離線訓(xùn)練的分類器作檢測(cè)窗口的分類,保存分類結(jié)果,高斯金字塔的融合處理及標(biāo)定最終結(jié)果等過(guò)程。本文所述的檢測(cè)方法基本流程如圖1所示。
圖1 多尺度協(xié)同的人頭檢測(cè)方法流程圖
1.1 分類器離線訓(xùn)練
樣本庫(kù)的建立:
對(duì)于行人的頭部檢測(cè),樣本質(zhì)與量的好壞對(duì)于檢測(cè)結(jié)果準(zhǔn)確與否扮演重要角色。分類器離線訓(xùn)練過(guò)程的第一步是選取樣本,構(gòu)建訓(xùn)練分類器模型所需的樣本庫(kù),包括正樣本(頭部樣本)和負(fù)樣本(非頭部樣本)的選擇。
1) 頭部樣本選取頭部樣本作為訓(xùn)練數(shù)據(jù)集的正樣本,其選取的質(zhì)與量對(duì)于建立的分類器檢測(cè)性能的好壞和檢測(cè)結(jié)果的準(zhǔn)確性有直接的影響。由機(jī)器學(xué)習(xí)理論可知,訓(xùn)練一個(gè)性能優(yōu)良的分類器不僅需要一定數(shù)量的樣本,還需要樣本具有代表性,即盡可能使其涵蓋檢測(cè)過(guò)程中的各種情形。如:應(yīng)盡量涵蓋一定范圍內(nèi)的視野場(chǎng)景、光照、背景等多樣性變化條件下的行人頭部樣本采集情況。攝像頭視野下的人體頭部雖近似于圓,但頭部形狀實(shí)則因人而異,不同人的頭部形狀差異明顯,在實(shí)驗(yàn)條件允許時(shí),應(yīng)盡量采集不同攝像頭下行人的不同發(fā)型、不同年齡及性別等特征的人體頭部作為正樣本,使得到的分類器在離線訓(xùn)練階段便具有一定的魯棒性。
2) 非頭部樣本選取實(shí)驗(yàn)前,先對(duì)背景及周圍場(chǎng)景過(guò)濾,提取運(yùn)動(dòng)目標(biāo)區(qū)域。在作非頭部樣本選取時(shí),主要集中于人體各部位及附屬衣飾,如人的肩部,膝蓋、背包等。同時(shí),行人一般活動(dòng)于較開(kāi)放的場(chǎng)景,檢測(cè)中也難免會(huì)出現(xiàn)類似行人的運(yùn)動(dòng)目標(biāo),依現(xiàn)有提取方式,窮舉所有可能出現(xiàn)的這類對(duì)象較為不易,可盡量準(zhǔn)備那些可能出現(xiàn)在視頻場(chǎng)景中的類行人頭部樣本,如花叢、樹(shù)樁及其它動(dòng)物等,以完善負(fù)樣本集。
此外,人工裁剪的樣本尺寸大小不一,還需對(duì)原始正負(fù)樣本的尺寸歸一調(diào)整。本次實(shí)驗(yàn)采用圖像插值算法[5],將正負(fù)樣本統(tǒng)一調(diào)整為64(像素)×64(像素)。經(jīng)過(guò)灰度處理及歸一化之后的部分正負(fù)樣本如圖2所示。
圖2 部分正負(fù)訓(xùn)練樣本
行人頭部可視為剛體,但是不同的個(gè)體其形狀差異性仍較為明顯。不同的人,發(fā)型、頭飾等也有差異,即使同一人處于攝像頭下的位置不同,攝像頭讀取的頭部信息也會(huì)有變化。因HOG特征在應(yīng)對(duì)圖像幾何和光學(xué)的形變方面能保持很好的不變性,本文以此為特征描述子。
依據(jù)支持向量機(jī)在做分類決策的優(yōu)勢(shì)[6-7],實(shí)驗(yàn)以支持向量機(jī)為分類器,并與提取的HOG特征結(jié)合作分類器的離線訓(xùn)練和實(shí)時(shí)的頭部檢測(cè)。離線訓(xùn)練階段,將制作好的正負(fù)樣本輸入到SVM模型中,獲取該訓(xùn)練后的分類器。實(shí)驗(yàn)僅需判斷人頭及非人頭對(duì)象,則只需訓(xùn)練一個(gè)二分類器;實(shí)時(shí)檢測(cè)階段,將視頻序列輸入到已訓(xùn)練好的分類器中,通過(guò)設(shè)定的各參數(shù),使檢測(cè)窗口在經(jīng)尺度變換后的不同層作掃描檢測(cè),并分類決策。不同的層可能會(huì)對(duì)同一人頭重復(fù)檢測(cè),一個(gè)窗口也可能會(huì)因檢測(cè)到多個(gè)人頭對(duì)象造成的窗口重疊等問(wèn)題,本文通過(guò)融合技術(shù)對(duì)此優(yōu)化處理。
1.2 目標(biāo)在線檢測(cè)
1.2.1 多尺度分析
不同視角觀測(cè)到的自然界的對(duì)象呈現(xiàn)出不同形態(tài),機(jī)器視覺(jué)很難分析出未知場(chǎng)景中物體的尺度[8],因此,有必要考慮圖像同時(shí)在多尺度下的分析描述。本文選用高斯金字塔變換處理這一問(wèn)題。一幅圖像的金字塔是一系列以金字塔形狀排列的分辨率逐步變換的圖像的集合[9],將圖像與一系列大小不同的高斯核作卷積處理,得到圖像的多尺度表達(dá),使一幅圖像按一定的縮放系數(shù)α作出變換,實(shí)現(xiàn)圖像的多尺度變換。此模型的建立可分兩步進(jìn)行:先通過(guò)一個(gè)低通濾波器的平滑,再對(duì)平滑之后的圖像作抽樣和插值操作,得到按比例縮小或放大的圖像,如圖3所示。序列中的第i層圖像Li(x,y)與相鄰的第i-1層圖像Li-1(x,y)之間的關(guān)系如下:
(1)
(2)
由此,可以實(shí)現(xiàn)由L0,L1,…,LN構(gòu)成高斯金字塔層級(jí)模型。
圖3 圖像金字塔模型及變換
傳統(tǒng)的HOG采用單尺度固定大小的檢測(cè)窗口目標(biāo)的檢測(cè)。由于行人通常在運(yùn)動(dòng),很難獲取監(jiān)控視野中不同時(shí)刻行人的大小變化信息。分類器的訓(xùn)練前,已選定了大小合適的樣本,而檢測(cè)窗口的大小取決于訓(xùn)練樣本的大小,且樣本大小不易改變,這使得檢測(cè)窗口的大小也相對(duì)固定。檢測(cè)前先對(duì)視頻序列作高斯金字塔式的變換,這樣,原先同一幀中大小不同的人頭也可能在某一變換的尺度空間中被檢測(cè)。本文選定合適的縮放比,對(duì)輸入的視頻序列作高斯金字塔式縮放變換,再對(duì)變換后共5層不同尺度的圖像作掃描檢測(cè)。
1.2.2 窗口融合分析
窗口融合目的是為得到清晰準(zhǔn)確的檢測(cè)結(jié)果,也可減少檢測(cè)的計(jì)算量。人的頭部形狀的面積趨于相對(duì)統(tǒng)一的范圍,因此可通過(guò)面積閾值過(guò)濾檢測(cè)中可能出現(xiàn)的面積過(guò)大或過(guò)濾等不符合檢測(cè)結(jié)果的窗口。
實(shí)驗(yàn)檢測(cè)的人頭較多,窗口類型較復(fù)雜,在SVM作分類決策時(shí),人頭的形狀和大小不一,每幀作高斯金字塔變換后,同一尺度下,當(dāng)前幀中所有人頭被檢測(cè)的可能性不大。作多尺度檢測(cè)時(shí),易出現(xiàn)標(biāo)定多個(gè)檢測(cè)窗口,即窗口重疊的現(xiàn)象,為有效處理較多的檢測(cè)窗口,且需保證檢測(cè)結(jié)果的準(zhǔn)確性,首要原則是降低視頻序列中行人頭部的漏檢率,這可通過(guò)調(diào)節(jié)SVM分類器的閾值,以降低檢測(cè)結(jié)果為行人頭部的條件來(lái)實(shí)現(xiàn);第二,優(yōu)先處理同層的同類且時(shí)空距離較近的窗口;第三,經(jīng)檢測(cè)所標(biāo)定的人頭是否準(zhǔn)確,及標(biāo)定的人頭位置均以最終檢測(cè)和融合的結(jié)果為準(zhǔn)。具體的融合方式為:
1)經(jīng)每層的檢測(cè)后,若檢測(cè)到橫坐標(biāo)相同且重疊的人頭,則將其取并集后的頭部區(qū)域視為一個(gè)窗口;
2)經(jīng)過(guò)上述窗口面積閾值處理及同層窗口融合后,取各層人頭的選框大小及其質(zhì)心坐標(biāo)位置,并映射到在作尺度變換前的對(duì)應(yīng)幀的相應(yīng)位置。設(shè)P1,P2為任意兩個(gè)經(jīng)檢測(cè)之后的人頭標(biāo)定框,它們是否融合及融合的方式如下:
Pend=
(3)
若二者間的重疊面積小于它們較小面積的λ1倍,則不作處理,反之,需融合處理。其中,min(P1,P2)為取P1,P2中面積較小者的面積,area(P1,P2)表示取檢測(cè)窗口融合后整體的總面積,Pc表示經(jīng)上述處理后得到的新的標(biāo)定框,其質(zhì)心坐標(biāo)可取融合前的兩檢測(cè)框整體的質(zhì)心,其邊長(zhǎng)C的計(jì)算方法為:
C=L×areaRATE′
(4)
其中:L是融合前的P1,P2兩個(gè)檢測(cè)框各自邊長(zhǎng)組成的向量,areaRATE是這兩個(gè)檢測(cè)框各自的面積分別占它們疊加后的總面積的百分比向量;
3) 經(jīng)上述處理后,將融合后得到的最終的檢測(cè)框的大小、位置等屬性映射到在作金字塔變換前的對(duì)應(yīng)幀的相應(yīng)位置,標(biāo)定出最終的檢測(cè)結(jié)果。
當(dāng)前實(shí)驗(yàn)環(huán)境為Win7 32位系統(tǒng), Pentium(R) Dual-Core CPU T4300 @ 2.10 GHz 2.10 GHz,Matlab R2014a。正負(fù)樣本數(shù)量分別為903和1098個(gè)。測(cè)試視頻是某幢大樓一樓大廳某時(shí)段的監(jiān)控信息,其分辨率為640×480,任截取其中2880幀作為實(shí)驗(yàn)素材。實(shí)驗(yàn)中選取的樣本尺寸大小為64×64像素,每8×8的像素大小組成一個(gè)cell單元,每2×2個(gè)cell單元組成一個(gè)塊,一個(gè)block塊的大小為16×16。而每個(gè)cell有9個(gè)特征,則每個(gè)塊內(nèi)有4×9=36個(gè)特征,實(shí)驗(yàn)中設(shè)定步幅長(zhǎng)度為8個(gè)像素,則水平和垂直方向都有7個(gè)掃描窗口,易計(jì)算得,64×64的圖片共有36×7×7=1 764個(gè)特征。
圖4 a值與漏檢率的關(guān)系
經(jīng)多次試驗(yàn)發(fā)現(xiàn),當(dāng)高斯金字塔縮放系數(shù)α=1.2時(shí),漏檢率最小,僅為2.8%,如圖4所示。窗口融合過(guò)程中令閾值λ1=0.45,λ2=0.78時(shí),可達(dá)最佳實(shí)驗(yàn)結(jié)果。用同一測(cè)試視頻對(duì)文獻(xiàn)[1]、[3]的方法以及本文方法測(cè)試對(duì)比,部分實(shí)驗(yàn)畫面如圖5所示。
圖5 三組檢測(cè)方法的部分視頻畫面
為了衡量本文方法的性能,檢驗(yàn)方法也采用Li[10],Stewart等[11]使用的方式,需計(jì)算的參數(shù)指標(biāo)為:檢測(cè)率(DetectionRate,DR),召回率(Recall,RC),準(zhǔn)確率(Accuracy,AC)等,計(jì)算方式如下:
(5)
(6)
(7)
其中:TP(True Positive)表示真陽(yáng)性,F(xiàn)P(False Positive)表示假陽(yáng)性,TN(True Negative)表示真陰性,F(xiàn)N(False Negative)表示假陰性。經(jīng)統(tǒng)計(jì)分析,得出三組實(shí)驗(yàn)數(shù)據(jù)如表1所示。
通過(guò)上述圖5的比較分析可知,文獻(xiàn)[1]中的方法可檢測(cè)到實(shí)時(shí)視頻中的目標(biāo)對(duì)象,但漏檢較易出現(xiàn)。文獻(xiàn)[3]中,當(dāng)視頻畫面中出現(xiàn)的人頭對(duì)象較多時(shí),誤判率較高,同一可能的目標(biāo)對(duì)象會(huì)被多次檢測(cè),使得視頻畫面中出現(xiàn)多次重疊標(biāo)定現(xiàn)象,同時(shí)也有漏檢現(xiàn)象。而本文提出的檢測(cè)方法在這些方面顯然有很大改善,檢測(cè)結(jié)果的標(biāo)定清晰,在降低漏檢率的同時(shí)提高了檢測(cè)的準(zhǔn)確性。從表1中的數(shù)據(jù)可知,與前兩種檢測(cè)方法相比,本文方法有效提高了檢測(cè)率、召回率、準(zhǔn)確率等參數(shù)指標(biāo)。實(shí)驗(yàn)表明,該方法對(duì)于實(shí)時(shí)視頻場(chǎng)景中的人頭檢測(cè)在精確度、檢測(cè)效率方面有較好改善。
多尺度的HOG檢測(cè)繼承了HOG的優(yōu)點(diǎn),高斯金字塔的使用,改善了傳統(tǒng)的HOG特征的尺度不變性。針對(duì)傳統(tǒng)的HOG特征的單一性問(wèn)題,本文對(duì)輸入視頻序列先作高斯金字塔式的縮放處理,對(duì)縮放后的每層圖像作人頭的掃描檢測(cè)。針對(duì)傳統(tǒng)滑動(dòng)窗口技術(shù)經(jīng)檢測(cè)所標(biāo)定的畫面中的重疊現(xiàn)象,本文在有效的檢測(cè)出實(shí)時(shí)視頻中的人頭對(duì)象的同時(shí),采用窗口融合方法很好的解決了這一問(wèn)題,檢測(cè)效率也有了較大的提升。后續(xù)工作將從樣本庫(kù)的完善,檢測(cè)速度的提升等方面進(jìn)行。
[1] Zhou T, Yang J, Loza A, et al. Crowd modeling framework using fast head detection and shape-aware matching[J]. Journal of Electronic Imaging. 2015, 24(2): 19.
[2] Guan Y, Huang Y. Multi-pose human head detection and tracking boosted by efficient human head validation using ellipse detection[J]. Engineering Applications of Artificial Intelligence. 2015, 37: 181-193.
[3] Aziz K, Merad D, Iguernaissi R, et al. Head detection based on skeleton graph method for counting people in crowded environments[J]. Journal of Electronic Imaging. 2016, 25(1): 13012.
[4] Dalal N, Triggs B. Histograms of oriented gradients for human detection[A]. IEEE Computer Society Conference on Computer Version and Pattern Recognition(CVPR’05)[C].2005:886-893.
[5] 郭翰庭. 基于多方向和邊緣保持的圖像插值算法研究[D]. 成都: 西南交通大學(xué), 2015.
[6] Meyer D, Wien F T. Support vector machines[Z]. The Interface to libsvm in package e1071. 2015: 1-8.
[7] Harris T. Credit scoring using the clustered support vector machine[J]. Expert Systems with Applications. 2015, 42(2): 741-750.
[8] 楊 揚(yáng). 基于多尺度分析的圖像融合算法研究[D]. 北京:中國(guó)科學(xué)院大學(xué), 2013.
[9] Yadav A R, Anand R S, Dewal M L, et al. Gaussian image pyramid based texture features for classification of microscopic images of hardwood species[J]. Optik-International Journal for Light and Electron Optics. 2015, 126(24): 5570-5578.
[10] Li B, Zhang J, Zhang Z, et al. A people counting method based on head detection and tracking[A].Smart Computing(SMARTCOMP) International Conference on[C]. 2014:136-141.
[11] Stewart R, Andriluka M. End-to-end people detection in crowded scenes[J]. Computer Scienct.2015, 1506.04878: 25-26.
Head Detection Method Based on Multi-scale Collaboration
Peng Jingwei, Tong Jijun
(School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)
The HOG feature was not scale invariance and could only detect the targets which had similar size with sample image in practical application, proposed a method of head detection based on multi-scale windows fusion. The HOG features were extracted and the support vector machinewas used as classifier. In real-time detection of moving targets, the Gaussian Pyramid was used to make multi-scale decomposition for a sequence of input video frames, and got frames of different resolutions, and then run head detection at different scales and storage result. To improve the detection accuracy and efficiency, all detection results of each scale space were fused and got their corresponding locations signs. One monitoring video was tested, and the experiment results showed that the proposed method could improve the detection rate, recall and detection accuracy.
multi-scale; pyramid transform; window fusion; gradient histogram
2016-12-23;
2017-01-05。
浙江省重點(diǎn)研發(fā)計(jì)劃(2015C03023);浙江理工大學(xué)“521人才培養(yǎng)計(jì)劃”。
彭景維(1989-),男,湖北孝感人,碩士研究生,主要從事計(jì)算機(jī)視覺(jué)、圖像處理方向的研究。
1671-4598(2017)05-0076-04DOI:10.16526/j.cnki.11-4762/tp
TP
A