摘 要:本文針對考場場景中考生檢測問題,提出了一種以頭肩肘特征作為考生識別依據(jù)的改進的HOG算法。該算法使用多尺寸的Block和Cell,對于小目標減小Cell尺寸及步長,使用2:1、1:1Block代替?zhèn)鹘y(tǒng)的1:1Block,使之有效檢測考生目標。實驗中經過基于多尺寸HOG特征的SVM分類器的精細驗證,完成了考生頭肩肘的檢測識別,此算法準確率高于82%。
關鍵詞:HOG、SVM;多尺寸HOG;頭肩檢測
中圖分類號:TP391.41
人體定位是智能考試監(jiān)控系統(tǒng)的前提。常用的人體定位大多是對人的整個身體、臉部、膚色或者運動進行檢測[1-4]。然而考場場景中存在著由于桌椅對肘部以下的遮擋、長發(fā)對面部的遮擋、攝像角度導致的遮擋以及運動幅度微小等問題,傳統(tǒng)的人體定位方法很難準確的檢測目標。
在這種情況下,經研究發(fā)現(xiàn)人體頭肩肘部通常體現(xiàn)得較為完整且頭肩肘輪廓相似度很高,容易與背景區(qū)分,可以作為人體目標檢測的依據(jù)。頭肩檢測(Head-Shoulder Detection)通常應用與復雜場景(商場、街道等)下的人體檢測,由于檢測目標較大,多選擇64×64或者128×64的檢測窗口[8-10]。但在考場場景中由于攝像頭俯視、頭肩肘的長寬比例約為8:5而不是傳統(tǒng)的2:1等問題,64×64的檢測窗口不能很好的發(fā)現(xiàn)目標,128×64的檢測窗口過大漏檢率非常高,因此傳統(tǒng)的HOG特征提取方法很難取得良好的檢測效果。故本文改進HOG算法,采用多尺寸HOG(Block比例:1:1、2:1;Cell尺寸:8×8、4×4;檢測窗口64×40)代替Dalal HOG,在考場場景中采用頭肩肘輪廓類似“凸”形狀作為參考特征,訓練分類器對視頻圖像進行掃描判決并最終奪得檢測目標。
1 相關目標檢測算法
1.1 靜態(tài)目標檢測算法
人臉檢測、膚色檢測是比較常用的靜態(tài)目標檢測方法。如Yuille[2]等提出的基于幾何特征“彈性模板”和基于統(tǒng)計特征的“Fisher臉”[3]和汪國來等提出的自適應模型和固定模型結合的膚色分割算法[4]。雖然上述方法均可以較好的定位人體目標,但由于考場場景下攝像頭通常由斜上方向下拍攝、考生低頭作答的特點,很難獲得良好的面部和膚色特征故不能采用上述方法進行考生目標定位。
1.2 運動目標檢測算法
常用的運動目標檢測方法有幀差法、背景減除法、混合高斯背景建模法等前景提取算法。筆者就上述三種方法進行了實驗,發(fā)現(xiàn)由于考場場景下考生運動幅度小,上述方法均不能很好的獲得考生完整的輪廓信息,實驗結果如圖1。
圖1 運動目標檢測算法獲得的前景
2 HOG描述子及計算方法
針對以上問題,本文經研究發(fā)現(xiàn)利用考生頭肩肘部側“凸”字型特征,采用HOG描述子對考生頭肩肘輪廓進行描述,能夠有效的發(fā)現(xiàn)考生目標。
方向梯度直方圖——HOG描述子(HOG descriptors)最初由Navneet Dalal和Bill Triggs[5]提出,對于行人檢測表現(xiàn)出優(yōu)良的性能。HOG描述子的基本思想是:在一幅圖像中,局部目標的外觀和形狀能夠被梯度或邊緣的方向密度分布很好地描述。假設樣本圖像大小為64×64,將圖像分為256個大小為4×4的Cell,4個Cells組成一個Block(圖像、Block、Cell關系如圖2),對Cell中每個像素計算梯度,統(tǒng)計其方向梯度直方圖(將0~360°分為9個bin),將其歸一化至對應的Block上就獲得了36維(4個Cell,每個Cell9個bin)的特征向量。綜上HOG描述子的計算方法為:(1)歸一化輸入圖像gamma和顏色空間。(2)計算像素梯度。(3)統(tǒng)計Cell的方向梯度直方圖。(4)在Block上歸范化直方圖[6]。
圖2 Cell、Block與圖像關系示意圖
2.1 gamma和顏色空間的歸一化
gamma和顏色歸一化的作用是調節(jié)圖像對比度,降低圖像局部的陰影和光照變化所造成的影響。但是在行人檢測實驗[5]中卻發(fā)現(xiàn)該歸一化幾乎沒有提高性能(如圖3)。這是因為后面進行的歸范化操作起到了相同的作用,所以一般在應用HOG時都省略了gamma歸一化操作[6]。
圖3 原圖像與歸一化圖像檢測結果對比
2.2 像素梯度計算
對彩色圖像則分別計算各顏色通道的梯度,并選取 L2范數(shù)最大的那個作為像素的梯度向量[6]。
2.3 Cell、Block和圖像的方向梯度直方圖
本文用于檢測考場場景中的考生,故將方向角度考慮為0~180°,量化為9個方向的bin(如圖4)。因此計算Cell的方向梯度直方圖的方法為,對Cell內每個像素以梯度為權重用梯度方向在直方圖中加權投影(也可采用三線插值),這樣得到了一個9維向量。將臨近的m×n個Cell組成一個Block,則一個Block得到一個m×n×9維向量。同理一幅圖像的HOG特征維度為圖像中Block的個數(shù)乘以m×n×9,就能能到整個圖像的方向梯度直方圖。Cell和Block的形狀可以為矩形或者放射狀(圓形或扇形),本位為方便計算選用矩形Cell及Block。
圖4 0~180°方向上量化為9個bin
2.4 適用于小目標的HOG改進方法
現(xiàn)實場景中的行人檢測,通常目標較大且忽略遠距離行人,因此一般使用64×128的大檢測窗口。INRIA行人數(shù)據(jù)庫[5]提供96×160的行人樣本,MIT行人數(shù)據(jù)庫[7]提供64×128的行人樣本。而現(xiàn)實的考試場景中,由于距離遠后方的同學會比較小,小于檢測窗口很難有效的檢測出考生目標。
本文根據(jù)Dalal等提出的HOG基本原理,改變Cell和Block的大小和對應比例,使之適應考場場景中的小目標檢測。本文先后嘗試128×64、96×60、80×48以及64×40的檢測窗口進行檢測,128×64與96×60的檢測窗口過大,對考場前方目標具有很好的檢測結果,然而后方漏檢率很高。80×48的檢測窗口由于計算后HOG特征維度較低,不能很好的保留輪廓信息,檢測效果一般。最后選定檢測窗口大小為64×40,Cell為4×4,Block為16×8,以4×4步長滑動的檢測窗口既與場景中最小目標大小相仿,又很好的保存了輪廓信息得到了比較好的檢測結果。
3 實驗結果與分析
3.1 實驗樣本
由于考試場景的特殊性,既有的INRIA[5]和MIT[7]的行人樣本不適用,因此建立了一個基于考生頭肩肘的數(shù)據(jù)庫,數(shù)據(jù)庫包含68個正樣本和200個負樣本。正樣本通過網上搜集的考試照片截取,負樣本圖片在隨機選取的基礎上加入了不同考場環(huán)境中的非目標區(qū)域(如墻壁、窗戶、桌椅等)以降低誤檢率,部分考生頭肩肘樣本如圖5,實驗圖像拍攝于2012年上學期西南交通大學期末考試。
圖5 自建考生頭肩肘樣本庫部分正負樣本
3.2 訓練過程
在基于HOG特征的目標分類訓練中,SVM的效果最優(yōu)應用也最為廣泛。線性SVM利用兩類樣本數(shù)據(jù)的最大間隔作為劃分的超平面,運算簡單。本文選擇線性SVM(c=0.1)來對樣本中對應的每個HOG特征進行分類訓練,得到考生頭肩特征區(qū)域的分類器。
3.3 實驗結果
采用多尺寸HOG(Block比例:1:1、2:1;Cell尺寸:8×8、4×4)的考場場景下考生目標檢測結果如圖3、圖6。為了更客觀的描述本文的檢測算法性能,筆者將考生檢測算法檢測多次并與常用算法進行了對比試驗,對同一測試集進行五次試驗實驗結果見表1,對比結果見表2。
表1 考生檢測測試結果
表2 多尺度HOG與傳統(tǒng)HOG對比
圖6 考生目標檢測結果
4 結束語
本文針對考試場景下考生尤其是小目標考生的頭肩肘部位進行了識別研究,基于考生頭肩肘的側“凸”型輪廓特征,經過基于多尺寸HOG特征的SVM分類器的精細驗證,完成了考生頭肩肘的檢測識別。實驗結果表明該算法具有很好的檢測率。
參考文獻:
[1]蘇松志,李紹滋等.行人檢測技術綜述[J].電子學報,2012.
[2]Yu ille A L. D efo rm ab le tem p la tes fo r face recogn ition[J].J ou rna l of C og n itiv e N eu roscience,1989.
[3]Swets D,Weng J.U sing discrim inan teigenfea tu res fo r im age retrieva l[J].IEEE Transaction on Pattern Analysis and Mach in eIntelligence,1996.
[4]江國來,林耀榮.自適應模型和固定模型結合的膚色分割算法[J].計算機應用,2010.
[5]Dalal N,Triggs B. Histograms of oriented grandients for human detection [C]//Conference on Computer Vision and Pattern Recognition(CVPR),2005.
[6]傅紅普,鄒北驥.方向梯度直方圖及其擴展[J].計算機工程,2013.
[7]MIT Pedestrian dateset[DB].http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html.
[8]顧炯,趙曙光,王宏斌.基于Joint HOG特征復雜場景下的頭肩檢測[J].電子設計工程,2012.
[9]芮挺等.基于高斯混合建模的多尺度HOG行人頭肩特征檢測[J].山東科技大學學報(自然科學版),2013.
[10]汪成亮等.基于高斯混合模型與PCA-HOG的快速運動人體檢測[J].計算機應用研究,2012.
作者簡介:劉鸞,女,碩士在讀,主要研究方向:數(shù)字視頻圖像處理;黃文培,男,副教授,博士,主要研究方向:數(shù)字視頻圖像處理。
作者單位:西南交通大學 信息科學與技術學院,成都 610031