魏小莉 沈未名
(武漢大學測繪遙感信息工程國家重點實驗室 武漢 430079)
近幾年出現(xiàn)了許多比較流行的人臉檢測方法,都是基于數(shù)據(jù)學習的技術,如文獻[1-2]中采用了統(tǒng)計建模的方法,文獻[3]實現(xiàn)了基于人工神經(jīng)網(wǎng)絡的人臉檢測,文獻[4]是基于統(tǒng)計學習和支持向量機的方法,而文獻[5]采用的是基于膚色的人臉檢測算法.本文通過建立仿射模型對運動物體進行運動估計,然后運用該模型進行區(qū)域分類、提取,再基于該區(qū)域的DFA(discriminating features analysis)與支持向量機相結合的方法檢測人臉.實驗表明,本文提出的方法與基于單一神經(jīng)網(wǎng)絡的人臉檢測算法相比能夠取得較高的檢測率和較低的耗時.
為了減少計算時間,建立仿射運動模型Gi,其代表區(qū)域Ri的運動過程,為六參數(shù)的模型Gi(x,y;Ri),其中每個相關的像素(x,y)∈Ri.而Gi(x,y;Ri)=(Ui(x,y),Vi(x,y)),(Ui(x,y),Vi(x,y))代表像素(x,y)的運動矢量
ai(1),ai(2),ai(3),ai(4),ai(5),ai(6)為 Gi的 6 個參數(shù),進一步用矩陣表示為
式中:區(qū)域Ri中所有像素的參數(shù)運動都由Gi來描述;u(x,y),v(x,y)表示像素(x,y)在2幅連續(xù)圖像幀I(t-1)和I(t)之間的運動矢量[6],分別由式(3)、(4)得到
式中:Ex,Ey和Et分別為圖像密度E(x,y,t)在(x,y)處對x,y和t的偏導數(shù).
相同對象的區(qū)域中的運動模型的參數(shù)具有一定的相似性,因此可以利用這個性質對區(qū)域進行分類,從而提取出運動對象.本文使用k均值模糊聚類算法對求得的一系列仿射運動模型的參數(shù)進行歸類,從而實現(xiàn)對區(qū)域的分類.
分類完成之后,引入運動誤差函數(shù)em(x,y)=|(u(x,y),v(x,y))-Gi(x,y;Ri)|,對于區(qū)域Ri中的像素(x,y),若誤差函數(shù)的值大于預先設定的門限值Thm,那么就將像素(x,y)從區(qū)域Ri中排除.
用M={Mi|i=1,2,…,m}表示分割后得到的一系列運動對象,m表示分割后的運動對象的個數(shù),對于每一個運動對象,Mi代表一個分割區(qū)域.
經(jīng)過以上的算法進行分割后得到N個區(qū)域{R1,R2,…,RN},Ni為區(qū)域Ri的像素個數(shù).假設在分割中區(qū)域之間的空域聯(lián)系已知,I(x,y)=(I1(x,y),I2(x,y),I3(x,y))表示當前幀的三個顏色分量(Y,Cr,Cb)的密度函數(shù).Ai=(,)表示3個顏色分量的均值向量,且
式(7)中的第一步求和是由所有的4連接的像素(xi,yi)∈Ri,(xj,yj)∈Rj和它們的維數(shù)Nij計算得到的.Aij表示2個區(qū)域平均密度的差值,Cij為度量2個區(qū)域間共同邊界的權值.鄰域Ri和Rj之間的空域距離Dij用式(8)表示
除此之外,本文還定義了一種時域距離度量方法來度量當前幀和代表幀之間的差異.區(qū)域Ri和Rj之間的時域距離Bij由式(9)表示.
式中:dk(x,y)=|(x,y)-I(x,y)|表示k幀和k+1幀圖像之間亮度差值的絕對值.Bij為區(qū)域Ri和Rj共同邊界的亮度差值在連續(xù)兩幀之間的差,若Bij的值較高,說明這些區(qū)域中有一個區(qū)域發(fā)生位移;若Bij的值較低,則說明這些區(qū)域或者同屬于背景,或者同屬于一個單獨的運動對象,可以被融合.因此,增加Bij來進行約束,可以避免將運動區(qū)域融合進了背景中.
首先通過基于統(tǒng)計的方法,對人臉與非人臉建立模型;文獻[7]中提出的DFA特征分析方法,主要包括原始輸入圖像、1DHarr小波變換、水平和垂直投影變換三部分.用于訓練的人臉樣本如圖1所示,非人臉樣本如圖2所示,這里只列出了其中一部分;對于訓練得到的人臉模型的DFA分析如圖3所示,圖a)為訓練所得的平均人臉,圖b)、c)為1DHarr小波變換圖,圖d)、e)分別為水平和垂直投影變換結果;如圖4為非人臉模型的DFA特征分析,圖a)為訓練所得的平均非人臉類別,圖b)、c)為1DHarr小波變換圖,圖d)、e)分別為水平和垂直投影變換結果.
圖1 訓練人臉部分樣本圖片
圖2 訓練非人臉部分樣本圖片
圖3 人臉類別DFA特征
圖4 非人臉類別DFA特征
根據(jù) 貝 葉 斯 公 式,后 驗 概 率P(ωf|Y)和P(ωn|Y)可以由先前計算的條件概率得到
式中:P(ωf),P(ωn)為人臉類ωf和非人臉類ωn先驗概率,而P(Y)為實際圖像的混合密度函數(shù).
貝葉斯分類器被稱為最優(yōu)分類器[8],文獻[7]將圖像中各區(qū)域分為人臉類ωf與非人臉類ωn
即當輸入的特征圖像假設為人臉的概率大于非人臉的概率,則判斷為人臉;否則就為非人臉特征.這是一個比較理想的判斷條件,然而實際上當假設為人臉與非人臉的概率極為相近時,容易造成誤分類,比如:輸入的原始圖像比較模糊,或者人臉區(qū)域有遮擋物,或者圖像中噪聲分量比較多的時候,對于該條件假設的計算容易受到很大的影響.因而需要對分類的條件進行改進,正如文獻[7-8]中引入了一個控制參數(shù)θ,用于限制誤判為人臉類別的可能性,即對于是否為人臉類的判斷新增加了一個閾值,從而降低了錯誤分類為人臉的概率,因此上式分類條件可以改進為
但是,從理論和實驗分析,如果θ取值不合適,很容易造成人臉的誤分類,即原本屬于人臉特征的局部圖像,由于其概率較小,即δf較大時,被誤分類為非人臉特征,從而降低了人臉檢測的全面性;當然,當θ取值合適時,可以得到比較理想的檢測結果.
本文針對這個問題,采取了以下改進的方案:首先將輸入的原始圖像假設為三類,即人臉類別、非人臉類別、不確定類別.用數(shù)學表述如下
當然,上式中被歸類為人臉或非人臉的特征可以準確判斷是正確的分類,然后對于不確定分類ωu,進一步運用支持向量機分類器進行精確分類,即一個精煉的過程.
假設(x1,y1),(x2,y2),…,(xM,yM),xi∈RN為輸入訓練圖像的數(shù)據(jù)特征,yi∈{+1,-1}表示xi的類別.用Φ表示將輸入特征進行非線性變換到特征空間,即:Φ:RN→F(x→Φ(x)).因此特征空間的最優(yōu)決策平面定義如下.
在文獻[9]中,矢量xi滿足yi(w0·Φ(x)+b0)=1,則權值矢量w0可以由支持向量線性組成,即
當滿足上式取最大值時,αi為最優(yōu)取值,且SVM的求解可由核函數(shù)k(x,y)=Φ(x)·Φ(y)得到.
本文基于支持向量機(SVM)的優(yōu)越性,即:(1)將輸入圖像特征進行非線性映射到高維空間;(2)SVM具有最優(yōu)的決策面,可以很好的區(qū)分邊界特征,因此將其應用到人臉檢測中,對人臉與非人臉特征進行很好的分類.令
運用支持向量機分類器對不確定特征ωu進行再一次計算,以確定其為人臉或非人臉的可能性.實驗證明,該方法可以進行有效的分類.
本文是基于貝葉斯理論的方法,采用了DFA特征模型提取人臉特征,并通過貝葉斯與支持向量機的分類方法區(qū)分人臉與非人臉特征.算法實現(xiàn)中,選用分辨率為20×20的人臉訓練模板進行檢測搜索,輸入的檢測圖像均是分辨率大于20×20的圖像,彩色或灰白圖像均可.其檢測算法如下.(1)根據(jù)運動仿射模型,獲取視頻中的運動區(qū)域;(2)對樣本進行訓練,得到人臉與非人臉類別的特征矢量;(3)將所獲得的運動區(qū)域進行預處理:去噪濾波、亮度調(diào)整,灰度歸一化處理;(4)將人臉圖像與預處理圖像進行卷積,通過局部最大化算法計算區(qū)域最大值,從而得到感興趣區(qū)域,即很可能為人臉圖像的區(qū)域,計算得到的最大值的位置即很可能為人臉圖像的中心區(qū)域;(5)局部特征搜索.即對每一個感興趣區(qū)域的中心遍歷搜索,提取出以該最大值為中心的分辨率為20×20的圖像區(qū)域——子圖像;對該子圖像進行DFA特征分析,計算其后驗概率,將該后驗概率P(ωf|Y)與判斷是否為人臉的閾值τf進行對比,從而得出是否為人臉.如果不是人臉類別,則再計算P(ωn|Y)的概率,并與非人臉的閾值τn對比,從而確定是否為非人臉;如果既不是人臉類別,又不是非人臉類別,則歸為不確定分類中,然后采用支持向量機分類器進行計算,進而將不確定分類進行概率計算,通過支持向量機分類器可以得到比較精確的人臉與非人臉類別的區(qū)分.
本文實驗是在CPU為P4 3.0G,內(nèi)存為1G,Windows xp操作系統(tǒng)環(huán)境下,使用 Matlab7.0進行算法測試.實驗選取多組視頻序列,如“Foreman”,“Akiyo”,“PaRis”,“Mother &Daughter”等序列.這里選取了部分實驗結果,并分析如下.
圖5a)表示“PaRis”序列中的第9幀原始彩色圖像;圖5b)表示了“PaRis”序列中從第9幀到第10幀的運動目標的光流軌跡,可以看到一共分為4類運動方向:圖中男士動作、女士的頭部動作、女士的左手和右手動作;圖5c)表示運用仿射模型得到的運動對象的大致輪廓;圖5d)為仿射運動模型的對象區(qū)域的提取.根據(jù)圖5d)所得的對象區(qū)域計算出覆蓋該區(qū)域的最小長方形框架,有利于搜索的全面性;圖5f)為運用本文的人臉檢測算法得到的“PaRis”序列中的第9幀檢測結果;圖5g),h),i)分別為“PaRis”序列中的第100,104,110幀的人臉圖像檢測結果.其中圖5f)中由于男士的面部角度過大,非正面角度,而女士面部角度較小,因而只檢測到一個人臉;圖5g),h),i)中都檢測到了兩個人臉圖像,檢測效果較好.圖6中分別為“Akiyo”序列中的第2,50,86,278幀的人臉圖像檢測結果.
圖5 PaRis序列分割結果
圖6 “Akiyo”序列分割結果
為了驗證本文算法的有效性,將基于神經(jīng)網(wǎng)絡的人臉檢測方法與本文提出的DFA與支持向量機結合的方法對比,并引入查全率和查準率概念[11]:查全率=正確檢測到的人臉數(shù)目/總的人臉數(shù)目;查準率=正確檢測到的人臉數(shù)目/總的檢測數(shù)目.
圖7為本文提出的人臉檢測算法與基于神經(jīng)網(wǎng)絡算法的檢測方法在“PaRis”序列中的結果對比,實驗表明,本文提出的算法具有更高的查全率與查準率.圖8為上述兩種算法的耗時對比,可以得到本文算法比神經(jīng)網(wǎng)絡算法耗時更少,每秒可以檢測15幀以上,而神經(jīng)網(wǎng)絡算法只能檢測10幀左右.經(jīng)過大量的實驗說明,本文的算法可以有效從視頻序列中檢測出人臉圖像.
圖7 本文算法和單一神經(jīng)網(wǎng)絡算法在查全率和查準率方面的對比圖
圖8 本文算法和單一神經(jīng)網(wǎng)絡算法在“PaRis”序列中的耗時比較
本文通過仿射模型提取出視頻中運動對象區(qū)域,對該運動區(qū)域進行搜索;通過訓練圖像提取人臉與非人臉圖像的統(tǒng)計特征,建立人臉與非人臉類別的后驗概率,根據(jù)貝葉斯分類器將圖像特征分為人臉類、非人臉類和不確定類,對不確定類用支持向量機分類器進一步分析,得到最后的檢測結果.實驗表明,本文的方法可以實現(xiàn)有效的檢測人臉圖像,證明了本文算法的可行性.
[1] Moghaddam B,Pentland A.Probabilistic visual learning for object representation[J].IEEE Trans.PAMI,1997,19(7):696-710.
[2]Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[J].Kauai,Hawaii:In Proc.IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2001:511-518.
[3]Rowley H A,Baluja S,Kanade T.Nerual network based face detection[J].IEEE Trans.PAMI,1998,20(1):23-28.
[4]Mohan A,PapageorGiou C,PogGio T.Examplefbased object detection in images by components[J].IEEE Trans.PAMI,2001,23(4):349-361.
[5]Hsu R L,Mottaleb M A,Jain A K.Face detection in color images[C]//Thessaloniki,Greece:In International Conference on Image Processing,2001:1 046-1 049.
[6]John Y,Wang A,Adelson E H.Representing moving images with layers[J].IEEE Transactions on Image Processing Special Issue:Image Sequence Compression,1994,3(5):625-638.
[7] Cheng Junliu.A bayesian discriminating features method for face detection[J].IEEE Trans.PAMI,2003,25(6):725-740.
[8]Hjelmas E,Low B K.Face detection:a survey[J].Computer Vision and Image Understanding,2001,83:236-274.
[9]Liu Y H,Chen Y T.Face recognition using total MarGin based adaptive Fuzzy Support Vector Machines[J].IEEE Trans.On Neural Networks,2007,18:178-192.