曹 潔, 唐瑞萍, 李 偉
(1.蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,甘肅 蘭州 730050;2.甘肅省制造業(yè)信息化工程研究中心,甘肅 蘭州 730050;3.蘭州理工大學(xué) 電氣工程與信息工程學(xué)院,甘肅 蘭州 730050)
目標(biāo)跟蹤是視頻分析、安全監(jiān)控、人機(jī)交互和許多其他計(jì)算機(jī)視覺(jué)應(yīng)用中的一個(gè)基本問(wèn)題。由于人臉外觀模型通常容易受到遮擋、光照變化、形變和背景干擾等因素的影響,保持實(shí)時(shí)跟蹤精度的人臉目標(biāo)跟蹤仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。Zhang K[1]將壓縮感知理論[2]應(yīng)用到目標(biāo)跟蹤中,提出實(shí)時(shí)壓縮跟蹤(compressive tracking,CT)算法,但算法對(duì)遮擋、光照變化敏感,提取特征單一,無(wú)法充分表征目標(biāo)信息等。朱秋平[3]在特征提取矩陣生成中,生成 2種互補(bǔ)的特征提取矩陣,使得特征呈現(xiàn)多樣化,并對(duì)不同特征進(jìn)行不同更新,以此來(lái)提高跟蹤的魯棒性。曹義親[4]通過(guò)提取并使用兩類互補(bǔ)的紋理特征和灰度均值特征進(jìn)行跟蹤來(lái)提高目標(biāo)特征在各種情況下的穩(wěn)定性。王松林[5]在壓縮跟蹤算法的基礎(chǔ)上引入了特征加權(quán)分類,但特征權(quán)值在第一幀就已經(jīng)確定,無(wú)法做到實(shí)時(shí)更新以適應(yīng)外觀變化。雖然眾多學(xué)者針對(duì)壓縮跟蹤算法進(jìn)行了不少改進(jìn)[6~10],仍然存在遮擋、光照變化等干擾條件下跟蹤效果不理想的情況。
基于上述分析,提出基于擴(kuò)展的Haar-Like特征和LBP特征的壓縮跟蹤算法,并將此算法應(yīng)用于人臉這一特定目標(biāo)的跟蹤研究中。
壓縮跟蹤[5]采用了一個(gè)非常稀疏的隨機(jī)測(cè)量矩陣R將高維向量X(m維)映射為低維向量V(n維),表示為v=Rx,其中,R為一個(gè)n×m維的隨機(jī)測(cè)量矩陣,n?m。
其矩陣元素定義如下
(1)
式中p為rij取某值的概率,而s取值在2~4中隨機(jī)選取。
假設(shè)v中的各元素vi分布獨(dú)立,利用樸素貝葉斯分類器來(lái)建模
(2)
式中p(vi|y=1)和p(vi|y=0)符合高斯分布,y∈{0,1}為二值變量,表示樣本的正負(fù),當(dāng)y=0時(shí)為負(fù)樣本,當(dāng)y=1時(shí)為正樣本,假設(shè)2個(gè)類的先驗(yàn)概率p(y=1)=p(y=0)。可以看出,所有特征在正負(fù)類中分布概率密度比值的對(duì)數(shù)相加構(gòu)成了貝葉斯分類器,貝葉斯分類器的更新對(duì)應(yīng)特征在正負(fù)類中分布的更新[11]。Diacois P和Freedman D證明:高維隨機(jī)向量的隨機(jī)投影幾乎都服從高斯分布。
最終,選取H(v)值最大的區(qū)域作為新一幀的目標(biāo)區(qū)域。在確定區(qū)域后,重新進(jìn)行降維獲取正、負(fù)樣本,并通過(guò)下式更新系數(shù)
(3)
式中λ為學(xué)習(xí)因子且λ>0,影響更新的速度,λ越小則說(shuō)明分類器更新的速度越快。
CT在某些復(fù)雜的環(huán)境中易受目標(biāo)漂移的影響而失去目標(biāo),為了避免遮擋、光照變化及背景的干擾,本文擴(kuò)展了原有的Haar-Like特征來(lái)適應(yīng)環(huán)境的變化,提高了跟蹤的性能。在計(jì)算機(jī)視覺(jué)和圖像處理中,LBP是一種有效的紋理描述算子。紋理反映了圖像灰度模式的空間分布,包含了圖像的表面信息及其與周?chē)h(huán)境的關(guān)系,更好地兼顧了圖像的宏觀信息與微觀結(jié)構(gòu),具有旋轉(zhuǎn)不變性和灰度不變性等顯著的優(yōu)點(diǎn),能夠更有效地獲取需要的結(jié)構(gòu)特點(diǎn),從而得到具有較強(qiáng)鑒別能力的人臉圖像特征。
在CT[5]中將不同大小的矩形濾波器與原始圖像進(jìn)行卷積,并提取了不同大小的矩形圖像塊。圖1為CT的簡(jiǎn)單的Haar-Like特征,其特征值是由積分圖像來(lái)計(jì)算的。由于提取的Haar-Like特征太過(guò)簡(jiǎn)單而無(wú)法有效地處理遮擋、光照變化、物體形變和背景干擾的影響,因此,本文采用擴(kuò)展的Haar-Like特征。
圖1 CT中的Haar-Like特征
1)擴(kuò)展的Haar-Like特征類型
Haar-Like的特征值為白色和黑色矩形區(qū)域的像素和之差。Lienhart R[12]擴(kuò)展了Haar-Like特征來(lái)描述目標(biāo)外觀模型(見(jiàn)圖2),主要是由45°旋轉(zhuǎn)特征的有效集合擴(kuò)展得到。
圖2 擴(kuò)展的Haar-Like特征
2) 快速特征計(jì)算
為了降低計(jì)算Haar-Like特征的計(jì)算開(kāi)銷(xiāo)和提高跟蹤系統(tǒng)的實(shí)時(shí)性,引入了2種積分圖像來(lái)快速計(jì)算特征。對(duì)于豎直的矩形,SAT(x,y)被定義為從左上角(0,0)到右下角(x,y)的像素總和
SAT(x-1,y)+I(x,y)-SAT(x-1,y-1)
(4)
對(duì)于任何45°旋轉(zhuǎn)矩形的積分Rect(x,y,w,h,45°),同樣可以由如圖3右圖所示的4個(gè)點(diǎn)計(jì)算得到
RSum(Rect)=RSAT(x+w,y+w)-RSAT(x,y)+
RSAT(x-h,y+h)-RSAT(x+w-h,y+w+h)
(5)
圖3 45°旋轉(zhuǎn)矩形塊的積分
對(duì)于一幅灰度圖中某個(gè)局部區(qū)域內(nèi)的任意像素f(xc,yc),以gc為中心圖像的灰度值,g0,…,gp-1為周?chē)鶳個(gè)像素點(diǎn)的灰度值,則紋理T由鄰域內(nèi)中心像素點(diǎn)與周?chē)袼攸c(diǎn)灰度值的聯(lián)合分布構(gòu)成
T=t(gc,g0,…,gp-1)
(6)
將鄰域內(nèi)P個(gè)點(diǎn)的灰度值減去中心像素點(diǎn)的值,則有
T=t(gc,g0-gc,…,gp-1-gc)
(7)
當(dāng)中心像素的灰度值較大或者較小時(shí),周?chē)袼攸c(diǎn)與其差值的取值范圍就會(huì)明顯減小,從而損失一些信息。但允許損失少量的信息能使得局部紋理的描述對(duì)于灰度圖像灰度范圍內(nèi)的平移具有不變性。t(gc)只是描述了整體圖像的亮度分布情況,而其不參與描述局部紋理特征,不予考慮。同樣對(duì)于均勻光照的不敏感性,有
T≈t(s(g0-gc),…,s(gp-1-gc))
(8)
其中
(9)
為每個(gè)s(gp-gc)分配一個(gè)權(quán)值2p,并計(jì)算可以得到一個(gè)唯一的LBP編碼,并將此編碼作為該中心像素的局部紋理特征
(10)
在傳統(tǒng)的實(shí)時(shí)任務(wù)中,通常使用的是統(tǒng)計(jì)數(shù)據(jù),即LBP統(tǒng)計(jì)直方圖。一個(gè)輸入圖像的所有像素LBP代碼被收集到一個(gè)直方圖中,作為紋理描述符
(11)
將所有擴(kuò)展的Haar-Like特征連接起來(lái)生成一個(gè)高維的特征向量空間xexhaar={x1,x2,…,xn},連接所有的LBP特征來(lái)生成圖像X的高維特征向量空間x′LBP={x′1,x′2,…,x′n}。然后利用擴(kuò)展的Haar-Like特征來(lái)進(jìn)行粗跟蹤,進(jìn)一步應(yīng)用LBP特征進(jìn)行精細(xì)跟蹤以搜索人臉目標(biāo)最佳位置。
算法流程如下:
1)初始化相關(guān)參數(shù)并手動(dòng)設(shè)定第一幀中被跟蹤目標(biāo)的中心位置及尺度。
2)粗采樣一組圖像塊,采樣范圍為Dγ1={p|‖It(p)-It-1‖<γ1},其中,It-1是在(t-1)幀中人臉目標(biāo)的跟蹤位置,并提取低維特征。
3)計(jì)算積分圖,45°旋轉(zhuǎn)積分圖和當(dāng)前幀的積分直方圖。
4)提取擴(kuò)展的Haar-Like特征。利用擴(kuò)展的Haar-Like特征計(jì)算式(3)得到最大的分類器響應(yīng)值H1(v)并確定粗跟蹤的跟蹤位置I′t。
5)精采樣一組圖像塊,采樣范圍為Dγ2={p|‖It(p)-I′t‖<γ2},并提取低維特征。
6)提取LBP特征,利用LBP特征進(jìn)行精跟蹤確定最佳位置It。
7)采樣2組圖像塊,采樣范圍分別為Dα={p|‖l(x)-I0‖<α}和Dβ={p|β<‖l(x)-I0‖<γ,α<β<γ}。
8)通過(guò)這2組圖像提取特征,并根據(jù)式(5)更新分類器系數(shù)。
為了驗(yàn)證本文算法性能,將本文算法與CT 和STC算法對(duì)4個(gè)包含遮擋、光照變化、快速移動(dòng)等干擾因素的標(biāo)準(zhǔn)測(cè)試序列進(jìn)行對(duì)比。測(cè)試設(shè)備配置為2.4 GHz主頻i5雙核處理器,4GB內(nèi)存,Windows 10操作系統(tǒng),開(kāi)發(fā)環(huán)境為MATLAB與C++的混合編譯環(huán)境,版本為MATLAB 2014a。
數(shù)據(jù)集和參數(shù)設(shè)置:本次實(shí)驗(yàn)選擇4個(gè)公開(kāi)的標(biāo)準(zhǔn)測(cè)試序列來(lái)評(píng)估本文的算法。為了更好地評(píng)估和分析跟蹤算法的性能,這些序列被分為不同的屬性,如表1所示。在實(shí)驗(yàn)過(guò)程中,正樣本采樣半徑α=4,采樣負(fù)樣本的內(nèi)半徑β=8,而其對(duì)應(yīng)的外半徑γ=20,實(shí)驗(yàn)設(shè)置了粗采樣的搜索半徑為γ1=25,精采樣的搜索半徑為γ2=4。分類器的學(xué)習(xí)參數(shù)被設(shè)置為γ=0.85。
表1 各視頻序列的特點(diǎn)
評(píng)價(jià)指標(biāo):中心位置誤差(center location error,CLE)、中心距離精度(distance precision,DP)是度量跟蹤算法性能的重要指標(biāo)。本實(shí)驗(yàn)采用這兩項(xiàng)指標(biāo)來(lái)評(píng)價(jià)跟蹤算法的魯棒性。其中,CLE是跟蹤目標(biāo)位置與實(shí)際位置的歐氏距離,單位為像素;DP為CLE 小于20的幀數(shù)占總幀數(shù)的比值。
選取的4組視頻序列分別用STC算法、CT算法及本文算法進(jìn)行跟蹤測(cè)試,跟蹤效果對(duì)比圖如圖4所示。
圖4 各視頻序列跟蹤結(jié)果
Faceocc1視頻序列中,前170幀人臉目標(biāo)出現(xiàn)了短時(shí)的部分遮擋,各視頻序列跟蹤效果差不多,170幀以后人臉目標(biāo)出現(xiàn)較長(zhǎng)時(shí)間遮擋,STC視頻序列逐漸出現(xiàn)了目標(biāo)漂移,由于過(guò)度的尺度調(diào)節(jié),導(dǎo)致跟蹤框逐漸變大,340幀以后,由于尺度變化太大,跟蹤框已經(jīng)完全消失在圖片外。CT算法在經(jīng)過(guò)多次的遮擋干擾后,也逐漸產(chǎn)生了目標(biāo)漂移。而本文算法由于采用了由粗到精的采樣策略,利用LBP特征精確描述人臉特征,使得人臉目標(biāo)基本出現(xiàn)在跟蹤框范圍內(nèi),跟蹤效果較為穩(wěn)定。
Faceocc2視頻序列中,STC算法根據(jù)人臉目標(biāo)的旋轉(zhuǎn)產(chǎn)生了尺度變化,導(dǎo)致跟蹤框時(shí)大時(shí)小,并未能有效地跟蹤到完整的人臉目標(biāo)。CT算法在人臉旋轉(zhuǎn)過(guò)程中出現(xiàn)了目標(biāo)漂移。而本文算法則可以實(shí)時(shí)地跟蹤并完全標(biāo)注出人臉目標(biāo)。
Fleetface視頻序列中,前200幀視頻序列3種算法跟蹤效果良好,200幀以后,由于視頻序列產(chǎn)生了快速移動(dòng)、旋轉(zhuǎn),并產(chǎn)生了運(yùn)動(dòng)模糊,導(dǎo)致人臉目標(biāo)開(kāi)始出現(xiàn)漂移。300幀以后,由于視頻序列的快速旋轉(zhuǎn),STC和CT算法均產(chǎn)生了明顯的人臉目標(biāo)漂移,500幀以后,STC算法甚至已基本丟失目標(biāo)。而相較于前兩種算法,本文算法相對(duì)較為穩(wěn)定。
Shaking1視頻序列前150幀中,3種算法跟蹤效果均比較穩(wěn)定,150幀以后,由于光照變化及目標(biāo)的大幅度晃動(dòng),導(dǎo)致CT算法逐漸產(chǎn)生目標(biāo)漂移,240幀時(shí),STC的跟蹤框產(chǎn)生了部分偏移,而CT算法已完全丟失目標(biāo)。在整個(gè)跟蹤過(guò)程中,本文算法都比較穩(wěn)定地跟蹤到了人臉目標(biāo)。
分別對(duì)STC算法、CT算法及本文算法的人臉目標(biāo)跟蹤結(jié)果定量計(jì)算出中心位置誤差、中心距離精度這兩項(xiàng)評(píng)價(jià)指標(biāo),并繪制出跟蹤過(guò)程中的實(shí)時(shí)曲線如圖5。
圖5 各視頻序列跟蹤中心位置誤差
圖5為對(duì)本文所進(jìn)行對(duì)比的三種算法針對(duì)不同視頻序列的定量分析結(jié)果。實(shí)驗(yàn)數(shù)據(jù)表明,不論是從中心位置誤差還是中心距離精度方面對(duì)比,本文算法的性能都更加優(yōu)越。本文算法取得了最低的中心位置誤差和最高的中心距離精度。綜上所述,本文算法整體跟蹤效果優(yōu)于其他兩種算法。
實(shí)驗(yàn)表明:本文算法在跟蹤難點(diǎn)如遮擋、光照變化、旋轉(zhuǎn)、形變及背景干擾等情況下跟蹤性能良好,具有較強(qiáng)的魯棒性。為了實(shí)現(xiàn)一個(gè)更加魯棒且精確的人臉跟蹤系統(tǒng),仍然需要在嚴(yán)重遮擋和目標(biāo)快速移動(dòng)等干擾情況下進(jìn)行進(jìn)一步的研究。