邵 潔
(上海電力學(xué)院計(jì)算機(jī)與信息工程學(xué)院,上海 200090)
運(yùn)動(dòng)目標(biāo)分析是計(jì)算機(jī)視覺研究領(lǐng)域中的一個(gè)富有挑戰(zhàn)性的課題.它涵蓋了移動(dòng)目標(biāo)物體的檢測(cè)、跟蹤,以及跟蹤物體的行為識(shí)別等多個(gè)方面的內(nèi)容.一個(gè)魯棒的視頻跟蹤算法需要克服噪音的影響,圖像中的目標(biāo)間互遮擋或物體對(duì)人的遮擋,圖像視角變化,復(fù)雜的背景和光照變化等.
跟蹤算法能夠?qū)崿F(xiàn)對(duì)一段時(shí)間內(nèi)目標(biāo)空間狀態(tài)的估計(jì).早期研究中,基礎(chǔ)跟蹤算法通常采用卡爾曼濾波實(shí)現(xiàn).然而由于卡爾曼濾波只能提供狀態(tài)變化服從線性高斯分布的目標(biāo)最優(yōu)值估計(jì),不符合現(xiàn)實(shí)中的目標(biāo)運(yùn)動(dòng)變化狀態(tài),使得其后產(chǎn)生的基于非線性模型的粒子濾波方法逐漸成為更廣泛使用的次最優(yōu)狀態(tài)估計(jì)方法.在基礎(chǔ)跟蹤算法選定的情況下,如何利用特征找到與已有跟蹤目標(biāo)或模板最匹配的觀測(cè)目標(biāo)是目標(biāo)跟蹤的關(guān)鍵.
本文嘗試通過尋找模板子空間中目標(biāo)的稀疏最優(yōu)估計(jì)實(shí)現(xiàn)目標(biāo)跟蹤.這一設(shè)想來自于文獻(xiàn)[1],首先在第一幀初始化目標(biāo)模板,然后在跟蹤過程中,通過貝葉斯框架下的粒子濾波得到多個(gè)候選目標(biāo)位置,再將候選位置的目標(biāo)模塊表示成目標(biāo)模板的稀疏線性加權(quán)和.因此,處于最正確候選位置的目標(biāo)模塊應(yīng)當(dāng)最能有效地由目標(biāo)模板表示.事實(shí)上,通過將這種表示轉(zhuǎn)化為一個(gè)L1正則化最小二乘問題求解時(shí),可以得到一個(gè)候選模塊關(guān)于目標(biāo)模板的稀疏權(quán)值向量.而與目標(biāo)模板加權(quán)和差值最小的候選模塊是當(dāng)前幀的最優(yōu)跟蹤結(jié)果.其算法流程如圖1所示.
圖1 基于稀疏表示的目標(biāo)跟蹤算法基本流程
粒子濾波是一種利用貝葉斯序列重要性采樣技術(shù)來估計(jì)狀態(tài)變量的后驗(yàn)概率密度分布的算法.它包含預(yù)測(cè)和更新兩個(gè)基本步驟.假設(shè)xt表示描述t時(shí)刻物體特征的狀態(tài)變量,則在已知所有1 到 t-1 時(shí)刻的觀測(cè)結(jié)果 z1∶t-1={z1,z2,…,zt-1}的條件下,xt的條件預(yù)測(cè)分布為 p(xt/z1∶t-1):
而在t時(shí)刻,當(dāng)已知觀測(cè)值z(mì)t,則基于貝葉斯規(guī)則可以得到狀態(tài)向量的后驗(yàn)概率密度為:
式中:p(zt/xt)——觀測(cè)似然概率密度.
以100個(gè)采樣粒子為例,在地鐵視頻中針對(duì)人群中某一目標(biāo)得到以采樣粒子為中心的候選跟蹤模塊分布,則相應(yīng)的粒子權(quán)重更新為:
圖2 粒子樣本分布示例
在本文的跟蹤算法中,采用圖像的仿射變換以實(shí)現(xiàn)對(duì)連續(xù)兩幀目標(biāo),運(yùn)動(dòng)建模.狀態(tài)變量xt=(Λ,px,py,vx,vy)包括仿射參數(shù)向量 Λ,目標(biāo)位置(px,py)和平均速度(vx,vy).仿射參數(shù) Λ 來自于對(duì)已知狀態(tài)xt的計(jì)算.首先從圖像中獲取感興趣區(qū)域zt,并將其歸一化為目標(biāo)模板大小.本文假設(shè)狀態(tài)轉(zhuǎn)換概率 p(xt/xt-1)服從高斯分布,且仿射向量中各參數(shù)獨(dú)立,則觀測(cè)模型p(zt/xt)的大小反映了觀測(cè)值與目標(biāo)模板的相似程度.在跟蹤過程中,p(zt/xt)由目標(biāo)模板和觀測(cè)值的L1最小化誤差得到.
在跟蹤過程中,本文將不同光照背景和視角下目標(biāo)的全局特征投影到一個(gè)低維子空間中來實(shí)現(xiàn)狀態(tài)估計(jì).若已知目標(biāo)模板序列T={t1,t2,…,tn}∈Rd×n(d >> n),包含 n 個(gè) ti∈Rd的向量矩陣,則跟蹤結(jié)果全局特征y∈Rd可以表示為:
式中:a——目標(biāo)參數(shù)向量,a={a1,a2,…,an}T∈
在許多視頻目標(biāo)跟蹤場(chǎng)景中,目標(biāo)物體常常面臨噪音或局部遮擋的問題,尤其遮擋會(huì)影響圖像的任何位置或任意大小,會(huì)產(chǎn)生不可預(yù)測(cè)的檢測(cè)錯(cuò)誤.因此,考慮噪音和遮擋問題的影響,式(4)可以寫成:
式中:ε——非零錯(cuò)誤向量,表示y中被遮擋或破壞的像素.
事實(shí)上,由于ε的不確定性,a有無數(shù)種不同的解.然而,一個(gè)可信的目標(biāo)跟蹤模塊應(yīng)當(dāng)在其對(duì)應(yīng)向量a中只存在有限個(gè)數(shù)的非零值,也就是說,目標(biāo)跟蹤模塊僅可能與有限個(gè)目標(biāo)模板有較高的相似性.因此,將式(5)轉(zhuǎn)化為一個(gè)L1正則化最小二乘問題,即:
式中:‖·‖2,‖·‖1——L1和L2范數(shù)計(jì)算.
L1正則化最小二乘問題可通過Lasso問題求解法得到解決,本文直接采用 INRIA提供的SPAMS稀疏分解工具箱加以實(shí)現(xiàn).
在計(jì)算機(jī)視覺中使用模板跟蹤方法始于1981年[2].首先在第一幀中提取目標(biāo)模板,在隨后每幀中感興趣的區(qū)域找到最為匹配的目標(biāo)位置.一個(gè)固定的目標(biāo)模板不足以應(yīng)對(duì)視頻中可能產(chǎn)生的變化,而如果模板隨視頻更新過快易導(dǎo)致丟失原始目標(biāo)狀態(tài)而僅保留包含更多不確定性的跟蹤信息.
本文采用的基于稀疏表示的目標(biāo)跟蹤法與傳統(tǒng)的模板匹配法有類似之處.雖然在初始時(shí)間內(nèi),目標(biāo)外表會(huì)保持不變,但隨著時(shí)間的延續(xù),模板與目標(biāo)的當(dāng)前外表會(huì)出現(xiàn)差異,這與目標(biāo)行為和面對(duì)攝像機(jī)的角度有關(guān).因此,我們采用目標(biāo)模板T的動(dòng)態(tài)更新來解決這一問題.
L1最小化的一個(gè)重要特點(diǎn)是模板的范數(shù)越大,最小化得到的差值越小,這是由式(6)中‖a‖1項(xiàng)的存在產(chǎn)生的.模板‖ti‖2的值越大,‖Ta-y項(xiàng)中相對(duì)應(yīng)的系數(shù)ai越小.利用這一特性,可以引入一個(gè)與每個(gè)模板相關(guān)聯(lián)的權(quán)重向量ωi=‖ti‖2.權(quán)重越大,表示模板與當(dāng)前目標(biāo)的相關(guān)性越大.第一幀中,人為選定模板并對(duì)其進(jìn)行歸一化.對(duì)選定模板模塊上下左右略微移動(dòng)一定像素值可以得到多個(gè)不同的模板,提取特征后可以得到模板矩陣.
初始條件下,每個(gè)模板的權(quán)值ωi相同,都等于1.每一幀結(jié)束后對(duì)權(quán)值進(jìn)行更新后就可得到:
若當(dāng)前目標(biāo)與最優(yōu)模板的相似度大于某一閾值,則調(diào)整每個(gè)模板的范數(shù)‖ti‖2=ωi,并對(duì)其進(jìn)行歸一化;若兩者相似度小于某閾值的話,則將相似度最低的模板更新為當(dāng)前目標(biāo)特征,其權(quán)重值初始化為所有權(quán)重的平均值.
在Matlab環(huán)境下,采用大量的視頻對(duì)其進(jìn)行了有效性測(cè)試.
實(shí)驗(yàn)環(huán)境:雙核2.66 GHz CPU,3 GB內(nèi)存,幀圖像為768×576像素,視頻跟蹤算法運(yùn)算速度為每秒4幀.
測(cè)試視頻包括室內(nèi)外大量不同人流密度的場(chǎng)景,且場(chǎng)景中包含光線變化和不同程度的遮擋.實(shí)驗(yàn)以第一幀為參考幀,即所取的模板均取自第一幀的目標(biāo)模塊.每一個(gè)目標(biāo)分配20個(gè)不同模板.這些模板的獲取同樣來自于第一幀的目標(biāo)模塊,僅在原始位置的不同方向微移后選取.在所有情況下,初始位置和目標(biāo)的選取均由人工實(shí)現(xiàn),粒子數(shù)量固定為400.
采用本文的跟蹤方法實(shí)現(xiàn)的跟蹤效果如圖3所示.每一行從左往右排列5幀同一場(chǎng)景的跟蹤效果圖片,圖片的左上角顯示的數(shù)字表示當(dāng)前幀數(shù).每張圖片均標(biāo)注了從起始幀到當(dāng)前幀被跟蹤目標(biāo)的運(yùn)動(dòng)軌跡,顯示了跟蹤方法在各種場(chǎng)景中捕獲運(yùn)動(dòng)變化的持續(xù)時(shí)間的有效性和穩(wěn)定性.第1行的圖片序列顯示了在擁擠的機(jī)場(chǎng)候機(jī)室中,跟蹤一位身著深色上衣的旅客的過程.這位旅客從一排椅子的右側(cè)繞行至左側(cè),并穿過了一群向相反方向行走的人.這種單一目標(biāo)的無規(guī)律運(yùn)動(dòng)變化是無法由運(yùn)動(dòng)流模型[3,4]模擬得到的.第2行圖片序列顯示了對(duì)廣場(chǎng)上人群的俯視拍攝.雖然被跟蹤行人身著的灰色上衣近似于地面顏色,但仍能被正確跟蹤,顯示出本算法對(duì)于相似顏色條件下的跟蹤仍可保持較高的精確性.第3行圖片序列來自于2009年的PETS測(cè)試圖庫(kù),顯示了一群人在校園中從西向東行走的場(chǎng)景.由于鏡頭較遠(yuǎn),因此人在圖片中所占比例較小,很難捕獲人物的具體細(xì)節(jié)特征,同時(shí)地面上斑駁的樹影顯示出場(chǎng)景的光照條件比較復(fù)雜.第4行圖片序列展示了地鐵樓梯上的異常擁擠場(chǎng)景,人流由上至下緩慢行走,畫面中大多為黑色和白色,人與人之間特征差別較小.
在所有這些具有挑戰(zhàn)性的場(chǎng)景中,本文提出的方法均能穩(wěn)定地跟蹤到目標(biāo).
圖3 算法跟蹤效果示意
本文提供了一種稀疏表示算法在實(shí)際場(chǎng)景中目標(biāo)跟蹤的實(shí)現(xiàn)方法.可將跟蹤過程看作一個(gè)稀疏估計(jì)問題,并采用L1正則化最小二乘法對(duì)其求解.為了適應(yīng)目標(biāo)的變化,還引入了動(dòng)態(tài)模板更新算法.
經(jīng)過對(duì)多例實(shí)際場(chǎng)景視頻的跟蹤實(shí)驗(yàn),均獲得良好的跟蹤效果,尤其是具有良好背景分割效果的視頻,可以得到準(zhǔn)確的跟蹤結(jié)果.實(shí)驗(yàn)表明,該算法具有良好的魯棒性.但該算法的計(jì)算時(shí)間花銷過大.相信隨著計(jì)算機(jī)的發(fā)展、程序的優(yōu)化,這一問題將會(huì)得到解決.
[1]MEI X,LING H.Robust visual tracking and vehicle classification via sparse representation [J].PAMI,2011,33(11):2 259-2 272.
[2]LUCAS B,KANADE T.An iterative image registration technique with an application to stereo vision[C]//ICJAI,1981:674-679.
[3]RODROGIEZ M,ALI S,KANADE T.Tracking in unstructured crowded scenes,computer vision[C]//2009 IEEE 12th International Conference on Kyoto, Japan, Sep., 2009:1 389-1 396.
[4]ALI S,MUBARAK Shah.Floor fields for tracking in high density crowd scenes[C]//ECCV’08 Proceedings of the 10th European Conference on Computer Vision,Marseille,F(xiàn)rance,2008:1-14.