陳 茜 狄 嵐 梁久禎
(1.江南大學數(shù)字媒體學院,無錫,214122;2.江南大學物聯(lián)網(wǎng)工程學院,無錫,214122)
近年來,目標跟蹤在計算機視覺中越來越受關(guān)注,許多研究者傾注了大量時間在研究更加高效的算法上。在一般情況下,跟蹤算法通常先提取目標對象的特征,然后在下一幀中搜索最小差值的圖像區(qū)域[1]。這是最簡單可行的方法,但當處理實時跟蹤時,核心問題是如何在保證跟蹤準確度的同時,降低計算復雜度。
將特征從高維空間向低維映射是一種成功的方法。壓縮感知(Compressive sense,CS)理論[2]表明,如果該特征的維度空間足夠高時,這些特征可以被投影到一個隨機選擇的低維空間,而同時它包含了足夠的信息來重構(gòu)原高維特征。以這種方式,無論是計算復雜性還是跟蹤準確度都得到了保證[3]。目前該領(lǐng)域已經(jīng)取得了很大的進展,但由于跟蹤目標在姿勢、外觀和照明等發(fā)生改變[4]、運動過快及遮擋等情況下,都可能導致意外漂移或完全丟失[5],因此其中仍存在著諸多挑戰(zhàn)。為此,本文提出一種基于boosting框架的視頻目標跟蹤方法,該方法融合了多個正負樣本,且使用了壓縮感知特征。
在壓縮感知跟蹤(Compressive tracking,CT)中,Zhang等[6]提出了一種高效的跟蹤算法,建立了基于壓縮感知理論的特征提取模型。通過樸素貝葉斯分類器從背景中分離出目標,朱秋平等[7]提出了第二特征提取矩陣,與原來壓縮特征隨機測量矩陣形成互補。作為改進,本文結(jié)合了多樣本學習方法來綜合這兩種提取出來的特征,而不是簡單地通過樸素貝葉斯分類器將特征相加。
基于分類器跟蹤的主要問題是如何將目標和背景區(qū)分,也就是正確區(qū)分正樣本和負樣本。Babenko等[8]提出了一種基于多樣本的學習方法,用Haar-like特征進行目標檢測?;贏daboost框架的視頻目標跟蹤方法[9],本文提出了一種基于壓縮感知特征跟蹤、結(jié)合多種正樣本和負樣本的目標跟蹤方法。
壓縮采樣理論(也被廣泛譯為壓縮傳感或CS)是一種新型采樣方法。和傳統(tǒng)方法相比,CS可以在恢復一定量的信號和圖像的同時,使用更少的樣品或測量數(shù)據(jù)[3]。
和一般跟蹤算法不同,壓縮傳感跟蹤算法[6]在提取選擇特征的基礎(chǔ)上,使用壓縮傳感算法對所選擇的特征進行壓縮,而不是直接提取樣本的特征,其算法公式為
式中:X∈Rn×1為原始特征;R為測量矩陣;V∈Rk×1為壓縮后的數(shù)據(jù)。文獻[6]中,X為一維原始特征,由二維目標候選區(qū)轉(zhuǎn)換成一維所得,R為特征提取矩陣,V為最后所得特征。根據(jù)式(1)可知,若R為稀疏陣,則可以減少大量計算并減輕內(nèi)存消耗,故文獻[6]中的矩陣R設定為稀疏的隨機測量矩陣,定義為
式中a值在{2,3}間隨機選取。
圖1 特征生成示意圖Fig.1 Schematic diagram of Vifeature generation
針對在目標紋理快速變化時,傳統(tǒng)壓縮傳感跟蹤算法易發(fā)生目標丟失或漂移的問題,本文分析并提出了改進的跟蹤算法。
文獻[7]改進了特征提取矩陣R來加強跟蹤的穩(wěn)定性。首先使用特征生成圖隨機生成R,再結(jié)合灰度特征和紋理特征,基于R生成新的隨機測量矩陣?。新的特征提取矩陣為
通過概率計算可知[7],的分布特性與Ri中的正好互補,使得R和提取的紋理特征和灰度均值特征形成互補,且比例為1∶1。在不同的條件下,這兩種特征的穩(wěn)定性不同且互補,從而使跟蹤更穩(wěn)定。特征提取公式為
式中:SSi,k為第k個圖像塊,為權(quán)值,為新的特征。
采用多實例的樣本包,并基于在線的boosting方法[8],已貼標簽的樣本集合可定義為
式中:F(x)是分類器,與預測最大邊界值有關(guān);yF(x)表示樣本x在分類器中的邊界。因boosting中的梯度逐級下降,故弱分類器fm(x)可修改為
則包的多樣本對數(shù)似然函數(shù)定義為[10]
且正樣本概率的幾何平均為正樣本包的概率,即
結(jié)合式(7),帶有標簽的樣本被優(yōu)化后可表示為
式中:aij為負梯度,屬于正樣本包中的每個樣本,表達為。
在多樣本檢測中,有需要加權(quán)的多個目標特征,由特征提取的式(3)可知,原跟蹤算法候選目標的每個特征是被檢目標的概率[6]為
通過式(10)能評估選取特征對訓練樣本分類的結(jié)果。設定q為判別正負樣本的閾值,如果p(i)>q,則判別樣本為正,反之則判別樣本為負,文中設定q初始為0。
wi為特征的權(quán)值,該值會在訓練樣本分類后重置,每個特征的wi計算公式為
式中:tpi是被正確分類的正樣本個數(shù);tni是被正確分類的負樣本個數(shù);fpi是被錯誤分類的正樣本個數(shù);fni是被錯誤分類的負樣本個數(shù)。
通過多種特征的使用,提高了目標特征在各種情況下的穩(wěn)定性,同時改善了跟蹤效果。與此同時需要對式(10)中的條件分布p(vi|y=1),p(vi|y=0)重新定義,即
式中:μt和σt分別為樣本均值和標準差,當t為1表示正樣本,t為0時表示負樣本。
通過調(diào)整特征的權(quán)值wi可得到新的分類器Hn(v)。分類效果好的特征權(quán)值增加,同時根據(jù)加權(quán)過的特征推測出目標的下一幀位置。
結(jié)合式(12),可得到推測目標下一幀位置的公式為
相關(guān)參數(shù)的更新公式為
實驗中的背景圖像由前一幀圖像中去掉跟蹤區(qū)域所得。目標跟蹤實例使用了david,box,biker,coke,surfer和face視頻序列,所有視頻都來自公共視頻庫,其中遮擋實例來源于surfer和face。本文跟蹤算法與多示例學習算法(Multiple instance learning,MIL)[8]、加權(quán)多示例學習算法(Weighted multiple instance learning,WMIL)[11]以及快速壓縮感知跟蹤算法(Fast compressive tracking,FCT)[12]進行了比較。其中壓縮傳感跟蹤算法選取了100個特征,設定了50個強分類器,包含100個弱分類器,4種算法都采用Haar-like特征,在主頻為2.83 GHz,內(nèi)存為4 GB,Windows7操作系統(tǒng),Matlab2012b平臺上進行了對比實驗。
在實時跟蹤中,平均每秒幀數(shù)(Frames per second,FPS)是一種判斷跟蹤速度的重要指標。首先計算了每種跟蹤算法的FPS,然后定義了位置誤差這種衡量跟蹤準確度的度量方法。位置誤差為跟蹤器在每一幀的估計位置與該幀人工標定的標準目標位置之間的歐氏距離,差值越接近0為準確度越佳。計算5個算法的平均誤差,按照視頻序列作為閾值,若某個跟蹤算法的位置誤差小于對映序列的閾值,就意味著跟蹤成功。
圖2—5分別給出了4種跟蹤算法在不同視頻序列中的跟蹤結(jié)果,其跟蹤誤差曲線圖如圖6所示。
圖2 david視頻序列跟蹤結(jié)果Fig.2 Tracking results of david sequence
圖3 box視頻序列跟蹤結(jié)果Fig.3 Tracking results of box sequence
圖4 biker視頻序列跟蹤結(jié)果Fig.4 Tracking results of biker sequence
圖5 coke視頻序列跟蹤結(jié)果Fig.5 Tracking results of coke sequence
圖6 視頻序列的跟蹤誤差曲線圖Fig.6 Tracking error curves of viedo sequence
由圖2可知,所有算法在david視頻序列中的跟蹤效果良好,是因為目標紋理、光照等條件幾乎沒有發(fā)生變化,但在視頻的第281,300和400幀中,部分算法的跟蹤出現(xiàn)了漂移,這是因為目標出現(xiàn)了光照和姿勢、位置的變化。MIL算法的特點是特征會因?qū)W習而更新,特別是當目標變化快速時,容易產(chǎn)生不理想的特征,從而出現(xiàn)目標漂移甚至丟失的情況。在跟蹤誤差曲線圖6中,MIL算法在第250到350幀之間出現(xiàn)了目標丟失的情況。本文算法的跟蹤穩(wěn)定,與WMIL,F(xiàn)CT算法的跟蹤效果基本相同。
由圖3可知,MIL算法和FCT算法在box視頻序列中都出現(xiàn)了目標漂移的情況。由于box視頻中目標快速運動,造成紋理、光照的明顯變化。在第340幀之后MIL算法丟失目標,這是由于該算法采用了單一特征,在目標快速運動或目標環(huán)境變化劇烈的情況下不能夠穩(wěn)定跟蹤,從而跟蹤效果起伏很大。FCT算法也在第340幀以后完全丟失目標,從圖6中也可以看出MIL,WMIL和FCT跟蹤誤差波動很大,這是由于該算法的特征更新速率過快,錯誤累加導致。本文算法在目標快速運動或目標環(huán)境變化劇烈的情況下仍然跟蹤穩(wěn)定,是因為采取了紋理特征和灰度均值特征相結(jié)合的方法。且針對不同特征分別進行加權(quán),使得對box視頻序列的跟蹤結(jié)果良好。
由圖4可知,在biker視頻序列中,目標發(fā)生了姿勢的明顯變化,其中MIL算法提取了顏色特征,所以跟蹤最為穩(wěn)定,而WMIL算法、FCT算法和本文算法在其中都出現(xiàn)了目標漂移的情況,證實壓縮感知特征在目標出現(xiàn)瞬間移動過快的情況下容易產(chǎn)生漂移和不穩(wěn)定的情況。從圖6中也可以看出,F(xiàn)CT和本文算法的跟蹤誤差曲線在第85幀到第100幀之間波動最大,而WMIL算法從85幀開始甚至完全丟失目標,這是由于目標速率過快,導致了跟蹤不穩(wěn)定漂移的情況。
圖5的coke視頻序列中,光照和位置變化明顯。結(jié)合圖6可知,MIL算法從一開始就產(chǎn)生了較大的位置誤差,WMIL,F(xiàn)CT算法和本文算法跟蹤效果良好。
圖7和圖8顯示了遮擋目標實驗結(jié)果。從選取的視頻序列可知,在目標被遮擋時,MIL算法、WMIL算法和FCT算法產(chǎn)生了漂移。由于上述幾種算法都沒有處理遮擋的情況,故當目標被大面積遮擋或持續(xù)遮擋時,會發(fā)生目標漂移甚至目標丟失。本文算法在圖8第2行右圖中,在男子的頭部被帽子遮擋部分時沒有出現(xiàn)太大的漂移。
圖7 sufer視頻序列跟蹤結(jié)果Fig.7 Tracking results of sufer sequence
圖8 face視頻序列跟蹤結(jié)果Fig.8 Tracking results of face sequence
表1給出了每種跟蹤算法的FPS結(jié)果。由表1可知,在實時性方面,本文方法達到了在線跟蹤的需求,幀速率因受到不同視頻序列分辨率的變化或跟蹤目標的變化,會略微有差異。本文方法與MIL算法、WMIL算法以及FCT算法的像素誤差對比結(jié)果如表2所示。各種跟蹤算法的成功率對比結(jié)果如表3所示。由表3可知,本文方法的跟蹤成功率在四者中最優(yōu)。需說明的是,表1,2,3中的最佳結(jié)果均由紅色表示,次佳結(jié)果由藍色表示。
表1 4種跟蹤器的平均幀速率Tab.1 Average frames per second(FPS)of four trackers
表2 4種跟蹤器平均位置的像素誤差Tab.2 Pixel error of average position of four trackers
表3 4種跟蹤器的成功率Tab.3 Success rate of four trackers
在壓縮傳感跟蹤算法和多樣本跟蹤方法的基礎(chǔ)上提出本文算法。經(jīng)過目標跟蹤檢測實驗可以得出,在跟蹤速度上本文算法優(yōu)于多樣本跟蹤方法,在跟蹤效果上繼承了壓縮傳感跟蹤算法的優(yōu)越性。通過針對兩種算法的不足進行的改進,結(jié)合了兩種算法的優(yōu)勢,在滿足實時性的同時,有效提高了特征跟蹤的穩(wěn)定性,在跟蹤目標被遮擋時,能有效抗干擾,尋回目標。實驗結(jié)果表明,本文算法在目標快速運動,紋理或環(huán)境發(fā)生變化的情況下,能有效提高跟蹤穩(wěn)定性,并能遏制一定的漂移現(xiàn)象。以后的研究會著重于引入運動推測[10,13-14]改進目標發(fā)生嚴重遮擋時的情況,采用三角流等算法[15-17]解決目標大小發(fā)生變化的情況。但引入這些算法必然影響跟蹤的幀速率,這些是后續(xù)研究的方向。