楊海清, 林小明
(浙江工業(yè)大學(xué) 信息工程學(xué)院,浙江 杭州 310023)
目標(biāo)跟蹤是計(jì)算機(jī)視覺的基本問題之一,具有許多實(shí)際應(yīng)用的場(chǎng)景,例如視頻監(jiān)控,人機(jī)交互等。由于形變、光照變化、尺度變化和快速運(yùn)動(dòng)等復(fù)雜因素的存在,此問題仍具有挑戰(zhàn)性。
近幾年,基于相關(guān)濾波的方法在準(zhǔn)確性和魯棒性方面已顯示出持續(xù)的性能改進(jìn)。Bolme D S等人[1]提出最小輸出均方誤差(minimum output mean square error,MOMSE)跟蹤器,該跟蹤器與當(dāng)時(shí)的主流跟蹤器相比,在性能方面取得了極大的領(lǐng)先,同時(shí),跟蹤速度也達(dá)到了幾百幀每秒。Henriques J F等人[2]在MOMSE的基礎(chǔ)上引入了循環(huán)結(jié)構(gòu)和核(cyclic structure and kernel,CSK)技巧來訓(xùn)練濾波器,因?yàn)閮H使用單通道的灰度特征,對(duì)于快速運(yùn)動(dòng)和顏色變化的目標(biāo)跟蹤效果很差。Henriques J F等人[3]在CSK的基礎(chǔ)上使用目標(biāo)特征的循環(huán)移位和循環(huán)矩陣在傅里葉域中的對(duì)角化性質(zhì)獲得嶺回歸封閉解,極大提高了跟蹤速度,但僅使用單一HOG特征,在一些復(fù)雜場(chǎng)景下,該跟蹤效果仍然很差。Danelljan M等人[4]使用位置濾波器和尺度濾波器對(duì)目標(biāo)進(jìn)行位置和尺度估計(jì)。Li Y等人[5]利用多個(gè)特征的尺度采樣來自適應(yīng)的估計(jì)目標(biāo)尺度。Danelljan M等人[6]在判別相關(guān)濾波器的基礎(chǔ)上引入空間正則化來減輕邊界效應(yīng),進(jìn)一步提高跟蹤的準(zhǔn)確性。上述所提到的方法僅僅使用手工特征,不能很好地表征目標(biāo)的外觀模型。同時(shí),上述方法對(duì)于每一幀均更新濾波器,當(dāng)目標(biāo)被遮擋時(shí),容易使模板發(fā)生漂移。
本文利用深度特征[7](Conv5—4,Conv5—5)包含的語義信息結(jié)合手工特征的(HOG,CN,Gray)紋理信息的方式,分別訓(xùn)練相關(guān)濾波器,根據(jù)可靠性系數(shù)進(jìn)行響應(yīng)圖自適應(yīng)通道可靠性加權(quán)融合。同時(shí)通過判斷主旁瓣比(PSR)和響應(yīng)圖的有效局部最大數(shù)量(NELM)是否滿足給定的閾值,從而對(duì)模型進(jìn)行自適應(yīng)更新。
一般性的相關(guān)濾波跟蹤器在跟蹤目標(biāo)的過程中分為訓(xùn)練、檢測(cè)和更新模型三個(gè)階段。
訓(xùn)練階段:在初始幀中,提取以目標(biāo)位置為中心,大小為M×N的圖像塊來訓(xùn)練相關(guān)濾波器,并通過循環(huán)移位得到訓(xùn)練樣本x(m,n)∈{0,1,…,M-1}×{0,1,…,N-1}。通過求解嶺回歸的最小封閉解問題得到最優(yōu)濾波器w
(1)
式中λ為正則化參數(shù),X為所有訓(xùn)練樣本所組成的樣本矩陣,y為訓(xùn)練樣本X的期望輸出。將式(1)轉(zhuǎn)換到頻域內(nèi)求解得到第d(d∈{1,…,D})維通道的濾波器
(2)
式中 ⊙為元素點(diǎn)積,大寫字母為傅里葉變換(例如:X=F(x)),X*為X的復(fù)共軛。
檢測(cè)階段:濾波器訓(xùn)練完成后,對(duì)于新讀入的視頻幀,在新的視頻幀中截取以上一幀中目標(biāo)位置為中心,大小為M×N的圖像塊Z來進(jìn)行檢測(cè),響應(yīng)圖的計(jì)算公式為
(3)
響應(yīng)圖的最大值處即為新視頻幀中目標(biāo)所在位置。跟蹤過程中,為了抑制邊界的影響,采用漢明窗進(jìn)行處理。
模型更新階段:在目標(biāo)跟蹤過程中,目標(biāo)的外觀不可能保持一成不變,因此,為了能夠跟蹤上目標(biāo),對(duì)濾波器模板的分子和分母同時(shí)進(jìn)行更新,更新方式為
(4)
式中θ為學(xué)習(xí)率,t為當(dāng)前幀。
圖1為所提方法的整體流程。首先,提取輸入圖像的手工特征(HOG,CN,Gray),使用VGG—19網(wǎng)絡(luò)進(jìn)行深度特征提取,分別提取Conv4—4層和Conv5—4層的深度特征,獨(dú)立訓(xùn)練每種通道特征的相關(guān)濾波器,得到對(duì)應(yīng)通道特征的相關(guān)響應(yīng)圖。接著,計(jì)算每個(gè)通道可靠性系數(shù)H,通過自適應(yīng)通道可靠性加權(quán)融合得到最終的響應(yīng)圖。最后,當(dāng)目標(biāo)被遮擋時(shí),為了避免濾波器學(xué)習(xí)到背景信息,從而導(dǎo)致目標(biāo)跟蹤失敗,只有NELM和PSR指標(biāo)滿足給定的閾值時(shí),才能對(duì)模型進(jìn)行更新。
圖1 算法流程框圖
通道可靠性反映了每一種通道特征在目標(biāo)定位階段中的重要性,它由通道學(xué)習(xí)可靠性和通道檢測(cè)可靠性組成。通道可靠性的公式定義為
(5)
(6)
其中,Wd由式(2)計(jì)算得到,Xd為第d維通道特征。
(7)
在跟蹤目標(biāo)的過程中,目標(biāo)的外觀模型會(huì)發(fā)生變化,因此,需要對(duì)通道可靠性系數(shù)進(jìn)行更新,公式為
Ht=(1-θ)Ht-1+θH
(8)
式中Ht-1為前一幀的通道可靠性,θ為學(xué)習(xí)率。
最后,進(jìn)行自適應(yīng)響應(yīng)圖融合,得到最終的響應(yīng)圖R。根據(jù)式(5)計(jì)算每個(gè)通道特征的可靠性加權(quán)因子
R=H1·RHOG+CN+Gray+H2·RCONV4-4+H3·RCONV5-4
(9)
其中,H1+H2+H3=1。
在最小化輸出均方誤差[8]濾波器(MOSSE)中,PSR用于描述響應(yīng)圖的狀態(tài)以檢測(cè)跟蹤是否失敗,PSR被定義為
(10)
式中g(shù)max為峰值,μ為旁瓣的平均值,σ為旁瓣的標(biāo)準(zhǔn)偏差。
然而,當(dāng)目標(biāo)快速移動(dòng)或者處于低分辨率狀態(tài)下時(shí),PSR不能精確反映出目標(biāo)是否被遮擋,因此,引入響應(yīng)圖有效局部最大數(shù)量(NELM)來進(jìn)行遮擋檢測(cè)。
(11)
因?yàn)槟繕?biāo)在兩幀之間的運(yùn)動(dòng)應(yīng)該是平穩(wěn)的,因此,從視頻序列的第二幀獲得的響應(yīng)圖中,除(目標(biāo)位置)以外的局部最大值被視為閾值β
β=max(Ti)
(12)
在后續(xù)幀的響應(yīng)圖中,Ti如果大于閾值β,則Ri被記錄為有效局部最大值。NELM表示為
NELM=Crad{Ti|Ti>β}
(13)
式中 Crad為集合中元素的數(shù)量。如果有效局部最大響應(yīng)值存在(如,NELM大于1,PSR小于給定的閾值τ。),則說明目標(biāo)被遮擋,不更新模型。如果沒有局部最大響應(yīng)值存在(即NELM=0),不管PSR是高于給定的閾值還是低于給定的閾值,則按(4)式更新模型。
本次實(shí)驗(yàn)在Intel Core i5—8300CPU、主頻2.30 GHz、運(yùn)行內(nèi)存8 GB的筆記本電腦上運(yùn)行,使用的仿真軟件為MATLAB2016a。本文算法參數(shù)設(shè)置:相關(guān)濾波學(xué)習(xí)率θ=0.01,正則化參數(shù)λ=10-4,閾值τ=7.0。
為了驗(yàn)證本文所提算法的有效性,從0TB—100數(shù)據(jù)集上選取30個(gè)具有挑戰(zhàn)性的視頻序列進(jìn)行驗(yàn)證,這些視頻序列中包含目標(biāo)跟蹤中的常見挑戰(zhàn),包括光照變化、尺度變化、遮擋、快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)等挑戰(zhàn)因素。本次實(shí)驗(yàn)使用一次性評(píng)估方法(OPE)進(jìn)行評(píng)估,評(píng)估指標(biāo)為精度得分和成功率。精度ρ為所跟蹤目標(biāo)的實(shí)際中心位置與標(biāo)準(zhǔn)中心位置的歐氏距離
(14)
式中 (xc,yc)為目標(biāo)的實(shí)際中心位置,(xg,yg)為目標(biāo)的標(biāo)準(zhǔn)中心位置,精度分?jǐn)?shù)(precision)定義為低于一個(gè)特定閾值ρ的視頻幀數(shù)占視頻總幀數(shù)的百分比。重疊率(IOU)表示在當(dāng)前幀中,跟蹤框和標(biāo)準(zhǔn)框的重疊面積與兩個(gè)框的總面積的比值
(15)
式中BT為跟蹤框,BG為標(biāo)準(zhǔn)框,成功率定義為重疊率超過一個(gè)特定閾值的視頻幀數(shù)占視頻總幀數(shù)的百分比。
所提算法與六種主流算法進(jìn)行比較,包括HCFT[7],Staple[9],LMCF[10],KCF[3],DSST[4]、SAMF[5]。其中,HCFT僅使用深度特征,Staple使用的是顏色直方圖和HOG特征,LMCF和SAMF使用的是HOG和CN特征,KCF和DSST使用的是HOG特征。本次實(shí)驗(yàn)主要評(píng)估了使用OPE方法的結(jié)果,在圖2中,圖(a)表示閾值在20像素處的距離精度得分,圖(b)表示曲線下的面積。本文算法與六種主流算法相比,取得了最好的結(jié)果,精度達(dá)到了87.5 %,成功率則達(dá)到了77.8 %,分別高出第二名跟蹤算法4.7 %和8.3 %,在所有比較的算法當(dāng)中排名第一。
圖2 距離精度和重疊成功率
圖3為所提方法與LMCF,Staple,HCFT,DSST跟蹤算法在5個(gè)具有不同挑戰(zhàn)因素的視頻序列上進(jìn)行的定性評(píng)估,分別是DragonBaby,MotorRolling,Human7,Pand和Jogging,從圖3中可以得出,LMCF在目標(biāo)被遮擋情況下能夠繼續(xù)跟蹤到目標(biāo)(Jogging),但當(dāng)目標(biāo)快速移動(dòng)和發(fā)生旋轉(zhuǎn)時(shí)(BragonBaby),其跟蹤性能較差。Staple算法雖然對(duì)光照變化和尺度變化不敏感(Human7),但對(duì)快速運(yùn)動(dòng)、發(fā)生旋轉(zhuǎn)的目標(biāo)的跟蹤性能也很差(MotorRolling)。HCHT算法雖然能夠檢測(cè)出目標(biāo)所在的位置,但當(dāng)目標(biāo)的尺度發(fā)生變化或被遮擋時(shí),不能自適應(yīng)調(diào)整目標(biāo)的尺寸和重新跟蹤上目標(biāo)。DSST算法可以對(duì)目標(biāo)的尺寸進(jìn)行預(yù)測(cè),但當(dāng)目標(biāo)發(fā)生旋轉(zhuǎn)或被遮擋時(shí),會(huì)發(fā)生跟蹤漂移。本文所提的算法能很好應(yīng)對(duì)以上各種挑戰(zhàn)因素,從5個(gè)測(cè)試序列可以看出,本文算法的跟蹤性能均很好。
圖3 五種跟蹤算法的對(duì)比效果
在復(fù)雜場(chǎng)景下,針對(duì)使用單一特征的相關(guān)濾波器容易跟蹤失敗的問題,通過提取傳統(tǒng)手工特征(HOG,CN,Gray)和深度特征來表征目標(biāo)外觀模型,實(shí)現(xiàn)了紋理信息和高語義信息的有效互補(bǔ),進(jìn)一步改善了目標(biāo)的表征能力,同時(shí),通過計(jì)算每個(gè)通道的可靠性系數(shù),實(shí)現(xiàn)響應(yīng)圖的自適應(yīng)通道可靠性加權(quán)融合,實(shí)現(xiàn)了目標(biāo)的精確定位,在OTB—100上表明,所提算法能應(yīng)對(duì)一些跟蹤場(chǎng)景中的復(fù)雜變化(如目標(biāo)旋轉(zhuǎn)、快速移動(dòng)、遮擋等),具有較高的跟蹤精度和較好的魯棒性。