李佳文,李 建,彭 程,楊 杰
(1.上海交通大學(xué)圖像處理與模式識別研究所,上海 200240;2.上海航天控制技術(shù)研究所,上海 200240;3.中國航天科技集團公司紅外探測技術(shù)研發(fā)中心,上海 200240)
如今復(fù)雜的現(xiàn)代化戰(zhàn)爭環(huán)境中,只有及時發(fā)現(xiàn)目標(biāo),實現(xiàn)有效跟蹤,才能實現(xiàn)精確打擊。相較普通目標(biāo)圖像而言,紅外目標(biāo)圖像反映的是目標(biāo)表面的溫度分布。通常情況下,相比于普通目標(biāo)而言,紅外目標(biāo)信噪比低、對比度低且目標(biāo)紋理較為模糊[1-2],在低信噪比低對比度的條件下,目標(biāo)極易被周圍噪聲淹沒從而跟蹤失敗。同時,實戰(zhàn)環(huán)境具有復(fù)雜多變、不可預(yù)測的特性,當(dāng)目標(biāo)的紋理特征不清晰時,實戰(zhàn)中可能存在的干擾源降低目標(biāo)跟蹤系統(tǒng)的跟蹤性能,這也是目前的目標(biāo)檢測跟蹤技術(shù)所關(guān)注和解決的重要問題。可以說,紅外目標(biāo)跟蹤技術(shù)是提升現(xiàn)代化軍事實力的重要一環(huán)。
目標(biāo)跟蹤是計算機視覺領(lǐng)域中的一個重要方向。它主要針對視頻中的圖像序列,其任務(wù)是通過第一幀中所給的真實目標(biāo)信息構(gòu)建模型,在之后所有幀的圖像中準確估計目標(biāo)的位置。目標(biāo)跟蹤技術(shù)在交通監(jiān)控、導(dǎo)彈制導(dǎo)、自動駕駛等領(lǐng)域均有廣泛應(yīng)用。在軍用方面[3],現(xiàn)階段主要對紅外圖像中的目標(biāo)進行跟蹤,與民用領(lǐng)域中所采用的可見光圖像有著一定區(qū)別,跟蹤難度也更大。
自上個世紀70年代起,人們陸續(xù)提出了一系列經(jīng)典的跟蹤算法。常用的跟蹤算法可以分為TBD算法和DBT算法兩類。DBT(Detect-Before-Track)算法是先通過目標(biāo)的像素強度檢測目標(biāo),然后根據(jù)連續(xù)的圖像序列得到目標(biāo)軌跡;TBD(Track-Before-Detect)算法先進行掃描,將結(jié)果存儲起來,然后對假設(shè)軌跡上的點做相關(guān)分析,最終得到目標(biāo)軌跡[4]。DBT算法中比較典型的算法如Irani等人[5]利用像素小鄰域上灰度差的加權(quán)平均度量目標(biāo)的運動,得到目標(biāo)的運動軌跡;2002年Markandev等人[6]利用光流法檢測跟蹤運動目標(biāo);2003年Wang 等人[7]提出的基于數(shù)字形態(tài)學(xué)的紅外目標(biāo)檢測跟蹤算法,利用形態(tài)膨脹運算累加同一目標(biāo)在不同幀中的能量。TBD算法主要應(yīng)用于低信噪比的背景,有利用方向加權(quán)的動態(tài)規(guī)劃算法的檢測跟蹤技術(shù)[8],也有通過計算幀間的高階相關(guān)性,在圖像中檢測出目標(biāo)軌跡的方法[9]。近幾年,基于多示例學(xué)習(xí)的跟蹤方法[10]和香港理工大學(xué)的Wang等人[11]提出的基于深度學(xué)習(xí)的跟蹤方法和也是目標(biāo)跟蹤領(lǐng)域研究的熱點。
兩類跟蹤算法相比,TBD算法在計算中同時考慮了時間信息與空間信息的關(guān)系,計算量相較于DBT算法要大。但是DBT算法是通過將假設(shè)軌跡與已經(jīng)存在的軌跡做相關(guān)分析,由此確定是否為目標(biāo),會有較高的誤檢率。通常在低信噪比的條件下,TBD算法性能優(yōu)于DBT算法。本文所提出的紅外目標(biāo)跟蹤框架屬于TBD算法。
本文所提出的算法流程如圖1所示。其主要并行構(gòu)建兩種表觀模型來描述紅外圖像目標(biāo)。圖中左側(cè)支路主要處理輪廓紋理信息流,右側(cè)支路利用到了紅外圖像的能量分布信息流,而后通過動態(tài)決策融合機制來定位目標(biāo)在當(dāng)前幀的位置。最后,為了使算法適應(yīng)目標(biāo)的快速移動、形態(tài)模糊和外界遮擋等情況,利用自適應(yīng)的模型更新策略來對兩種模型進行更新,避免將錯誤的目標(biāo)信息更新至模型,進而減少累計的偏移誤差,有利于在之后長時間的跟蹤過程中準確識別和跟蹤目標(biāo)。
圖1 本文算法流程圖
首先在輪廓紋理模型方面,對于第t幀的圖像Xt,本文算法主要訓(xùn)練一個濾波器Ht使得兩者進行相關(guān)操作后輸出的響應(yīng)圖與期望響應(yīng)圖盡可能接近,即最小化下式的損失函數(shù)
(1)
其中,符號?代表相關(guān)操作,Y' 代表期望響應(yīng)圖,一般為高斯分布。另外,λ為正則化參數(shù),用來防止模型過擬合。
由表示定理[12],可以將上述最小化問題轉(zhuǎn)換到對偶空間,轉(zhuǎn)變?yōu)榍蠼鈱ε甲兞喀羣,利用快速傅里葉變換求得解析解,即
(2)
其中,F(xiàn)和F-1分別代表離散傅里葉變換及其反變換操作,<·>代表求取內(nèi)積操作。φ為一映射函數(shù),主要將低維特征空間中的特征向量映射到高維特征空間,從而在高維特征空間中找到一個更恰當(dāng)?shù)某矫孢M行分類判別。利用該方法的好處是無需知道映射函數(shù)的具體表達式,而通過確定該核函數(shù)即可以直接求取高維特征空間中特征向量的內(nèi)積結(jié)果,避免了求解核函數(shù)的復(fù)雜過程。
基于上述訓(xùn)練好的濾波器模型以及提取的目標(biāo)表觀模型,在新的第t+1幀圖像中,濾波器響應(yīng)圖Yt+1可以在頻域中通過式(3)計算得到
Yt+1=F-1(F(αt)⊙F(〈φ(Xt),φ(Xt′)〉))
(3)
其中,⊙代表矩陣元素點乘操作,Xt'代表目標(biāo)特征模板,其中存放了目標(biāo)在時空序列中的表觀模型信息。
(4)
而后通過圖像積分,可以得到當(dāng)前幀的能量響應(yīng)圖Et。
在之后的融合階段,本文針對紅外目標(biāo)跟蹤引入一種動態(tài)決策融合機制[14-15]。其主要利用平均峰值相關(guān)能量[16](Average Peak-to-Correlation Energy,APCE)來衡量響應(yīng)圖的起伏波動程度。對于響應(yīng)圖,其APCE值的計算方式為
(5)
從其計算方式可以看出,如果相關(guān)濾波器所獲得的響應(yīng)圖單峰特性較好,即其峰值區(qū)域較為高聳而旁瓣區(qū)域較為平緩,此時計算所得的平均峰值相關(guān)能量值就會較大;反之,如果響應(yīng)圖起伏波動較大,則上式的分母項較大,因而其平均峰值相關(guān)能量值就會較小,由此可以實時并且動態(tài)地衡量每一幀紅外視頻圖像的相關(guān)濾波結(jié)果的置信度。
(6)
通常而言,紅外目標(biāo)所包含的信息量不如彩色圖像中那么豐富,因而在每一幀的跟蹤結(jié)果之后,對目標(biāo)表觀模型的更新就尤為重要。一旦模型中累計的錯誤信息偏多,在之后的跟蹤過程中算法就很容易丟失目標(biāo)。
本文所提出的目標(biāo)跟蹤算法利用到自適應(yīng)模型更新策略,針對當(dāng)前幀的目標(biāo)進行衡量,根據(jù)目標(biāo)是否被遮擋的置信度,自適應(yīng)地更新模型。具體而言,算法基于當(dāng)前幀的濾波器響應(yīng)圖的APCE值衰減率,利用sigmoid函數(shù)來計算一個更新因子ηt,將當(dāng)前幀的目標(biāo)信息通過線性插值的方式更新至本文算法模型中,即
αt=(1-ηt)αt-1+ηtαt′
(7)
Xt′=(1-ηt)Xt-1+ηtXt′
(8)
(9)
(10)
由此,如果當(dāng)前幀的目標(biāo)被遮擋,所計算得到的更新因子就會較小,模型保存的更多的仍是正確的信息,進而從本質(zhì)上避免了訓(xùn)練樣本集被污染,有利于算法在之后的每幀中更準確地跟蹤紅外目標(biāo)。
本文所提出的目標(biāo)跟蹤算法采用了與KCF算法相同的特征提取方法,即利用方向梯度直方圖特征,各梯度區(qū)塊為4×4像素大小,區(qū)塊中均勻提取9個方向的梯度,所獲得的特征圖維數(shù)為31維。
本文算法主要針對紅外視頻圖像,因此選取了VOT-TIR2015公開紅外數(shù)據(jù)集[17]中的部分視頻序列進行實驗。圖2、圖3、圖4和圖5分別展示了傳統(tǒng)的KCF算法與本文所提出的目標(biāo)跟蹤算法,在birds、jacket、depthwise_crossing和crowd四個視頻序列上的跟蹤結(jié)果。圖中上一行是KCF算法的結(jié)果,下一行是本文所提出的目標(biāo)跟蹤算法的實驗結(jié)果,圖中左上角的數(shù)字代表當(dāng)前圖片的幀數(shù)。可以看出在圖2中,KCF算法在出現(xiàn)鳥群干擾后會逐漸跟偏,并在目標(biāo)人物突然躲閃時跟丟,而本文所提出的算法可以在快速運動的情況下較好地跟蹤到目標(biāo)。此外,由于傳統(tǒng)的KCF算法只利用到了輪廓紋理特征進行建模,一旦當(dāng)紅外圖像中的目標(biāo)的輪廓信息很少或者目標(biāo)很淡的時候,如圖3和圖4所示,KCF算法在數(shù)幀過后便逐漸脫離跟蹤,不能很好地跟上目標(biāo),而本文提出的算法利用到了多模型動態(tài)決策融合機制,因而可以利用紅外目標(biāo)的能量分布信息與背景進行區(qū)分,有著更好的跟蹤效果和更強的魯棒性。在圖5的場景中,待跟蹤的目標(biāo)位于人群中,跟蹤過程中不斷有旁人路過干擾,KCF在路人第一次干擾時就跟丟,轉(zhuǎn)而跟蹤了錯誤的目標(biāo),而本文算法一直跟蹤到了正確的目標(biāo),顯示了對外界環(huán)境的良好抗干擾性。
圖2 KCF算法和本文算法在birds數(shù)據(jù)集實驗結(jié)果比較
圖3 KCF算法和本文算法在jacket數(shù)據(jù)集實驗結(jié)果比較
圖4 KCF算法和本文算法在depthwise_crossing數(shù)據(jù)集上結(jié)果比較
圖5 KCF算法和本文算法在crowd數(shù)據(jù)集上結(jié)果比較
本文針對紅外圖像中的目標(biāo)跟蹤問題,提出了一種基于動態(tài)決策融合和自適應(yīng)模型更新的紅外目標(biāo)跟蹤方法。該方法對相關(guān)濾波器輸出響應(yīng)圖的單峰特性進行定量的衡量,自適應(yīng)地求取多模型決策融合因子以及模型更新系數(shù),使得算法可以充分利用各表達模型在不同情況下的優(yōu)勢,同時有效地避免錯誤信息更新至跟蹤模型中,提升了跟蹤結(jié)果的準確率。最后在公開紅外數(shù)據(jù)集上進行了實驗,并與傳統(tǒng)的目標(biāo)跟蹤方法進行對比,有效地證明了本文所提出跟蹤算法在紅外目標(biāo)快速移動、形態(tài)模糊和外界遮擋等情況下的有效性與魯棒性。