方彥策,趙君靈,黃昭龍,李旗挺,杜立超,張宏江,宋眉眉
(1.中國海洋大學(xué) 信息科學(xué)與工程學(xué)部,山東 青島 266100;2.天津理工大學(xué) 理學(xué)院,天津 300384;3.中國運(yùn)載火箭技術(shù)研究院 研究發(fā)展部,北京 100076)
目標(biāo)跟蹤是計算機(jī)視覺領(lǐng)域中的一個重要的問題,在自動駕駛[1]、無人機(jī)[2]、機(jī)器人[3]等領(lǐng)域有廣泛應(yīng)用。在目標(biāo)跟蹤的早期階段,卡爾曼濾波[4],光流法[5]等方法已被陸續(xù)用于目標(biāo)跟蹤。然而,緩慢的計算速度和較低的精度限制了目標(biāo)跟蹤水平進(jìn)一步的發(fā)展。同時,傳統(tǒng)的可見光目標(biāo)跟蹤容易受到天氣、光線、視頻圖像質(zhì)量等各種干擾。近年來,在通過可見光視頻進(jìn)行目標(biāo)跟蹤的基礎(chǔ)上,將紅外視頻圖像引入目標(biāo)跟蹤的做法,有效地提高了傳統(tǒng)目標(biāo)跟蹤的效果,這一方法被稱為可見光與紅外融合目標(biāo)跟蹤方法(RGBT, RGB-infrared fusion tracking)。Yilmaz等人[6]在2006年對當(dāng)時最先進(jìn)的目標(biāo)跟蹤方法進(jìn)行了總結(jié),但當(dāng)時的方法仍然存在精度等方面的不足。近年來,人工智能技術(shù)的持續(xù)發(fā)展有力地促進(jìn)了目標(biāo)跟蹤技術(shù)的進(jìn)步,突破了傳統(tǒng)可見光與紅外融合目標(biāo)跟蹤的發(fā)展瓶頸,為可見光與紅外融合的目標(biāo)跟蹤技術(shù)不斷提供新的思路、框架和工具,并逐漸在速度和準(zhǔn)確性之間取得平衡,成為進(jìn)一步研究的重點(diǎn)。Zhang等人在2020年[7]從稀疏表示、相關(guān)濾波、深度學(xué)習(xí)等方面梳理了可見光和紅外融合的主要方法。本文面向可見光與紅外融合目標(biāo)跟蹤技術(shù)的發(fā)展歷程,特別針對近兩年來出現(xiàn)的新方法和新技術(shù),對可見光與紅外融合目標(biāo)跟蹤技術(shù)的研究現(xiàn)狀進(jìn)行總結(jié)。
本文首先介紹可見光與紅外融合跟蹤的相關(guān)工作,然后從傳統(tǒng)方法和基于深度學(xué)習(xí)的方法兩方面進(jìn)行闡述,接著介紹可見光與紅外數(shù)據(jù)集和相關(guān)評估指標(biāo),最后提出了對該領(lǐng)域未來理論研究和應(yīng)用領(lǐng)域發(fā)展方向的展望。
可見光指的是波長在390~780 nm之間的光線,可見光圖像具有明顯的顏色和紋理信息。紅外光指的是波長為760 nm~1 000 μm(真空中)的輻射電磁波,紅外圖像反映的是目標(biāo)和背景向外輻射能量的差異,具有較大的作用距離和較強(qiáng)的抗干擾能力??梢姽鈭D像容易受光照影響,但可以提供豐富的圖像細(xì)節(jié);紅外圖像不容易受光照影響,雖然能大致描繪物體的形狀和位置,但缺乏紋理等細(xì)節(jié)信息[8]。由此可見,如果將可見光和紅外圖像進(jìn)行融合,可以實(shí)現(xiàn)較好的互補(bǔ)作用。
圖像融合是指用特定的算法將多幅圖像合成一幅圖像,原圖像集合的大部分特點(diǎn)都能從合成后的圖像中體現(xiàn)(圖1)。將可見光圖像和紅外圖像進(jìn)行融合,既可以減少外界光照等環(huán)境因素的影響,也可以獲得盡可能豐富的圖像信息。通常來說,可見光和紅外圖像融合的方法有:像素級融合、特征級融合和決策級融合[9]。
圖1 可見光與紅外圖像融合過程
1.2.1 像素級融合
像素級圖像融合是指對可見光和紅外圖像進(jìn)行匹配后,在兩種圖像的像素之上計算出新的像素值的方法,新的像素值將融合兩種圖像的信息。像素級融合實(shí)現(xiàn)難度比較低,但是計算量較大,在實(shí)時性方面有所欠缺。
1.2.2 特征級融合
特征級融合的過程是對可見光和紅外圖像分別進(jìn)行特征提取之后,進(jìn)行基于特征(如邊緣、形狀、輪廓等)的數(shù)據(jù)融合,并用融合后的特征做出判斷。
1.2.3 決策級融合
決策級融合是先對于可見光和紅外圖像分別進(jìn)行單獨(dú)的處理,得到各自判斷和識別的初步結(jié)果,然后將這些初步結(jié)果按照一定的規(guī)則和權(quán)重進(jìn)行調(diào)整,最終獲得最優(yōu)的結(jié)果的過程。決策級融合在魯棒性、實(shí)時性、開放性等方面都具有優(yōu)勢。
目標(biāo)跟蹤是一種在給定視頻序列初始幀的目標(biāo)大小和位置的情況下,利用特定方法獲得在后續(xù)幀中目標(biāo)的大小和位置的技術(shù)方法。目標(biāo)跟蹤在經(jīng)過了早期經(jīng)典方法的發(fā)展之后,又出現(xiàn)了基于相關(guān)濾波、深度學(xué)習(xí)等理論的方法。
早期經(jīng)典方法主要根據(jù)目標(biāo)的特征進(jìn)行跟蹤。例如,光流法是[5]通過相鄰幀之間像素的位置變化來判斷目標(biāo)的運(yùn)動狀態(tài),但這種方法要求限制像素的位移距離,所以光流法有很大的局限性。此外,粒子濾波等經(jīng)典算法也被用于進(jìn)行目標(biāo)跟蹤,但還不能很好地解決目標(biāo)跟蹤中的各種問題,也無法處理各種復(fù)雜的現(xiàn)實(shí)情況。
在基于相關(guān)濾波的目標(biāo)跟蹤方法方面,最早利用相關(guān)濾波器進(jìn)行目標(biāo)跟蹤的方法是“最小輸出平方和誤差”算法(MOSSE,minimum output sum of squared error)[10],在實(shí)現(xiàn)了較高速度的同時提升了目標(biāo)跟蹤的效果。
在基于深度學(xué)習(xí)的目標(biāo)跟蹤方面,“視覺幾何”研究組(VGG,visual geometry group)提出了VGG-19網(wǎng)絡(luò)[11]并應(yīng)用于目標(biāo)跟蹤,該網(wǎng)絡(luò)利用部分卷積層作為特征提取層,得到的特征經(jīng)由相關(guān)濾波器進(jìn)行處理,實(shí)現(xiàn)了很好的跟蹤性能。此后,該領(lǐng)域還出現(xiàn)了對沖深度跟蹤(HDT,hedged deep tracking)[12]、視覺跟蹤連續(xù)卷積算子(C-COT,continuous convolution operators for visual tracking)[13]等基于深度學(xué)習(xí)的方法,在目標(biāo)跟蹤的實(shí)時性和性能上都有所提高。
可見光與紅外融合目標(biāo)跟蹤的早期方法有卡爾曼濾波、粒子濾波和均值漂移等,經(jīng)過較長一段時間的研究之后,發(fā)展出了基于相關(guān)濾波的方法、基于圖的方法和基于稀疏表示的方法。近年來,深度神經(jīng)網(wǎng)絡(luò)表現(xiàn)出了強(qiáng)大的學(xué)習(xí)能力,突破了傳統(tǒng)目標(biāo)跟蹤方法存在的精度瓶頸,成為了可見光與紅外融合目標(biāo)跟蹤的一種主要方法。有鑒于此,本文將可見光與紅外融合的目標(biāo)跟蹤方法分為經(jīng)典方法和基于深度學(xué)習(xí)的方法。
2.1.1 早期的經(jīng)典方法
早期的可見光與紅外融合目標(biāo)跟蹤方法主要基于三種不同種類的算法,分別是卡爾曼濾波算法、粒子濾波算法和均值漂移算法。
卡爾曼濾波是早期目標(biāo)跟蹤方法中常用的算法。卡爾曼濾波算法由R.E.Kalman在1960年提出[4],卡爾曼濾波是一種高效率的遞歸濾波器,它能夠從一系列不完全和包含噪聲的測量中,估計動態(tài)系統(tǒng)的狀態(tài)?;诳柭鼮V波的方法,論文[14]提出了一種運(yùn)動物體檢測和跟蹤的系統(tǒng),該系統(tǒng)把紅外視頻和可見光視頻穩(wěn)定地集成在水平集框架中,將三維結(jié)構(gòu)張量擴(kuò)展為通量張量,實(shí)現(xiàn)無特征分解的快速、魯棒的運(yùn)動檢測。除此之外,一種壓縮時空卡爾曼濾波融合跟蹤算法[15]將卡爾曼濾波擴(kuò)展到多傳感器融合跟蹤的情形,其中圖像來源包括可見光圖像和紅外圖像。
根據(jù)已知的公開文獻(xiàn),粒子濾波算法在1993年由Gordon等人提出[16],它通過非參數(shù)化的蒙特卡洛模擬方法來實(shí)現(xiàn)遞推貝葉斯濾波,適用于任何能用狀態(tài)空間模型描述的非線性系統(tǒng),其精度可以逼近最優(yōu)估計。粒子濾波方法在1998年[17]首次被引入到目標(biāo)跟蹤領(lǐng)域,該方法將靜態(tài)非高斯問題的統(tǒng)計因子抽樣算法和目標(biāo)運(yùn)動的隨機(jī)模型進(jìn)行了融合。之后,有研究人員利用一種融合顏色提示和結(jié)構(gòu)相似性度量的粒子濾波器[18],去探討可見光和紅外攝像機(jī)的視頻像素級融合是否會存在精度上的問題,實(shí)驗(yàn)表明該濾波器在紅外的視頻中跟蹤性能較好,而在可見光視頻中由于光照等環(huán)境因素干擾較大導(dǎo)致跟蹤性能較差,融合后不能保證取得更好的效果,甚至可能還會導(dǎo)致性能下降。對此,論文[18]認(rèn)為基于多分辨率的融合方法,可以有效解決普通融合方法帶來的性能下降問題。另外,傳統(tǒng)的融合前跟蹤策略還存在多個單一傳感器之間相互影響的情況,因此出現(xiàn)了一種改進(jìn)的粒子濾波算法[19],它使用帶有空間信息的顏色直方圖來表示目標(biāo)模型,并給予每個粒子的顏色特征權(quán)值,同時在融合可見光和紅外序列的跟蹤結(jié)果的規(guī)則上進(jìn)行了改進(jìn),最后根據(jù)目標(biāo)融合跟蹤結(jié)果更新模板,在有效性、魯棒性和實(shí)時性上均有提升。
均值漂移算法最早由K.Fukunaga等人提出[20],它是一種沿著密度上升方向?qū)ふ揖鄞攸c(diǎn)的方法,通過不斷地重復(fù)計算距離均值來移動中心點(diǎn),實(shí)現(xiàn)對目標(biāo)的跟蹤。均值漂移在復(fù)雜的背景變化之下,會導(dǎo)致魯棒性和跟蹤效果的下降。針對此問題,一種基于區(qū)域目標(biāo)檢測和模糊區(qū)域規(guī)則的FRDIF融合方法[21]采用相似度加權(quán)算法,解決了復(fù)雜背景變化帶來的影響。除此之外,為了解決其他多模態(tài)跟蹤方法遇到的數(shù)據(jù)存儲量和處理量指數(shù)增長的情況,有學(xué)者提出了一個可以融合多個空間圖跟蹤器的框架[22],通過有效地組合特征以進(jìn)行抗干擾的跟蹤,提升了跟蹤效果。
2.1.2 基于相關(guān)濾波的方法
相關(guān)濾波在目標(biāo)跟蹤中是一種重要的方法。它通過設(shè)計特定的濾波模板,與目標(biāo)所在的候選區(qū)域做相應(yīng)的運(yùn)算,從輸出的最大相應(yīng)位置中可以得到目標(biāo)的近似位置。相關(guān)濾波由于它自身在效率和正確性上的優(yōu)勢,在目標(biāo)跟蹤領(lǐng)域得到了很大的關(guān)注。根據(jù)公開的文獻(xiàn)資料,第一個被用于可見光與紅外融合目標(biāo)跟蹤的相關(guān)濾波器是基于軟一致性的相關(guān)濾波器[23],軟一致性是指在稀疏不一致的情況下,使可見光和紅外光的光譜保持一致,從而實(shí)現(xiàn)可見光和紅外數(shù)據(jù)更有效地融合,并利用加權(quán)融合機(jī)制來計算檢測階段的最終響應(yīng)圖。
在目標(biāo)跟蹤階段,相似物體或背景噪聲的存在會導(dǎo)致算法的準(zhǔn)確率降低,基于相關(guān)濾波的一種大邊緣目標(biāo)跟蹤方法和一種多模態(tài)目標(biāo)檢測技術(shù)的提出解決了相關(guān)濾波在此方面的不足[24]??紤]到在不同模式中的特征也具有一定的相似性,因此,基于這個原則可以構(gòu)建一個相關(guān)濾波器[25],它利用低秩約束聯(lián)合學(xué)習(xí)不同模態(tài),在繼承相關(guān)濾波的優(yōu)點(diǎn)的同時,魯棒性也有一定程度的增強(qiáng)。在此之外,還有多種基于相關(guān)濾波的方法,例如基于相關(guān)濾波器和直方圖的融合跟蹤方法[26]、基于相關(guān)濾波器的可見光跟蹤[27]和基于馬爾可夫鏈蒙特卡羅的紅外跟蹤[28]。
2.1.3 基于圖的方法
公開文獻(xiàn)顯示,圖相關(guān)的模型是在2017年被提出的[28],通過使用可見光和紅外數(shù)據(jù)來學(xué)習(xí)對象的表示,該模型被稱為加權(quán)稀疏表示正則化圖。為了抑制可見光與紅外跟蹤的背景效應(yīng),研究人員[29]基于跨模態(tài)流形排序算法,通過將軟交叉模態(tài)一致性整合到排名模型中,并用最優(yōu)查詢學(xué)習(xí)方法來處理查詢的標(biāo)簽噪聲,將排序結(jié)果融合到基于塊的對象特征中以解決背景效應(yīng)。在此基礎(chǔ)上,文章[30]又通過學(xué)習(xí)局部和全局多圖描述符對先前的圖模型進(jìn)行了改進(jìn),首先用多個圖表示對象,并以一組多模態(tài)圖像塊為節(jié)點(diǎn)以防止失真和部分遮擋;然后隨著時間的推移,使用空間平滑度以及低秩表示動態(tài)地學(xué)習(xí)聯(lián)合圖;接著將多圖信息與對應(yīng)的圖節(jié)點(diǎn)權(quán)重相結(jié)合,形成魯棒的對象描述符,最后采用結(jié)構(gòu)化支持向量機(jī)進(jìn)行跟蹤。在之前的研究基礎(chǔ)上,一種兩階段模態(tài)圖正則化流形排序算法被提出并用于學(xué)習(xí)可見光與紅外融合跟蹤對象的魯棒表示[31],該算法利用結(jié)構(gòu)化向量機(jī)對目標(biāo)位置進(jìn)行預(yù)測,從而實(shí)現(xiàn)對目標(biāo)的表示和跟蹤。
稀疏表示是一種使用字典中元素的線性組合來表示樣本的方法。據(jù)公開資料顯示,稀疏表示在2009年首次被引入可見光與紅外融合目標(biāo)跟蹤任務(wù)[32],該方法將跟蹤任務(wù)建模為稀疏近似問題,并通過正則化的最小二乘方法來解決。在添加非負(fù)性約束和更新動態(tài)模板之后,實(shí)驗(yàn)表明基于稀疏表示的方法有很大的潛力[32]。隨后,另一種基于稀疏表示的數(shù)據(jù)融合方法也被證明對于可見光與紅外融合目標(biāo)跟蹤任務(wù)[33]是有效的,它將來自不同目標(biāo)候選源的圖像塊鏈接到一個一維向量,然后將其稀疏表示到目標(biāo)模板空間。對具有異構(gòu)信息源的多個真實(shí)視頻的實(shí)驗(yàn)表明,這個方法比當(dāng)時同類目標(biāo)跟蹤算法具有更強(qiáng)的魯棒性。在稀疏表示的基礎(chǔ)上,聯(lián)合稀疏表示提供了一種比較自然的方法來融合多種模態(tài)的信息[34],使用聯(lián)合稀疏表示設(shè)計的似然函數(shù)能有效地判斷樣本之間的相似性。
除了直接利用稀疏表示進(jìn)行可見光和紅外融合的目標(biāo)跟蹤外,稀疏表示還可以與貝葉斯框架等多種方法相結(jié)合,從而獲得不同的稀疏表示模型,達(dá)到比單一稀疏表示更好的效果。文獻(xiàn)[35]介紹了一種在貝葉斯過濾框架中的方法,通過拉普拉斯稀疏表示引入生成多模態(tài)特征模型,進(jìn)行實(shí)時在線的灰度可見光與紅外目標(biāo)跟蹤。該模型充分利用局部塊之間的相似性來細(xì)化其稀疏代碼,從而可以無縫融合不同的源數(shù)據(jù)以進(jìn)行目標(biāo)跟蹤,在魯棒性和有效性上都得到了實(shí)驗(yàn)驗(yàn)證。另一種貝葉斯過濾框架中的跨模態(tài)稀疏表示的融合方法[36],是在模型中引入模態(tài)權(quán)重以實(shí)現(xiàn)自適應(yīng)融合,使用重建殘差和系數(shù)來定義運(yùn)動模型生成的每個候選樣本的似然概率,最后通過尋找具有最大似然概率的候選樣本來定位目標(biāo)。另外,模型[37]基于可見光和紅外目標(biāo)跟蹤的模態(tài)相關(guān)感知,通過低秩正則化表征不同模態(tài)之間的相關(guān)性,并結(jié)合稀疏正則化的表示,使其能夠進(jìn)行有效模態(tài)融合并處理較大的外觀變化。
在貝葉斯過濾框架中,還有一種基于聯(lián)合稀疏表示的自適應(yīng)融合方案[38],能夠自適應(yīng)地結(jié)合來自灰度和紅外視頻的信息,可在比較復(fù)雜的場景中進(jìn)行目標(biāo)跟蹤,也適用于在線跟蹤任務(wù)。但是上述方法對于有挑戰(zhàn)性的場景仍然不能很好地進(jìn)行目標(biāo)跟蹤,因此在貝葉斯過濾框架下又有了一種基于多任務(wù)拉普拉斯稀疏表示的灰度(可見光)-紅外目標(biāo)跟蹤方法[39],它基于給定的邊界框提取出一組重疊的局部塊,尋找灰度和紅外模態(tài)的多任務(wù)聯(lián)合稀疏表示,并將這兩種模態(tài)的表示系數(shù)連接成一個向量來表示邊界框的特性,該方法在比較有挑戰(zhàn)性的跟蹤任務(wù)中具有一定的有效性。
2.2.1 基于Transformer的方法
Transformer[40]是一個利用注意力機(jī)制來提高模型訓(xùn)練速度的結(jié)構(gòu),由Google在2017年提出,最早被設(shè)計用于自然語言處理。Transformer使用注意力結(jié)構(gòu)代替長短時神經(jīng)網(wǎng)絡(luò),同時也跳出了編解碼器與卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)結(jié)合的固定模型框架。當(dāng)前,Transformer在深度學(xué)習(xí)的各個領(lǐng)域都表現(xiàn)出了其出色的性能,其中也包括可見光與紅外融合目標(biāo)跟蹤。
根據(jù)已公開的文獻(xiàn),第一個將Transformer引入可見光與紅外融合目標(biāo)跟蹤領(lǐng)域的是一種稱為跨模式協(xié)作上下文表示(CMC2R,cross-modal collaborative contextual representation)的雙流混合結(jié)構(gòu)[41],通過編碼器塊轉(zhuǎn)換層融合不同分辨率下的局部特征和全局表征,以及空間和通道的自我注意機(jī)制,實(shí)現(xiàn)兩種模態(tài)的信息融合,最終獲得上下文信息(圖2),該網(wǎng)絡(luò)在目標(biāo)跟蹤任務(wù)中表現(xiàn)出了較好的性能。
圖2 基于Transformer的跨模式協(xié)作上下文表示雙流混合結(jié)構(gòu)
2.2.2 基于注意力的方法
深度學(xué)習(xí)中的注意力機(jī)制,來源于對人類視覺的注意力機(jī)制的研究。注意力機(jī)制能夠像人眼一樣,在輸入圖像之后,評估圖像中不同區(qū)域的重要性,并為其分配不同的權(quán)重。分層雙傳感器交互網(wǎng)絡(luò)(HDINet,hierarchical dual-sensor interaction network)[42]較早將注意力機(jī)制引入可見光與紅外融合目標(biāo)跟蹤領(lǐng)域。該網(wǎng)絡(luò)的核心是特征交互模塊和數(shù)據(jù)編碼模塊兩個模塊,前者基于注意力機(jī)制提取和補(bǔ)充雙傳感器的主導(dǎo)信息,而后者負(fù)責(zé)將原始數(shù)據(jù)編碼為第一個特征交互模塊的初始輸入,同時后者的工作質(zhì)量對整個網(wǎng)絡(luò)的性能有關(guān)鍵影響。為了高效地融合雙模態(tài)信息,有學(xué)者提出了基于模態(tài)感知注意網(wǎng)絡(luò)和競爭學(xué)習(xí)(MaCNet, modal-aware attention network and competitive learning)的可見光和紅外融合目標(biāo)跟蹤算法[43]。該算法由特征提取網(wǎng)絡(luò)、模態(tài)感知注意力網(wǎng)絡(luò)和分類網(wǎng)絡(luò)組成,其中特征提取網(wǎng)絡(luò)利用雙流網(wǎng)絡(luò)結(jié)構(gòu),從每個模態(tài)圖像中提取特征;模式感知注意力網(wǎng)絡(luò)通過整合原始數(shù)據(jù)建立一個描述不同特征層重要性的注意力模型,來引導(dǎo)特征的融合,以增強(qiáng)不同模式間的信息交互;分類網(wǎng)絡(luò)由分別作用于可見光數(shù)據(jù)、熱紅外數(shù)據(jù)和融合信息數(shù)據(jù)的三個平行的二元分類器組成,輔以一個面向多模態(tài)的損失函數(shù)。在競爭性學(xué)習(xí)的訓(xùn)練策略引導(dǎo)下,整個網(wǎng)絡(luò)將向雙模態(tài)的最佳融合方向進(jìn)行微調(diào)。為進(jìn)一步充分利用可見光圖像和熱紅外圖像在跟蹤中的互補(bǔ)優(yōu)勢,跨模態(tài)注意網(wǎng)絡(luò)(CANet,cross-modal attention network)[44]給出了可見光與紅外融合目標(biāo)跟蹤的兩個并行網(wǎng)絡(luò)中的跨模型操作(CM,cross-model operation),在兩種模態(tài)之間,設(shè)計了一種基于注意力機(jī)制校正的特征信息的加法運(yùn)算,在獲得更豐富的模態(tài)特征信息基礎(chǔ)上有效減少了計算冗余。另外,利用一個并行的、分層的交互網(wǎng)絡(luò)來實(shí)現(xiàn)兩種學(xué)習(xí)方式的特征互補(bǔ),體現(xiàn)了深度學(xué)習(xí)的互補(bǔ)優(yōu)勢。然而,基于注意力機(jī)制的方法可能會導(dǎo)致在較長的時間跨度上,單幀學(xué)習(xí)的特征權(quán)重?zé)o法使分類器專注于魯棒的特征[45],為解決此問題,研究人員提出了一種包含全局和局部注意力的雙視覺注意力引導(dǎo)的跟蹤算法。此外,針對處理硬樣本(即難以學(xué)習(xí)的樣本)分類的一種用于可見光與紅外跟蹤的多模態(tài)學(xué)習(xí)框架(M5L,multi-modal multi-margin metric learning)[46]將所有樣本分為四個部分,利用其相互之間的關(guān)系來提高特征嵌入的穩(wěn)健性,其中的注意力機(jī)制融合模塊可以實(shí)現(xiàn)基于質(zhì)量感知的數(shù)據(jù)整合。
2.2.3 基于時間序列的方法
在深度學(xué)習(xí)中,時間信息是輸入神經(jīng)網(wǎng)絡(luò)的視頻流中不可或缺的因素。目標(biāo)跟蹤任務(wù)中,基于前后幀存在的時間上的因果關(guān)系,通常可以將時間因素作為線索。因此,在神經(jīng)網(wǎng)絡(luò)中引入長短時記憶(LSTM,long short-term memory)等基于時間序列的方法是可見光和紅外融合目標(biāo)跟蹤的重要方法之一。
基于歷史跟蹤結(jié)果的自適應(yīng)融合算法[47]首先將基于時間序列的深度學(xué)習(xí)方法引入可見光與紅外目標(biāo)跟蹤領(lǐng)域。該方法綜合了前向和后向的跟蹤結(jié)果來評估跟蹤精度,在給定初始目標(biāo)邊界的情況下,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,分別對目標(biāo)進(jìn)行可見光和紅外目標(biāo)跟蹤,同時在這兩種模式中實(shí)現(xiàn)反向跟蹤,并且計算每對之間的差異。這一基于歷史跟蹤結(jié)果的融合算法,自適應(yīng)地匯集了可見光和紅外信息,解決了可見光和紅外融合跟蹤過程中的一些難題。ChiNet將長短時記憶跟可見光與紅外目標(biāo)跟蹤相結(jié)合[48],利用航天器交會序列的時間信息來估計航天器的相對姿態(tài),根據(jù)長短時記憶單元在數(shù)據(jù)序列建模中的性能,來處理卷積神經(jīng)網(wǎng)絡(luò)主干提取的特征,聯(lián)合多模態(tài)可見光與紅外圖像的輸入,將平均位置誤差縮小近80%。除此之外,一種考慮時間信息的自適應(yīng)可見光與紅外目標(biāo)跟蹤器[49]綜合分析了空間和時間因素,在傳統(tǒng)空間信息網(wǎng)絡(luò)的基礎(chǔ)上,增添了包含時間信息的網(wǎng)絡(luò),構(gòu)建了一個用于跨模態(tài)交互的自適應(yīng)融合子網(wǎng)絡(luò),從更多的維度中獲取有效的信息。
2.2.4 自適應(yīng)融合的方法
隨著深度學(xué)習(xí)的迅速發(fā)展,原有的傳統(tǒng)圖像融合方法逐步傾向于與深度學(xué)習(xí)融合,大量融合模塊的研究和設(shè)計,對于綜合可見光圖像和紅外圖像的信息起了重要的作用。
針對不同序列的圖像對的個體特征和共同特征,動態(tài)融合網(wǎng)絡(luò)(DFNet,dynamic fusion network)[50]的雙流結(jié)構(gòu)中的每一層可以依據(jù)兩個非共享卷積核來提取個體特征,通過共享卷積核為每一層提取共同特征,并對非共享卷積核和共享卷積核進(jìn)行自適應(yīng)加權(quán)和求和,從而可以動態(tài)計算個體特征和共同特征在面對模態(tài)可靠性變化時的貢獻(xiàn)。與DFNet相似,三串流自適應(yīng)融合網(wǎng)絡(luò)(TAFNet,three-stream adaptive fusion network)[51]借助成對的可見光和紅外圖像進(jìn)行人群計數(shù)。TAFNet分為一個主流和兩個輔助流,主流的輸入由一對可見光和紅外圖像結(jié)合構(gòu)成,兩個輔助流分別利用可見光圖像和紅外圖像提取特定模態(tài)的特征。與前兩者所不同的是,增強(qiáng)背景感知相關(guān)濾波方法[52]則采用了先融合后跟蹤的策略,該方法將紅外圖像轉(zhuǎn)換為單通道圖像,利用灰度信息確定目標(biāo)和整體環(huán)境之間的像素差異程度,通過對可見光和紅外圖像的自適應(yīng)加權(quán)決策實(shí)現(xiàn)目標(biāo)跟蹤?;陧憫?yīng)圖評估算法[53]改進(jìn)了高斯回歸中的自適應(yīng)融合權(quán)重,運(yùn)用分層卷積神經(jīng)網(wǎng)絡(luò)分別提取了可見光和紅外圖像中的深度特征,每個層的可見光和紅外信息互不干擾。為了更好地開發(fā)和利用多尺度信息,多分支自適應(yīng)融合網(wǎng)絡(luò)[54]從多個分支中聚合多尺度信息,由多尺度適配器以并行的方式提取特征,并由多分支融合模塊自適應(yīng)地聚合來自多個分支以及上一層的特征,從而減輕來自低質(zhì)量圖像和視頻中的噪聲的影響。為了增強(qiáng)不同模態(tài)的特征表示并充分挖掘模態(tài)之間的互補(bǔ)性,三叉戟融合網(wǎng)絡(luò)(TFNET,trident fusion network)[55]通過遞歸策略來聚合所有卷積層的特征,利用聚合特征和模態(tài)特定特征進(jìn)行分類和回歸,實(shí)現(xiàn)了更加魯棒的目標(biāo)跟蹤。
2.2.5 基于多模態(tài)編解碼器的方法
多模態(tài)編解碼器可以將多種模態(tài)的信息輸入(如可見光、紅外)轉(zhuǎn)化成特定長度的向量,再將向量轉(zhuǎn)化成特定形式并進(jìn)行輸出。論文[56]中提出了一種多交互雙解碼器,旨在解決可見光和紅外融合目標(biāo)跟蹤方面存在的兩個關(guān)鍵問題:一是如何實(shí)現(xiàn)不同模態(tài)之間的有效互補(bǔ),防止噪聲干擾;二是如何抑制顯著性偏差,即如何聚焦可見光和紅外目標(biāo)的共同特征,避免被單一模態(tài)主導(dǎo)跟蹤。該方法利用多交互塊來模擬雙模態(tài)、多級特征和全局上下文之間的交互,從而融合了不同模態(tài)之間有效的互補(bǔ)特征,恢復(fù)出更多的空間細(xì)節(jié),實(shí)現(xiàn)對目標(biāo)對象的定位并抑制背景噪聲。
數(shù)據(jù)集在可見光與紅外融合目標(biāo)跟蹤的訓(xùn)練和測試過程中是不可或缺的??梢姽馀c紅外融合數(shù)據(jù)集主要有OTCBVS、LITIV、GTOT、RGBT210、RGBT234、VOT-2016和LasHeR等。這些數(shù)據(jù)集在各自的歷史發(fā)展階段中,都有力推動了可見光和紅外融合目標(biāo)跟蹤技術(shù)的研究。
3.1.1 OTCBVS數(shù)據(jù)集
OTCBVS數(shù)據(jù)集[57]是一個公開的基準(zhǔn)數(shù)據(jù)集,可以用于測試和評估可見光與紅外領(lǐng)域的算法。這項(xiàng)工作是Riad I.Hammoud在2004年發(fā)起的。它由14個子數(shù)據(jù)集組合而成,分為7個紅外數(shù)據(jù)集、1個可見光數(shù)據(jù)集、6個可見光-紅外數(shù)據(jù)集,包含行人、面部、動作、武器、車輛、船舶等目標(biāo)(圖3)。
圖3 OTCBVS數(shù)據(jù)集圖例
3.1.2 LITIV數(shù)據(jù)集
LITIV數(shù)據(jù)集[58]是利用可見光和紅外攝像機(jī)以每秒30幀的速度,在不同的場景和不同的時間進(jìn)行拍攝而得到的圖像數(shù)據(jù)集合,圖像分辨率為320×240像素。LITIV數(shù)據(jù)集中共包括9個視頻序列。
3.1.3 GTOT數(shù)據(jù)集
灰度紅外目標(biāo)跟蹤(GTOT,grayscale-thermal object tracking)數(shù)據(jù)集[38]包含50個不同場景下的視頻,包括道路、水池、實(shí)驗(yàn)室等區(qū)域,共約15 800幀。其中,標(biāo)注的被跟蹤目標(biāo)分為4類,包括車輛、人、天鵝等。
3.1.4 RGBT210、RGBT234數(shù)據(jù)集
RGBT210數(shù)據(jù)集[29]是由一個熱紅外成像儀(DLS-H37DM-A)和一個CCD相機(jī)(SONY EXView HAD CC)拍攝得到的,其中包含210個視頻集,共約210 000幀,每個視頻集最多包含8 000幀。
RGBT234數(shù)據(jù)集[59]包含234個視頻集,共約233 800幀,每個視頻集包括該視頻的可見光和紅外視頻序列。相較于RGBT210數(shù)據(jù)集,RGBT234數(shù)據(jù)集拓展了場景的多樣性,增加了在炎熱天氣下捕獲的視頻(圖4)?;赗GBT234數(shù)據(jù)集,衍生出了2019年舉辦的Visual Object Tracking挑戰(zhàn)賽數(shù)據(jù)集VOT19-RGBT,該數(shù)據(jù)集包含234個序列,并且所有序列都根據(jù)VOT序列聚類協(xié)議在11維全局屬性空間中聚類。
圖4 RGBT234和RGBT210數(shù)據(jù)集圖例
3.1.5 VOT-2016數(shù)據(jù)集
由于上述GTOT、RGBT210等數(shù)據(jù)集存在著一定的局限性,比如數(shù)據(jù)集中的視頻主要由同一種設(shè)備采集,成像特性和圖像分辨率基本相同,這不利于保證目標(biāo)跟蹤算法在不同環(huán)境中的應(yīng)用效果。為了完善數(shù)據(jù)集、增強(qiáng)數(shù)據(jù)多樣性,“視覺目標(biāo)跟蹤”團(tuán)隊(duì)(VOT,visual object tracking)使用10種不同類型的傳感器、從9種不同類型的數(shù)據(jù)來源中收集圖像數(shù)據(jù),構(gòu)建了VOT-2016數(shù)據(jù)集[60]。該數(shù)據(jù)集的平均序列長度為740幀,分辨率范圍從305×225像素到1920×480像素不等,其中的數(shù)據(jù)還包含了由溫度改變而帶來的紅外特征變化。
3.1.6 LasHeR數(shù)據(jù)集
針對大規(guī)模數(shù)據(jù)集短缺、成像平臺單一、場景和類別數(shù)量有限、復(fù)雜場景數(shù)據(jù)缺乏的問題,研究人員又構(gòu)建了LasHeR數(shù)據(jù)集[61]。該數(shù)據(jù)集由1 224個可見光和紅外視頻對組成,總數(shù)據(jù)量超過730 000幀。LasHeR數(shù)據(jù)集收集了廣泛的對象類別,從不同的拍攝點(diǎn)和不同的場景,進(jìn)行了跨日夜、跨天氣、跨季節(jié)的數(shù)據(jù)采集,不僅對每一幀進(jìn)行了空間對齊,而且還使用邊界框進(jìn)行了手動注釋。
可見光和紅外融合的目標(biāo)跟蹤性能評估常用的指標(biāo)有5種[62-63],即精確率、成功率、準(zhǔn)確性、魯棒性和預(yù)期平均重疊(見表1)。
表1 跟蹤性能評價指標(biāo)
可見光與紅外融合目標(biāo)跟蹤在引入了深度學(xué)習(xí)技術(shù)之后,跟蹤的效果實(shí)現(xiàn)了較大提升(表2)。但是,相比于單一的可見光目標(biāo)跟蹤,可見光與紅外圖像的融合處理會導(dǎo)致識別速度的降低。提高實(shí)時性將是可見光與紅外融合目標(biāo)跟蹤領(lǐng)域需要研究的一個問題。
表2 部分可見光與紅外融合跟蹤器的性能表現(xiàn)
近年來,可見光和紅外融合目標(biāo)跟蹤領(lǐng)域的發(fā)展日新月異,但仍存在一些問題值得研究,一方面亟待擴(kuò)充符合要求的可見光和紅外圖像,另一方面需要建立可見光與紅外融合目標(biāo)跟蹤方法體系,從而進(jìn)一步推動該領(lǐng)域的發(fā)展。
4.1.1 發(fā)展無需對齊多模態(tài)目標(biāo)跟蹤方法
由于能同時捕獲可見光和紅外圖像(或視頻)的裝置比普通相機(jī)的成本更高,所以可見光和紅外數(shù)據(jù)集相對較少。此外,可見光和紅外融合的目標(biāo)跟蹤對于兩種圖像的對齊(Align)程度有較高的要求,但是現(xiàn)有可見光和紅外數(shù)據(jù)集中,能夠完全互相對齊的可見光圖像和紅外圖像數(shù)據(jù)量依然不夠充足,而構(gòu)建圖像數(shù)據(jù)對齊的大規(guī)模數(shù)據(jù)集需要耗費(fèi)較大的代價。因此,有必要發(fā)展無需對齊的多模態(tài)目標(biāo)跟蹤方法,實(shí)現(xiàn)在可見光和紅外對齊圖像數(shù)據(jù)不足的情況下提升目標(biāo)跟蹤的效果。在此方向上,近年來的研究工作[68-69]取得了一定的進(jìn)展,所以無需對齊的多模態(tài)目標(biāo)跟蹤方法在理論上是可行的[56]。
4.1.2 在跟蹤過程中融入目標(biāo)的運(yùn)動模型
在可見光和紅外融合目標(biāo)跟蹤任務(wù)中,經(jīng)常會出現(xiàn)尺度變化和熱交叉(TC,thermal crossover)的情況,在此情形中很多跟蹤器無法較好地完成目標(biāo)跟蹤任務(wù)。此外,當(dāng)前可見光和紅外融合的目標(biāo)跟蹤算法在面臨運(yùn)動目標(biāo)圖像模糊問題時,局限性依然存在。針對上述問題,在未來的研究中,可以考慮在可見光和紅外融合目標(biāo)跟蹤的過程中,融入被跟蹤目標(biāo)的運(yùn)動模型,以便利用更多、更豐富的空間和時間信息來提升目標(biāo)跟蹤的效果[47]。
4.1.3 進(jìn)一步研究丟失目標(biāo)重檢測的方法
目前,許多可見光和紅外融合的目標(biāo)跟蹤算法在具有不確定性因素的環(huán)境中,缺少丟失目標(biāo)后重新進(jìn)行檢測的功能,一旦丟失被跟蹤的目標(biāo),難以進(jìn)行二次跟蹤。例如環(huán)境中存在遮擋物,容易致使同一個目標(biāo)在遮擋前后被算法分別識別成兩個不同的目標(biāo),這就使得算法在這類情形下的跟蹤準(zhǔn)確性較低,甚至導(dǎo)致跟蹤任務(wù)失敗。對于此類問題,需要進(jìn)一步研究丟失目標(biāo)后進(jìn)行重新檢測和跟蹤的方法,使得在有干擾物存在的復(fù)雜場景下,可見光和紅外融合的目標(biāo)跟蹤算法依然可以有效工作。
4.1.4 加強(qiáng)基于成熟模型的遷移學(xué)習(xí)研究
在可見光與紅外融合圖像數(shù)據(jù)量較少的客觀情況下,依賴大數(shù)據(jù)量的深度學(xué)習(xí)方法受到了較多的限制,不能很好地達(dá)到預(yù)期效果。因此,可以在純可見光目標(biāo)跟蹤預(yù)訓(xùn)練模型的基礎(chǔ)上,開展遷移學(xué)習(xí)技術(shù)研究,對已有可見光目標(biāo)跟蹤成熟模型進(jìn)行適應(yīng)性調(diào)整和改進(jìn),從而盡可能多地吸收和利用可見光跟蹤模型學(xué)習(xí)到的色彩、紋理等細(xì)節(jié)特征,來提升可見光和紅外融合的目標(biāo)跟蹤算法的效果。
4.1.5 研究無監(jiān)督或弱監(jiān)督目標(biāo)跟蹤方法
可見光和紅外數(shù)據(jù)集的人工標(biāo)注存在工作量大、耗費(fèi)時間長的問題,同時保證標(biāo)注質(zhì)量需要花費(fèi)的人力成本很高。在當(dāng)前此類數(shù)據(jù)集標(biāo)注量相對欠缺的情況下,可以考慮研究基于無監(jiān)督或弱監(jiān)督的可見光和紅外融合目標(biāo)跟蹤方法,并且研究開發(fā)樣本自動標(biāo)注算法,提高標(biāo)注效率。這樣能夠在一定程度上緩解數(shù)據(jù)集標(biāo)注量不足的問題。
4.1.6 研究探索目標(biāo)跟蹤新方法和新框架
近年來,Transformer和注意力機(jī)制的引入,使得可見光和紅外融合的目標(biāo)跟蹤在性能上得以繼續(xù)提升。由此可以看出,探索新方法和新框架是提升可見光和紅外融合目標(biāo)跟蹤算法性能的有效途徑,創(chuàng)新性的圖像處理思想和機(jī)制將不斷推動可見光和紅外融合目標(biāo)跟蹤領(lǐng)域持續(xù)向前發(fā)展。
隨著可見光與紅外融合目標(biāo)跟蹤技術(shù)的逐步完善,該技術(shù)將在未來各種實(shí)際場景中產(chǎn)生很大的應(yīng)用價值。
4.2.1 提升人物檢測和跟蹤水平
與傳統(tǒng)的可見光目標(biāo)跟蹤技術(shù)相比,在現(xiàn)實(shí)復(fù)雜場景(如低照度或者低能見度的環(huán)境)中,可見光與紅外融合目標(biāo)跟蹤技術(shù)具有較為明顯的優(yōu)勢,體現(xiàn)出了一定的魯棒性,例如在夜晚對行人進(jìn)行檢測、跟蹤和數(shù)量統(tǒng)計。另外,在新冠疫情背景下,該技術(shù)也能夠應(yīng)用于檢測進(jìn)入特定場所的人員的口罩佩戴情況甚至是體溫狀況[70]。除此之外,可見光與紅外融合目標(biāo)跟蹤技術(shù)還可被用于人體模型的構(gòu)建[71]。雖然,可見光與紅外融合目標(biāo)跟蹤技術(shù)在人物檢測和跟蹤上尚未有大規(guī)模的應(yīng)用,但是未來有望在此領(lǐng)域發(fā)揮較大的效用。
4.2.2 推動多樣化物體檢測發(fā)展
可見光與紅外融合目標(biāo)跟蹤也適用于多樣化的物體檢測。例如,科研人員基于該技術(shù),從多光譜和紅外遙感信息中解讀出內(nèi)蒙古等我國西北干旱地區(qū)的土壤鹽漬化情況[72]。另外,針對電力設(shè)備的在線監(jiān)測和故障檢測需求[73],可以依托可見光與紅外融合目標(biāo)跟蹤技術(shù),在移動平臺上(例如無人機(jī)、無人車)建立適應(yīng)尺度變化、位移變化的電力設(shè)備檢測系統(tǒng),提升了對電力設(shè)備的故障點(diǎn)判斷水平。此外,在消防安全方面,火災(zāi)現(xiàn)場的可見光圖像易受到環(huán)境干擾,但其紅外圖像則由于明顯的熱效應(yīng)而便于進(jìn)行紅外跟蹤。因此,根據(jù)這個特點(diǎn),可以構(gòu)建基于可見光與紅外融合目標(biāo)跟蹤的火災(zāi)定位方法[74],對于火情信息檢測、火災(zāi)控制撲救具有重要意義。
4.2.3 實(shí)現(xiàn)全天候復(fù)雜環(huán)境感知
可見光與紅外融合目標(biāo)跟蹤對于提高計算機(jī)視覺技術(shù)的環(huán)境適應(yīng)能力具有重要的意義。近年來,基于可見光與紅外融合目標(biāo)跟蹤的自動駕駛技術(shù)受到日益增多的關(guān)注,將紅外信息引入自動駕駛,可以有效提高自動駕駛車輛在夜晚、濃霧等惡劣條件下的安全行駛能力。另外,該技術(shù)還為全時效無人機(jī)的自動作業(yè)提供了技術(shù)保障,支撐無人機(jī)實(shí)現(xiàn)了夜晚?xiàng)l件和復(fù)雜氣象條件下的圖像采集和目標(biāo)跟蹤的功能[75]。
近年來,可見光與紅外融合目標(biāo)跟蹤技術(shù)發(fā)展迅速。本文梳理了當(dāng)前可見光與紅外融合目標(biāo)跟蹤的主流方法,將這些方法分為經(jīng)典方法和基于深度學(xué)習(xí)的方法,其中經(jīng)典的方法分為早期方法、基于相關(guān)濾波的方法、基于圖的方法、基于稀疏表示的方法。針對深度學(xué)習(xí)方向,可以分為基于Transformer的方法、基于注意力機(jī)制的方法、基于時間序列的方法、自適應(yīng)融合的方法、基于多模態(tài)編解碼器的方法。此外,本文還介紹了當(dāng)前該領(lǐng)域常用的數(shù)據(jù)集以及常見的評價指標(biāo),并對該領(lǐng)域的未來發(fā)展方向進(jìn)行了討論和展望。