亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        RGB-T目標跟蹤綜述

        2019-05-30 22:57:16丁正彤徐磊張研李飄揚李陽陽羅斌涂錚錚
        南京信息工程大學學報 2019年6期
        關鍵詞:目標跟蹤多模態(tài)

        丁正彤 徐磊 張研 李飄揚 李陽陽 羅斌 涂錚錚

        摘要 RGB-T目標跟蹤是基于RGB目標跟蹤問題發(fā)展而來的.為了提高復雜環(huán)境下的目標跟蹤性能,學者們提出結合可見光和熱紅外的信息來克服單一成像受限的問題.本文首先介紹了RGB-T目標跟蹤的研究背景,并指出該任務所面臨的挑戰(zhàn),然后歸納并介紹了目前已有的RGB-T目標跟蹤的幾類方法,包括傳統(tǒng)方法和深度學習方法.最后,本文對現(xiàn)有的RGB-T數(shù)據(jù)集、評價指標進行了分析和對比,并指出RGB-T跟蹤中值得研究的方面.

        關鍵詞 可見光-熱紅外;多模態(tài);目標跟蹤

        中圖分類號TP391

        文獻標志碼A

        0 引言

        視覺目標跟蹤,旨在從連續(xù)視頻幀中估計出目標在每一幀中的位置和尺度信息,是計算機視覺中的一個熱點問題,在視頻監(jiān)控、自動駕駛和機器人感知等方面有著廣泛的應用.盡管目標跟蹤取得了許多重要突破[1-8],但現(xiàn)階段的目標跟蹤仍然面臨許多挑戰(zhàn)性問題,尤其是在各種復雜的環(huán)境條件下(如低光照、雨天、煙霧等),可見光圖像的成像質(zhì)量受到顯著影響,使得跟蹤目標物體是非常困難的.

        熱紅外成像主要的優(yōu)勢體現(xiàn)在:它可以捕捉到目標所發(fā)出的熱輻射,對光照變化不敏感,可以實現(xiàn)在零光照條件下跟蹤目標;它還具有很強的穿透煙霧的能力,使得RGB-T(RGB-Thermal,可見光-熱紅外)目標跟蹤比傳統(tǒng)目標跟蹤具有更強的潛在應用價值.

        因此,結合可見光和熱紅外信息可以有效地提高目標跟蹤性能,較好地實現(xiàn)全天時全天候的目標跟蹤.圖1是低光照(左)和強光照(右)情況下的可見光圖像,目標在其中并不明顯,但在圖2相對應的熱紅外圖像中目標輪廓清晰.圖3呈現(xiàn)的兩個熱紅外圖像產(chǎn)生了熱交叉現(xiàn)象,目標和背景極難區(qū)分,但目標在圖4相對應的可見光圖像中較為明顯[9].可見,可見光和熱紅外信息相互補充,有助于復雜環(huán)境條件下的視覺跟蹤.

        最近幾年,隨著熱紅外傳感器的普及,RGB-T跟蹤在計算機視覺領域引起了越來越多的關注.由于RBG-T目標跟蹤相對于單模態(tài)目標跟蹤起步較晚,至今鮮見關于RGB-T目標跟蹤進展的文獻綜述.本文將對該領域前后發(fā)展進行一個較為全面的綜述.首先介紹RGB-T目標跟蹤面臨的挑戰(zhàn),然后回顧傳統(tǒng)的RGB-T目標跟蹤算法,主要包括基于人工設計特征和傳統(tǒng)的機器學習技術的RGB-T目標跟蹤算法,再介紹近幾年出現(xiàn)的基于深度學習的RGB-T目標跟蹤方法,最后對已有的多個RGB-T數(shù)據(jù)集、評價指標進行分析和對比.

        1 RGB-T目標跟蹤的挑戰(zhàn)

        一些早期的研究[10-11]表明將可見光和熱紅外數(shù)據(jù)結合起來,可以有效地提高跟蹤性能.相對于傳統(tǒng)的單模態(tài)目標跟蹤,借助紅外信息構建的多模態(tài)目標跟蹤,其跟蹤效果得到進一步提升,但在面對更復雜場景的情況下,RGB-T目標跟蹤不僅遇到傳統(tǒng)的目標跟蹤所面臨的挑戰(zhàn),而且也遇到新的挑戰(zhàn).

        1.1 傳統(tǒng)的目標跟蹤的挑戰(zhàn)舉例

        1)目標的形變與快速運動:當跟蹤的目標發(fā)生較大的形變或尺度變化劇烈時,跟蹤框不能及時適應變化,將會引入過多的背景信息污染模型,從而導致跟蹤目標的丟失.另外對于快速運動的物體,由于相鄰兩幀的目標移動跨度較大,超出了候選區(qū)域,也將導致跟蹤失敗.

        2)遮擋:目標被遮擋可以分為部分遮擋和完全遮擋.如果目標是部分被遮擋,在遇到遮擋物的第一幀,邊界框會將遮擋物的信息包含在內(nèi),導致后續(xù)跟蹤過程中的目標被錯誤判別;如果是完全遮擋,邊界框找不到目標,會直接導致跟蹤失敗.如圖5所示,紅色框內(nèi)跟蹤目標人物在第2張圖中部分被樹葉遮擋,導致跟蹤框內(nèi)可能包含樹葉信息,而在第3張圖中則是完全被樹葉遮擋,候選框內(nèi)不能找到目標特征,導致目標丟失.

        1.2 RGB-T目標跟蹤的新挑戰(zhàn)

        1)RGB-T融合:如何將RGB和熱紅外兩個模態(tài)進行有效的融合是RGB-T目標跟蹤面臨的挑戰(zhàn)之一.如果兩個模態(tài)中的一個模態(tài)成像不佳,則直接融合兩個模態(tài)將會引入噪聲,進而影響跟蹤性能,所以兩個模態(tài)的融合策略直接影響RGB-T跟蹤性能.

        2)特征表示:與傳統(tǒng)目標跟蹤相比,RGB-T目標跟蹤的目標特征由RGB與T特征共同描述,更魯棒的RGB-T特征表示必然可以提升跟蹤的性能,這一點也得到了越來越多的關注.

        3)成像受限:在零光照、光線強烈變化、霧霾等情況下,可見光譜成像受限;當目標與周邊背景物體的溫度差異較小時,則會有熱交叉現(xiàn)象發(fā)生,熱紅外成像受限.

        2 傳統(tǒng)方法

        RGB-T目標跟蹤的傳統(tǒng)方法多為在線目標跟蹤,旨在利用簡單有效的人工設計視覺特征,結合淺層外觀模型,利用匹配或分類算法進行快速有效的目標跟蹤.由于稀疏表示在抑制噪聲、減少誤差方面表現(xiàn)較好,故稀疏表示理論也被用于解決RGB-T目標跟蹤問題[12-16],并且取得了較好的效果.但稀疏表示模型計算復雜度較高,難以實時處理.隨著相關濾波理論在單模態(tài)跟蹤中取得了較為魯棒的效果[17-19],Zhai等[20]在RGB-T目標跟蹤中引入交叉模態(tài)相關濾波器,更有效地進行可見光和紅外模態(tài)的融合.為了改善RGB-T目標跟蹤中的模型漂移現(xiàn)象,研究者在RGB-T目標跟蹤中引入圖的理論[21-23],自適應地使用可見光和紅外圖像信息來學習模態(tài)權重.下面將從以下3個方面詳細對RGB-T跟蹤的傳統(tǒng)方法進行闡述.

        2.1 基于稀疏表示的RGB-T目標跟蹤

        近年來,使用稀疏表示的目標跟蹤[11,24-25]能夠較好地抑制噪聲和減少誤差.受此啟發(fā),Wu等[12]將RGB和T信息結合起來,稀疏地表示目標模板空間中的每個樣本;Liu等[13]使用RGB和T信息計算出聯(lián)合稀疏表示系數(shù)的最小操作來融合跟蹤結果.在這些方法中,RGB模態(tài)和T模態(tài)貢獻相同,故在處理干擾或者故障時可能會限制跟蹤性能.

        為了改善上述情況,Li等[14]引入反映其跟蹤預測可靠性的模態(tài)權值,為每種模態(tài)引入模態(tài)權值來表示該模態(tài)的可靠性,實現(xiàn)不同模態(tài)的自適應融合.具體來說,在貝葉斯濾波技術的框架下,一種基于協(xié)同稀疏表示的自適應融合方法被提出.這種方法在每個模態(tài)中引入權值描述模態(tài)的可靠性,找到一種自適應的目標跟蹤的協(xié)作稀疏表示方法,可以自適應地融合可見光信息和紅外信息,進而實現(xiàn)全天候地對目標進行魯棒跟蹤,當目標在一種模態(tài)中處于不穩(wěn)定或者故障時,通過賦予不可靠模態(tài)信息低權值,利用可靠的模態(tài)進行信息補充用于跟蹤[10],通過在線方式聯(lián)合優(yōu)化稀疏碼、不同模態(tài)下的權值和最大似然判別法[26]對稀疏碼進行有效的優(yōu)化,并利用封閉形式解法進行求解,能夠避免在目標跟蹤中產(chǎn)生的模型漂移.該方法可增強跟蹤魯棒性,并防止之前視頻幀的可見光和紅外信息的累積產(chǎn)生的外觀污染問題的發(fā)生.

        此外,由于每個模態(tài)中目標外觀的較大變化或背景干擾會給采集的樣本帶來一些噪聲,進而影響分類器的學習,并且視覺和運動特征在不同模態(tài)中差異較大.Lan等[16]針對RGB-T目標跟蹤,提出了一種新穎的判別學習模型,可以消除由于較大變化產(chǎn)生的異常樣本,并學習來自不同模態(tài)的具有判別一致性的特征,而且可以協(xié)作完成模態(tài)可靠性度量及目標與背景的分離,取得了較好的效果.

        2.2 基于相關濾波的RGB-T目標跟蹤

        大多數(shù)現(xiàn)有單模態(tài)方法采用基于貝葉斯濾波框架的稀疏表示去跟蹤目標,這些跟蹤器在加入紅外信息這個模態(tài)后可能會受到如下限制:一是對可見光和紅外信息的聯(lián)合稀疏約束使得模態(tài)一致性太強而無法實現(xiàn)有效融合;二是為了達到有效跟蹤的目的,貝葉斯濾波算法需對大量待選樣本進行采樣.因此稀疏表示模型的優(yōu)化的計算復雜度高,耗費時間.Zhai等[20]利用低秩約束,提出交叉模態(tài)相關濾波器以獲得可見光和熱紅外兩個模態(tài)之間的相互依賴性,實現(xiàn)多種模態(tài)的協(xié)同融合,使所學習的濾波器可以包含來自不同數(shù)據(jù)源的有用信息,從而獲得魯棒的跟蹤結果.并對交叉模態(tài)相關濾波器利用交替方向乘法器(ADMM)優(yōu)化算法[27]求解,從而實現(xiàn)了超實時的跟蹤效果.在利用交叉模態(tài)相關濾波器進行跟蹤時,最快達到227幀/s的速度.

        在一些特殊情況下,RGB圖像和熱紅外圖像之間的融合可能是無效的.如果簡單地采用協(xié)同稀疏表示的方法在貝葉斯濾波框架下解決,也存在著耗時的問題,無法達到目標跟蹤要求的實時跟蹤的目的.為了解決以上問題,Wang等[28]提出了基于相關濾波器的多光譜方法來進行有效的目標跟蹤.該方法考慮到了不同光譜信息的協(xié)同性和異質(zhì)性,通過在相關濾波器中加入軟一致性來部署多光譜間信息,以實現(xiàn)更有效的融合.同時采用快速傅里葉變化(FFT)來大大減少計算的時間,改進后的方案在進行目標跟蹤時以超50幀/s的運行速度展現(xiàn)出良好的跟蹤效果.

        2.3 基于圖的RGB-T目標跟蹤

        由于目標跟蹤需要對每一幀圖像進行識別,每幀中目標的包圍框都可能不同,這些框一般由RGB與熱紅外特征共同描述.由于背景信息的存在,可能導致模型漂移現(xiàn)象的出現(xiàn).為了解決該問題,Li等[21]提出了一種加權稀疏表示正則化圖,以自適應地使用RGB和紅外數(shù)據(jù)來學習權重.其圖像塊作為圖節(jié)點,并以塊特征矩陣作為輸入進行聯(lián)合的稀疏表示[13,15].為了處理各個源的偶然擾動和故障,給每種模態(tài)分配權重以表示可靠性,使得跟蹤器可以自適應地融合不同模態(tài)的數(shù)據(jù),并學習得到更有意義的圖親和矩陣.值得注意的是,通過設計的高效的ADMM(交替方向乘器)算法[27]來聯(lián)合優(yōu)化模態(tài)權重、稀疏表示和圖(包括結構、邊緣權重和節(jié)點權重).

        由于初始化過程中不正確的圖像塊權重會影響目標跟蹤的正確性,Li等[22]隨后提出了一種新的兩階段模態(tài)圖正則化流形排序算法,以學習一種更魯棒的RGB-T跟蹤對象表示方法.首先給定對象邊界框,將其劃分為一組不重疊的圖片,這些圖片用RGB和熱紅外特征共同描述.然后,給每個塊分配一個權重,抑制表示中的背景信息,并將這些權重融合,以得到魯棒的目標表示.該方法以一種聯(lián)合的方式建立塊權重和模態(tài)權重的模型,并對它們進行有效的優(yōu)化.為了提高塊權重的魯棒性,采用了兩階段排序策略.第一階段,根據(jù)初始種子計算塊權重;第二階段,以第一階段的計算結果為基礎進行權重計算.最后,應用結構化支持向量機對目標位置進行預測.

        由于使用低秩和稀疏表示來學習具有全局性的動態(tài)圖[29]沒有考慮局部信息,可能會限制性能,例如相鄰節(jié)點往往較為相似.為解決此問題,研究者提出了一種新穎的通用方法[23]來學習局部和全局多圖描述符,以抑制 RGB-T 跟蹤的背景信息干擾.該描述符可自動探索具有全局和局部線索的多模態(tài)圖像塊之間的內(nèi)在關系,其依賴于一種新穎的圖學習算法,主要是用多幅圖表示對象,并用一組多模態(tài)圖像塊作為節(jié)點,以增強對對象形變和部分遮擋的魯棒性;將局部相鄰信息強加到表示系數(shù)中,這使得學習到的圖親和矩陣也可以使用局部空間線索進行編碼,并利用學習到的圖親和矩陣計算圖節(jié)點權重,將多圖信息與相應的圖節(jié)點權重相結合,形成魯棒的目標描述符,最后采用結構化支持向量機獲得最優(yōu)解作為跟蹤結果.

        3 基于深度學習的RGB-T目標跟蹤

        近年來,由于神經(jīng)網(wǎng)絡的廣泛應用,視覺跟蹤取得了新的突破.目前基于深度網(wǎng)絡的RGB-T跟蹤模型大致可以為三類:第一類是以密集特征聚合與剪枝網(wǎng)絡(DAPNet)[30]、質(zhì)量感知特征聚合網(wǎng)絡(FANet)[31]和雙流卷積神經(jīng)網(wǎng)絡(Two-Stream CNN)[32]為代表的多模態(tài)特征融合,利用深度網(wǎng)絡自適應地融合可見光和熱紅外模態(tài)的特征,利用模態(tài)間的互補優(yōu)勢,獲得更加魯棒的特征,提高跟蹤性能;第二類以多適配器卷積網(wǎng)絡(MANet)[33]為例,發(fā)掘模態(tài)共享特征、模態(tài)特定特征的潛在價值以及實例感知信息,提高特征融合的質(zhì)量;第三類是基于注意力機制的RGB-T跟蹤,例如雙重注意力模型(DUALATTENTION)[34].

        3.1 基于多模態(tài)特征融合的RGB-T跟蹤

        在早期的特征融合研究中,Li等[32]提出了一種新的卷積神經(jīng)網(wǎng)絡(ConvNet)結構,包括一個通用子網(wǎng)絡(Two-Stream CNN)和一個融合子網(wǎng)絡(FusionNet).通用子網(wǎng)絡用來提取豐富的語義信息以有力地表示目標對象,而融合子網(wǎng)絡用來自適應地融合多種模態(tài)的信息.具體地說,用Two-Stream CNN來提取不同模態(tài)的特定特征,其中一個CNN用于處理RGB流,另一個CNN用于處理熱紅外流.由于多模態(tài)特征通常包含一些冗余噪聲,這會在一定程度上影響RGB-T跟蹤的性能.FusionNet從Two-Stream CNN的輸出中選擇有區(qū)分性的特征,以減輕冗余信息的影響,從而在提高精度的同時顯著提高效率.

        近來,為了有效地融合可見光和熱紅外信息,提高RGB-T跟蹤的性能,Zhu等[30]提出了一種密集特征聚合與剪枝網(wǎng)絡(DAPNet).密集特征聚合與剪枝網(wǎng)絡(DAPNet)由兩個主要模塊組成,一個是密集特征聚合,為目標對象提供豐富的RGB-T特征表示;另一個是特征剪枝,從聚合的RGB-T特征中除去噪聲或冗余的特征,選擇最具區(qū)分性的特征.

        在密集的特征聚合模塊,將所有層的特征遞歸地集成到同一個特征空間中,充分地利用了淺層特征和深層特征,獲得更魯棒的特征表示,實現(xiàn)更好的跟蹤性能.但是聚合的RGB-T特征存在噪聲和冗余,這些冗余的特征會干擾目標的定位.也就是說,只有少數(shù)通道是有益的,并且其中很大一部分通道在描述某個目標時包含冗余和不相關的信息.為了解決這個問題,Zhu等[30]提出了一種協(xié)同特征剪枝方法來去除噪聲和冗余的特征.特征剪枝模塊包括兩個步驟,即通道評分和通道選擇.通過這種特征剪枝方法,在每次訓練的迭代中停用一些特征通道,從而得到一個更可靠的卷積特征表示.訓練完成后,在線跟蹤過程中特征聚合網(wǎng)絡的參數(shù)將保持不變,而特征剪枝模塊將被丟棄.DAPNet對由于形變、快速移動、背景雜波和每個模態(tài)的遮擋而導致的顯著外觀變化的挑戰(zhàn)有較魯棒的跟蹤效果.

        Zhu等[31]提出過一種新的RGB-T融合架構——質(zhì)量感知特征聚合網(wǎng)絡(FANet).該網(wǎng)絡由兩個子網(wǎng)組成:分層特征聚合子網(wǎng)絡和多模態(tài)信息聚合子網(wǎng)絡.分層特征聚合子網(wǎng)以自適應方式集成層次化和多分辨率的深層特征.在分層特征聚合子網(wǎng)中,Zhu等[31]還提出了一種新的特征聚合方法——密集特征聚合.淺層特征可對目標位置等空間細節(jié)進行編碼,有助于實現(xiàn)精確的目標定位,而深層特征能更有效地捕獲目標的語義特征.在每個模態(tài)中,首先將層次化的多分辨率特征聚合到相同分辨率的統(tǒng)一空間中,智能地學習不同層的權重,自適應地融合它們,以突出顯示更多具有判別性的特征,并能夠抑制噪聲,多模態(tài)信息聚合子網(wǎng)則使用聚合的特征來預測模態(tài)整體權重,根據(jù)預測的可靠性程度協(xié)同集成所有模態(tài),然后將模態(tài)權值與相應的聚合特征結合起來產(chǎn)生一個可靠的目標表示,顯著提高了RGB-T目標跟蹤性能.

        3.2 基于多適配器的RGB-T跟蹤

        在多適配器卷積網(wǎng)絡(MANet)之前的RGB-T追蹤工作通常引入模態(tài)權重來實現(xiàn)自適應融合或?qū)W習不同模態(tài)的魯棒特征表示,從而專注于特定的信息集成.雖然可以有效地利用特定模態(tài)的性質(zhì),但是它們忽略了模態(tài)共享特征的潛在價值以及實例感知信息,而這些對于RGB-T跟蹤中不同模態(tài)的有效融合是很重要的.

        Li等[33]提出了多適配器卷積網(wǎng)絡(MANet),用于RGB-T跟蹤的端到端訓練的深度框架,包括模態(tài)共享、模態(tài)特定和實例感知的特征學習.MANet包含三種適配器,包括通用適配器(Generality-Adapter)、模態(tài)適配器(Modality-Adapter)、實例適配器(Instance-Adapter).通用適配器用來提取不同模態(tài)的共享對象表示,在有效性和網(wǎng)絡效率之間進行了良好協(xié)調(diào);模態(tài)適配器基于通用適配器,可以有效地提取特定模態(tài)的特征表示,充分利用RGB和熱紅外模態(tài)的互補優(yōu)勢;實例適配器用來對特定對象的外觀特性和時間變化進行建模,以解決跟蹤過程中實例對象出現(xiàn)變化或環(huán)境變化而導致跟蹤模型無法跟蹤的問題.此外,通用適配器和模態(tài)適配器以并行結構方式結合以降低目標跟蹤過程的計算復雜度.

        3.3 基于注意力機制的RGB-T跟蹤

        視覺注意力在RGB-T跟蹤中有著巨大的潛力,有助于分類器的學習.與前面的特征表示學習和自適應模態(tài)加權融合不同,Yang等[34]另辟蹊徑,提出了雙視覺注意力機制(局部注意力和全局注意力)以實現(xiàn)魯棒的RGB-T跟蹤.通過利用RGB和熱紅外數(shù)據(jù)的共同視覺注意來訓練深度分類器,從而實現(xiàn)局部注意力.而全局注意力是一個多模態(tài)目標驅(qū)動的注意力估計網(wǎng)絡,它可以為分類器提供全局預測以及從先前跟蹤結果中得到局部預測.

        局部注意力的訓練過程包括前向傳播和反向傳播兩步.在前向傳播的步驟中,將成對的RGB和熱紅外圖像送入深度檢測跟蹤網(wǎng)絡,并估計相應的分類得分;在反向傳播的過程中,取這個分類分數(shù)相對于輸入成對的RGB-T樣本的偏導數(shù),從最后一個全連接層朝向第一卷積層進行網(wǎng)絡更新.將第一層的偏導數(shù)輸出作為RGB和熱紅外輸入的共同注意圖,在訓練過程中,通過在損失函數(shù)中加入此注意圖作為正則化項,使分類器更加關注目標區(qū)域.

        盡管前面提出的RGB-T跟蹤器已經(jīng)可以實現(xiàn)良好的性能,但是它仍然遵循檢測跟蹤框架下的局部搜索策略.由于前一幀的跟蹤結果也許已經(jīng)失敗,局部搜索策略將不能發(fā)揮作用.而將目標驅(qū)動注意力估計網(wǎng)絡和RGB-T全局注意力網(wǎng)絡結合,可以改善局部搜索策略所不能解決的該問題.高質(zhì)量的全局候選框可以從注意力區(qū)域中提取,并與局部候選框一起輸入到分類器,得到有效的分類結果.因此,局部和全局注意力圖的互補進一步提高了RGB-T目標跟蹤器的魯棒性和準確性.所以該雙注意力機制(局部注意力和全局注意力)的思想在未來的目標跟蹤中極具潛力.

        4 可見光-紅外數(shù)據(jù)集

        4.1 數(shù)據(jù)集

        目前的基于深度學習的RGB-T目標跟蹤,都依賴于大型數(shù)據(jù)集來訓練模型并評估其性能,被設計用于RGB-T目標跟蹤的視頻基準數(shù)據(jù)集主要有LITIV[35]、GTOT[14]、RGBT210[21]、RGBT234[9]、VOT2019[36]以及相關測試平臺的數(shù)據(jù)集.

        LITIV[35]數(shù)據(jù)集由熱紅外和可見光攝像機以30幀/s的速度、不同變焦設置和不同拍攝位置及不同跟蹤場景的視頻組成.圖像大小為320×240像素.

        GTOT[14]數(shù)據(jù)集包括50個視頻對,每個視頻對由一個可見光視頻和一個熱紅外視頻組成,具有50個不同場景,如辦公區(qū)、公共道路、水池等.每個可見光視頻都與一個熱紅外視頻配對.該數(shù)據(jù)集包含非剛性、移動模糊、小物體、照明條件、熱交叉、比例變化、遮擋時長與面積等挑戰(zhàn).

        RGBT210[21]數(shù)據(jù)集包含大量高精度視頻幀(總幀數(shù)約210 000幀).不同模態(tài)之間對齊更加準確,不需要預處理和后處理.該數(shù)據(jù)集包括對無遮擋、部分遮擋和嚴重遮擋的注釋,可用于不同算法的遮擋敏感性評估.

        RGBT234[9]數(shù)據(jù)集是基于RGBT210 數(shù)據(jù)集擴展的大規(guī)模 RGBT 跟蹤數(shù)據(jù)集.它包含總共 234 對高對齊的 RGB 和熱紅外視頻序列,具有大約 200 000 幀,最長的視頻序列達到8 000 幀.但是此數(shù)據(jù)集中目標對象的外觀隨著時間的推移而顯著變化,這是由遮擋、運動模糊、相機移動和照明挑戰(zhàn)引起的,對于評估不同的跟蹤器具有足夠的挑戰(zhàn)性.

        VOT是當下比較流行的跟蹤算法的測試平臺,包括數(shù)據(jù)集、評價標準與評價系統(tǒng),且每一年都會更新.目前VOT2019[36]已經(jīng)發(fā)布,可用于RGB-T目標跟蹤.VOT-RGBT2019包含60個視頻序列以及6個挑戰(zhàn),包括相機移動、光照變化、目標尺寸變化、目標動作變化、非退化6個屬性.

        表1列出了RGB-T目標跟蹤領域的主要視頻基準數(shù)據(jù)集(LITIV[35]、GTOT[14]、RGBT210[21]和RGBT234[9]).

        4.2 評價標準

        為了評估性能,本節(jié)重點介紹6種廣泛使用的跟蹤效果評估指標:精確率(PR)、成功率(SR)、準確度(Accuracy)、魯棒性(Robustness)、PR曲線(PR curves)和F值(F-measure).

        1)精確率(PR).精確率(PR)是輸出位置在給定的真值閾值距離內(nèi)的幀的百分比.在某些場景下,也可以使用最大精確率(MPR)作為評價指標.

        2)成功率(SR).成功率(SR)是輸出邊界框與真值邊界框之間的重疊率大于閾值的幀的百分比.通過改變閾值,可以獲得 SR 圖.

        3)準確度(Accuracy).準確度為對于給定的測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比.

        4)魯棒性(Robustness).魯棒性用來度量模型受數(shù)據(jù)擾動、噪聲以及離群點的影響程度.

        5)PR曲線(PR curves).即以召回率(Recall)為橫坐標,精確率為縱坐標繪制而成的曲線,通過調(diào)節(jié)分類閾值,可以得到不同的召回率和精確率,從而得PR曲線.

        6)F值(F-measure).F值是精確率(PR)和召回率(Recall)的加權調(diào)和平均,精確率和召回率沒有絕對聯(lián)系,但在數(shù)據(jù)集合規(guī)模變大時,二者會互相制約,F(xiàn)值就可以在維持二者權重相同時,綜合二者特性,得出分類模型的優(yōu)劣.

        5 結束語

        在目標跟蹤過程中,外部環(huán)境因素很容易對跟蹤的效果產(chǎn)生影響,而有效地利用可見光和熱紅外的互補優(yōu)勢,可以實現(xiàn)全天候的魯棒的視覺跟蹤,因此RGB-T目標跟蹤近些年成為計算機視覺中的一個新的研究分支.本文從傳統(tǒng)方法和深度學習方法兩方面對RGB-T目標跟蹤方面的相關研究進行闡述.傳統(tǒng)方法分為基于稀疏表示的、基于相關濾波的、基于圖模型的方法,深度學習方法分為基于多模態(tài)特征融合的、基于多適配器的、基于注意力機制的深度學習網(wǎng)絡.

        RGB-T目標跟蹤有著巨大的研究價值,可以考慮探索更深度的模態(tài)融合機制,將RGB和熱紅外這兩種模態(tài)進行更有效的融合,這也是當前研究面臨的難題之一,比如設計新型融合結構、進行多模交互學習等.同時,可以對目標對象進行更有效的表示,如提取出目標的掩模輪廓、關鍵點、概率分布等有效特征.此外RGB-T目標跟蹤中的分類器也有待增強.這些都是未來值得研究的方向.

        參考文獻

        References

        [1]Grabner H,Grabner M,Bischof H.Real-time tracking via on-line boosting[C]∥Proceedings of the 2006 British Machine Vision,2006:47-56

        [2]Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking[C]∥European Conference on Computer Vision,2008:234-247

        [3]Avidan S.Ensemble tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(2):261-271

        [4]Babenko B,Yang M H,Belongie S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632

        [5]Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].IEEE Transactions on Software Engineering,2011,34(7):1409-1422

        [6]Hare S,Golodetz S,Saffari A,et al.Struck:structured output tracking with kernels[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,38(10):2096-2109

        [7]Li X,Shen C H,Dick A,et al.Learning compact binary codes for visual tracking[C]∥IEEE Conference on Computer Vision & Pattern Recognition,2013:2419-2426

        [8]Zhang J M,Ma S G,Sclaroff S.MEEM:robust tracking via multiple experts using entropy minimization[C]∥European Conference on Computer Vision,2014:188-203

        [9]Li C L,Liang X Y,Lu Y J,et al.RGB-T object tracking:benchmark and baseline[J].Pattern Recognition,2018,96:106977

        [10]OConaire C,OConnor N E,Smeaton A.Thermo-visual feature fusion for object tracking using multiple spatiogram trackers[J].Machine Vision and Applications,2008,19(5/6):483-494

        [11]OConaire C,OConnor N E,Cooke E,et al.Comparison of fusion methods for thermo-visual surveillance tracking[C]∥2006 9th International Conference on Information Fusion,2006:1-7

        [12]Wu Y,Blasch E,Chen G S,et al.Multiple source data fusion via sparse representation for robust visual tracking[C]∥14th International Conference on Information Fusion,2011:1-8

        [13]Liu H P,Sun F C.Fusion tracking in color and infrared images using joint sparse representation[J].Science China:Information Sciences,2012(3):104-113

        [14]Li C L,Cheng H,Hu S Y,et al.Learning collaborative sparse representation for grayscale-thermal tracking[J].IEEE Transactions on Image Processing,2016,25(12):5743 - 5756

        [15]Lan X Y,Ma A J,Yuen P C.Multi-cue visual tracking using robust feature-level fusion based on joint sparse representation[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2014:1194-1201

        [16]Lan X Y,Ye M,Zhang S P,et al.Robust collaborative discriminative learning for RGB-infrared tracking[C]∥32nd AAAI Conference on Artificial Intelligence,2018:7008-7015

        [17]Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking using adaptive correlation filters[C]∥The 23rd IEEE Conference on Computer Vision and Pattern Recognition,2010,DOI:10.1109/CVPR.2010.5539960

        [18]Henriques J F,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596

        [19]Bai B,Zhong B N,Ouyang G,et al.Kernel correlation filters for visual tracking with adaptive fusion of heterogeneous cues[J].Neurocomputing,2018,286:109-120

        [20]Zhai S Y,Shao P P,Liang X Y,et al.Fast RGB-T tracking via cross-modal correlation filters[J].Neurocomputing,2019,334:172-181

        [21]Li C L,Zhao N,Lu Y J,et al.Weighted sparse representation regularized graph learning for RGB-T object tracking[C]∥Proceedings of the 25th ACM International Conference on Multimedia,2017:1856-1864

        [22]Li C L,Zhu C L,Zheng S F,et al.Two-stage modality-graphs regularized manifold ranking for RGB-T tracking[J].Signal Processing:Image Communication,2018,68:207-217

        [23]Li C L,Zhu C L,Zhang J,et al.Learning local-global multi-graph descriptors for RGB-T object tracking[J].IEEE Transactions on Circuits and Systems for Video Technology,2018,29(10):2913 - 2926

        [24]Li C L,Sun X,Wang X,et al.Grayscale-thermal object tracking via multitask Laplacian sparse representation[J].IEEE Transactions on Systems,Man,and Cybernetics:Systems,2017,47(4):673-681

        [25]Gade R,Moeslund T B.Thermal cameras and applications:a survey[J].Machine Vision and Applications,2014,25(1):245-262

        [26]Parikh N,Boyd S.Proximal algorithms[J].Foundations and Trendsin Optimization,2014,1(3):127-239

        [27]Boyd S,Parikh N,Chu E,et al.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Foundations and Trendsin Machine Learning,2011,3(1):1-122

        [28]Wang Y L,Li C L,Tang J.Learning soft-consistent correlation filters for RGB-T object tracking[C]∥Chinese Conference on Pattern Recognition and Computer Vision (PRCV),2018:295-306

        [29]Li C L,Lin L,Zuo W M,et al.Learning patch-based dynamic graph for visual tracking[C]∥Thirty-First AAAI Conference on Artificial Intelligence,2017:4126-4132

        [30]Zhu Y B,Li C L,Luo B,et al.Dense feature aggregation and pruning for RGBT tracking[C]∥Proceedings of the 27th ACM International Conference on Multimedia,2019:465-472

        [31]Zhu Y B,Li C L,Lu Y,et al.FANet:quality-aware feature aggregation network for RGB-T tracking[J].arXiv Preprint,2018,arXiv:1811.09855

        [32]Li C L,Wu X H,Zhao N,et al.Fusing two-stream convolutional neural networks for RGB-T object tracking[J].Neurocomputing,2018,281:78-85

        [33]Li C L,Lu A D,Zheng A H,et al.Multi-adapter RGBT tracking[J].arXiv Preprint,2019,arXiv:1907.07485

        [34]Yang R,Zhu Y B,Wang X,et al.Learning target-oriented dual attention for robust RGB-T tracking[C]∥2019 IEEE International Conference on Image Processing (ICIP),2019,DOI:10.1109/ICIP.2019.8803528

        [35]Torabi A,Massé G,Bilodeau G A.An iterative integrated framework for thermal-visible image registration,sensor fusion,and people tracking for video surveillance applications[J].Computer Vision and Image Understanding,2012,116(2):210-221

        [36]Kristan M,Matas J,Leonardis A,et al.The seventh visual object tracking VOT2019 challenge results[C]∥Proceedings of the IEEE International Conference on Computer Vision Workshop,2019

        Abstract RGB-Thermal object tracking has developed due to its strongly complementary benefits of thermal information to visible data.In this paper,we introduce the research background of RGB-T object tracking and the challenges in this task;then summarize and introduce the existing methods of RGB-T object tracking,including traditional methods and deep learning methods.Finally,we analyze and compare the existing RGB-T datasets and evaluation criteria,and point out the aspects worthy of study in RGB-T object tracking.

        Key words RGB-Thermal;multimodality;object tracking

        猜你喜歡
        目標跟蹤多模態(tài)
        多視角目標檢測與跟蹤技術的研究與實現(xiàn)
        基于改進連續(xù)自適應均值漂移的視頻目標跟蹤算法
        基于重采樣粒子濾波的目標跟蹤算法研究
        航空兵器(2016年5期)2016-12-10 17:12:24
        多模態(tài)話語中的詹姆斯·卡梅隆電影
        電影文學(2016年19期)2016-12-07 19:57:57
        英語閱讀教學中多模態(tài)識讀能力的培養(yǎng)
        網(wǎng)絡環(huán)境下大學英語多模態(tài)交互式閱讀教學模式研究
        戲劇之家(2016年22期)2016-11-30 18:20:43
        多模態(tài)理論視角下大學英語課堂的構建
        科教導刊(2016年26期)2016-11-15 19:54:13
        新媒體環(huán)境下多模態(tài)商務英語課堂教師角色定位
        空管自動化系統(tǒng)中航跡濾波算法的應用與改進
        科技視界(2016年5期)2016-02-22 12:25:31
        智能視頻技術在電力系統(tǒng)領域的應用
        亚洲狠狠婷婷综合久久| 精品福利一区二区三区蜜桃| 四虎影视久久久免费观看| 人妻献身系列第54部| 午夜精品一区二区三区无码不卡| 美腿丝袜中文字幕在线观看| 国产一区二区av免费在线观看| 边喂奶边中出的人妻| 欧美一级特黄AAAAAA片在线看| 亚洲一级av大片在线观看| 开心五月激情五月五月天| 免费看av在线网站网址| 九九精品视频在线观看| 国产高潮精品一区二区三区av| 亚洲色图在线免费视频| 韩日午夜在线资源一区二区 | 国产区女主播在线观看| 久久久久亚洲精品无码网址色欲| 97精品国产91久久久久久久| 国产av精品一区二区三区不卡 | 国产av国片精品jk制服| 中文字幕精品久久久久人妻红杏1| 久久久精品2019免费观看| 五月激情在线视频观看| 久久久久亚洲av无码麻豆| 久久久久成人亚洲综合精品| 日本黄色高清视频久久| 18禁裸体动漫美女无遮挡网站| 丰满少妇高潮惨叫正在播放| 韩日无码不卡| 亚洲丰满熟女一区二亚洲亚洲| 国产精品www夜色视频| 九九免费在线视频| 亚洲福利网站在线一区不卡| 人妻少妇精品久久久久久| 中文字幕精品久久久久人妻红杏1| 开心五月婷婷综合网站| 中文字幕一区二区三区久久网| 中国农村熟妇性视频| 日本道免费精品一区二区| 日韩精品极品系列在线免费视频 |