亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤技術(shù)綜述

        2023-05-23 12:39:44張?zhí)炻?/span>
        模式識(shí)別與人工智能 2023年4期
        關(guān)鍵詞:模態(tài)特征圖像

        張?zhí)炻?張 強(qiáng)

        目標(biāo)跟蹤要求已知第一幀目標(biāo)的位置后,在視頻序列中確定該目標(biāo)的位置[1],這是計(jì)算機(jī)視覺(jué)研究領(lǐng)域中一個(gè)重要且基礎(chǔ)性的研究課題,具有廣泛的應(yīng)用前景.

        近年來(lái),基于RGB圖像的目標(biāo)跟蹤研究已經(jīng)取得許多突破,出現(xiàn)大量基于不同理論框架的跟蹤算法,這些算法在運(yùn)行速度和精度兩個(gè)方面都顯著提升目標(biāo)跟蹤的性能.但是,現(xiàn)階段的RGB目標(biāo)跟蹤技術(shù)仍然面臨許多挑戰(zhàn)性問(wèn)題,尤其是在各種復(fù)雜的環(huán)境條件(如低光照、惡劣天氣、煙霧、部分遮擋等)下,RGB圖像的成像質(zhì)量受到顯著影響,使僅依靠RGB圖像的跟蹤算法性能下降,甚至失效,極大限制了目標(biāo)跟蹤技術(shù)的應(yīng)用范圍[2].

        隨著傳感器技術(shù)的發(fā)展和制造成本的降低,各種類型的傳感器在軍事領(lǐng)域和民用領(lǐng)域都得到廣泛的應(yīng)用.近年來(lái),隨著熱紅外傳感器的普及,RGB-熱紅外(RGB-Thermal, RGB-T)目標(biāo)跟蹤技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域受到越來(lái)越多的關(guān)注.RGB圖像可以捕獲豐富的顏色、細(xì)節(jié)和紋理等信息,但容易受到環(huán)境影響,這導(dǎo)致基于RGB圖像的目標(biāo)跟蹤算法受光照變化、雨雪霧等惡劣天氣的影響較大,難以滿足復(fù)雜場(chǎng)景下的應(yīng)用需求.中段波長(zhǎng)(3 μm~8 μm波段)和長(zhǎng)段波長(zhǎng)(8 μm~15 μm波段)的熱紅外圖像(Thermal Infrared, TIR)利用目標(biāo)自身發(fā)射的熱輻射成像,對(duì)光照變化不敏感,具有較強(qiáng)的穿透霧霾的能力,在光照昏暗和惡劣天氣等條件下也具有較好的成像效果.本文的TIR圖像特指波長(zhǎng)為3 μm~15 μm波段的TIR,已有的RGB-T目標(biāo)跟蹤算法及數(shù)據(jù)集也通常針對(duì)此波段范圍的熱紅外圖像展開(kāi)研究.

        雖然TIR圖像能夠體現(xiàn)物體的溫度信息,但是通常會(huì)缺失物體的邊緣、紋理和幾何等細(xì)節(jié)信息,因此當(dāng)形態(tài)相似且溫度相近的物體的運(yùn)動(dòng)軌跡發(fā)生交叉,會(huì)產(chǎn)生熱交叉現(xiàn)象[3],導(dǎo)致跟蹤失敗.

        在RGB目標(biāo)跟蹤的基礎(chǔ)上,RGB-T目標(biāo)跟蹤進(jìn)一步研究如何恰當(dāng)合理地使用RGB圖像和TIR圖像,克服一些環(huán)境條件對(duì)單模態(tài)目標(biāo)跟蹤的影響.例如,在光照昏暗、惡劣天氣等情況下,針對(duì)RGB圖像常無(wú)法有效區(qū)分目標(biāo)和背景,但只要目標(biāo)和周?chē)h(huán)境存在溫差,TIR圖像就能夠區(qū)分目標(biāo)和背景,從而進(jìn)行魯棒的目標(biāo)跟蹤.當(dāng)目標(biāo)和溫度相似的物體發(fā)生熱交叉無(wú)法區(qū)分目標(biāo)時(shí),RGB圖像能夠提供目標(biāo)的細(xì)節(jié)信息,進(jìn)而實(shí)現(xiàn)魯棒的目標(biāo)跟蹤.RGB-T目標(biāo)跟蹤更關(guān)注于挖掘兩種模態(tài)圖像的互補(bǔ)信息,提高跟蹤的準(zhǔn)確性和魯棒性.

        早期的RGB-T目標(biāo)跟蹤算法利用人工設(shè)計(jì)視覺(jué)特征,利用匹配或分類算法進(jìn)行快速有效的目標(biāo)跟蹤.由于在抑制噪聲、減少誤差方面表現(xiàn)較優(yōu),稀疏表示[4]被用于RGB-T目標(biāo)跟蹤研究中,并且取得較好的效果,但稀疏表示模型計(jì)算復(fù)雜度較高,難以實(shí)時(shí)處理.隨著相關(guān)濾波理論在單模態(tài)跟蹤中取得較魯棒的效果,Zhai等[5]在RGB-T目標(biāo)跟蹤中引入跨模態(tài)相關(guān)濾波器,有效進(jìn)行RGB和紅外模態(tài)的融合.為了改善RGB-T目標(biāo)跟蹤中的模型漂移現(xiàn)象,研究者在RGB-T目標(biāo)跟蹤中引入圖理論,自適應(yīng)地使用RGB圖像和TIR圖像信息學(xué)習(xí)模態(tài)權(quán)重[6-7].

        然而,上述算法使用手工設(shè)計(jì)的特征,不能較好地適應(yīng)具有挑戰(zhàn)性的環(huán)境,如劇烈的外觀變化、復(fù)雜背景、目標(biāo)快速移動(dòng)和遮擋等.受深度學(xué)習(xí)在各類計(jì)算機(jī)視覺(jué)任務(wù)的成功應(yīng)用的啟發(fā),一些RGB-T跟蹤器嘗試使用深度學(xué)習(xí)技術(shù)改善跟蹤性能.Li等[8]首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)應(yīng)用于RGB-T目標(biāo)跟蹤,提出基于雙流網(wǎng)絡(luò)(Two-Stream Network)和多模態(tài)特征自適應(yīng)融合的RGB-T目標(biāo)跟蹤算法.此后,基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤逐漸成為一個(gè)研究熱點(diǎn),學(xué)者們陸續(xù)提出許多不同類型的深度學(xué)習(xí)算法[9-14].

        目前,學(xué)者們已對(duì)部分2018年~2020年間基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法進(jìn)行整理和綜述.丁正彤等[15]從融合方式角度對(duì)基于手工特征的RGB-T目標(biāo)跟蹤算法和早期基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法進(jìn)行簡(jiǎn)略介紹.Zhang等[16]從早期融合、中期融合和晚期融合三類融合方式的角度對(duì)RGB-T單目標(biāo)跟蹤算法進(jìn)行歸納總結(jié),但缺少對(duì)最新算法的系統(tǒng)介紹.

        因此,本文對(duì)2018年~2022年間基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法進(jìn)行系統(tǒng)描述.與之前的綜述不同,考慮到大多數(shù)RGB-T目標(biāo)跟蹤算法是在已有的RGB目標(biāo)跟蹤框架上設(shè)計(jì)的,本文根據(jù)采用的基線(Baseline)方法不同,將已有方法劃分為基于多域網(wǎng)絡(luò)(Multi-domain Network, MDNet)的目標(biāo)跟蹤算法,基于孿生網(wǎng)絡(luò)(Siamese Network)的目標(biāo)跟蹤算法和基于判別式相關(guān)濾波器(Discriminative Correlation Filter, DCF)的目標(biāo)跟蹤算法.2022年之前,基于MDNet的目標(biāo)跟蹤算法是RGB-T目標(biāo)跟蹤領(lǐng)域的主流,本文進(jìn)一步將基于MDNet的RGB-T目標(biāo)跟蹤算法細(xì)化分類為基于多模態(tài)特征融合的目標(biāo)跟蹤算法、基于多模特征表示的目標(biāo)跟蹤算法、基于多模態(tài)特征表示-融合聯(lián)合的目標(biāo)跟蹤算法和基于屬性驅(qū)動(dòng)的目標(biāo)跟蹤算法,并對(duì)各算法的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)進(jìn)行總結(jié).

        1 RGB-T目標(biāo)跟蹤研究的挑戰(zhàn)

        對(duì)于RGB-T目標(biāo)跟蹤任務(wù),主要面臨的挑戰(zhàn)可分為兩類.一類是目標(biāo)跟蹤任務(wù)固有的挑戰(zhàn),包括形狀變化、遮擋、尺度變化、背景干擾以及目標(biāo)移動(dòng)等情形,部分挑戰(zhàn)如圖1所示.上述情況往往導(dǎo)致視頻序列中跟蹤目標(biāo)依賴的特征,如外觀、形狀或背景等信息,隨時(shí)間變化存在較大的不一致性,使跟蹤器在后續(xù)視頻幀中無(wú)法準(zhǔn)確識(shí)別和跟蹤目標(biāo).

        1)形狀及尺度變化.在跟蹤過(guò)程中,非剛性運(yùn)動(dòng)目標(biāo)(如運(yùn)動(dòng)場(chǎng)上的運(yùn)動(dòng)員)本身會(huì)發(fā)生形變.此外,目標(biāo)在運(yùn)動(dòng)過(guò)程中也可能發(fā)生較大的尺度變化.

        目標(biāo)的形狀及尺度變化會(huì)使不同幀之間的目標(biāo)存在較大的外觀差異,從而導(dǎo)致在跟蹤過(guò)程中發(fā)生漂移[17].在這種場(chǎng)景下,RGB圖像和TIR圖像的作用通常取決于不同模態(tài)圖像的成像質(zhì)量.

        2)遮擋.目標(biāo)在跟蹤過(guò)程中可能被場(chǎng)景中的物體部分遮擋或者完全遮擋.在發(fā)生部分遮擋時(shí),圖像中目標(biāo)僅有部分區(qū)域可視,跟蹤器容易將遮擋物或者背景視為目標(biāo)的一部分,從而導(dǎo)致跟蹤失敗.在發(fā)生長(zhǎng)時(shí)間的完全遮擋時(shí),往往會(huì)造成跟蹤器無(wú)法有效更新,從而在目標(biāo)重新出現(xiàn)時(shí)跟蹤失敗[18].當(dāng)煙霧造成目標(biāo)不可見(jiàn)時(shí),紅外圖像往往能夠提供有效的定位信息用于跟蹤.

        3)背景雜亂.背景雜亂是指在跟蹤的目標(biāo)周?chē)嬖趯?duì)目標(biāo)跟蹤造成干擾的相似語(yǔ)義目標(biāo)或背景區(qū)域,需要防止跟蹤器無(wú)法準(zhǔn)確地區(qū)分目標(biāo)和外觀相似干擾物體.當(dāng)存在與目標(biāo)外觀相似的背景區(qū)域干擾,且目標(biāo)與背景區(qū)域溫度特性存在較大差異時(shí),TIR圖像更有利于定位目標(biāo).當(dāng)存在與目標(biāo)語(yǔ)義相似的干擾物時(shí),RGB圖像由于能夠提供豐富的顏色和紋理信息,更有利于區(qū)分語(yǔ)義信息相似的目標(biāo)和干擾物.

        4)目標(biāo)移動(dòng).目標(biāo)跟蹤研究的對(duì)象主體往往是運(yùn)動(dòng)的目標(biāo),目標(biāo)移動(dòng)對(duì)目標(biāo)跟蹤造成的困難主要包括目標(biāo)快速運(yùn)動(dòng)和目標(biāo)運(yùn)動(dòng)模糊等情形. 由于目標(biāo)跟蹤通常采取在目標(biāo)前一幀所處位置周?chē)鷧^(qū)域進(jìn)行搜索的策略,因此目標(biāo)快速運(yùn)動(dòng)可能造成目標(biāo)前后幀位置差異較大,甚至超出搜索區(qū)域.另一方面,目標(biāo)移動(dòng)本身造成的運(yùn)動(dòng)模糊也會(huì)造成目標(biāo)前景虛化,從而影響目標(biāo)特征表達(dá).同樣地,相機(jī)移動(dòng)甚至?xí)斐烧鶊D像的模糊,也是影響目標(biāo)跟蹤效果的挑戰(zhàn)之一.RGB圖像和TIR圖像都存在由于運(yùn)動(dòng)模糊造成成像質(zhì)量降低的問(wèn)題.除了上述目標(biāo)跟蹤任務(wù)固有的通用挑戰(zhàn)因素以外,由于RGB-T數(shù)據(jù)的引入,還存在另一類聯(lián)合利用RGB-T圖像時(shí)面臨的特有挑戰(zhàn),包括熱交叉、低光照、極端光照、空間不對(duì)齊等,部分挑戰(zhàn)如圖2所示.上述情況往往導(dǎo)致RGB-T數(shù)據(jù)內(nèi)某一模態(tài)數(shù)據(jù)或某一區(qū)域數(shù)據(jù)不可靠或存在大量干擾信息,使跟蹤器在跟蹤過(guò)程中受到干擾而無(wú)法準(zhǔn)確跟蹤.

        (a)尺度變化 (b)遮擋

        1)熱交叉.熱交叉是指目標(biāo)與背景的溫度或形態(tài)接近時(shí),TIR圖像內(nèi)目標(biāo)與背景難以區(qū)分,當(dāng)目標(biāo)與背景軌跡交叉時(shí),無(wú)法準(zhǔn)確定位目標(biāo)位置.

        2)低光照和極端光照.低光照和極端光照現(xiàn)象都是RGB圖像受光照條件的影響,無(wú)法在夜晚或強(qiáng)光環(huán)境下捕獲有效的目標(biāo)信息,造成成像質(zhì)量差或目標(biāo)不可見(jiàn).

        (a)RGB圖像

        3)空間不對(duì)齊.由于RGB-T數(shù)據(jù)通常由兩個(gè)不同的成像平臺(tái)采集,因此成像范圍及角度有所差異,已有RGB-T目標(biāo)跟蹤數(shù)據(jù)集預(yù)處理的第一步就是對(duì)多模態(tài)圖像進(jìn)行空間配準(zhǔn).但多模態(tài)圖像的空間不對(duì)齊問(wèn)題在已有的公開(kāi)數(shù)據(jù)集上廣泛存在,容易影響多模態(tài)特征之間的有效交互,并干擾目標(biāo)定位.

        在實(shí)際的跟蹤場(chǎng)景中,固有挑戰(zhàn)和特有挑戰(zhàn)通常同時(shí)出現(xiàn).RGB圖像與TIR圖像對(duì)這些通用挑戰(zhàn)的影響常取決于跟蹤場(chǎng)景的特有挑戰(zhàn)屬性.

        為了實(shí)現(xiàn)準(zhǔn)確魯棒的RGB-T目標(biāo)跟蹤,算法在設(shè)計(jì)過(guò)程中不僅需要考慮如何應(yīng)對(duì)目標(biāo)跟蹤任務(wù)中的通用挑戰(zhàn),還需要考慮如何充分利用RGB-T數(shù)據(jù)的互補(bǔ)信息以應(yīng)對(duì)RGB-T目標(biāo)跟蹤任務(wù)中的特有挑戰(zhàn).

        2 基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法

        相比傳統(tǒng)的RGB-T目標(biāo)跟蹤算法,基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法獲益于CNN的特征提取和表示能力,獲得比傳統(tǒng)算法更優(yōu)的跟蹤結(jié)果,吸引計(jì)算機(jī)視覺(jué)領(lǐng)域研究人員的廣泛關(guān)注.雖然目前基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法發(fā)展只有數(shù)年,但已出現(xiàn)大量具有影響力的工作,跟蹤性能也得到大幅提升.

        本文對(duì)近年來(lái)基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法的發(fā)展歷程進(jìn)行總結(jié),通過(guò)時(shí)間線的方式繪制一些具有影響力的工作,如圖3所示.

        基于深度學(xué)習(xí)的RGB-T跟蹤器通常是在RGB跟蹤器的基礎(chǔ)上設(shè)計(jì)的.因此,根據(jù)基線跟蹤方法的不同,基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法可以分為3類:基于多域網(wǎng)絡(luò)的目標(biāo)跟蹤算法,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法和基于判別式相關(guān)濾波的目標(biāo)跟蹤算法.從算法優(yōu)化角度將基于MDNet的RGB-T目標(biāo)跟蹤算法進(jìn)一步細(xì)化分類為:基于多模態(tài)特征融合的目標(biāo)跟蹤算法、基于多模態(tài)特征表示的目標(biāo)跟蹤算法、基于多模態(tài)特征表示-融合聯(lián)合的目標(biāo)跟蹤算法和基于屬性驅(qū)動(dòng)的目標(biāo)跟蹤算法.

        圖3 基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法發(fā)展歷程

        2.1 基于多域網(wǎng)絡(luò)的目標(biāo)跟蹤算法

        MDNet[19]是一種早期的完全基于CNN的目標(biāo)跟蹤算法,也是VOT-2015挑戰(zhàn)賽的冠軍算法.MDNet通過(guò)分類的方式確定目標(biāo)位置,并使用在線更新的策略訓(xùn)練分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò),采取的在線學(xué)習(xí)策略對(duì)訓(xùn)練數(shù)據(jù)集規(guī)模要求較低.2022年前,RGB-T目標(biāo)跟蹤數(shù)據(jù)集規(guī)模較小,缺乏大規(guī)模訓(xùn)練數(shù)據(jù),因此,在2018年~2021年期間大部分RGB-T目標(biāo)跟蹤算法選擇MDNet作為其基線跟蹤算法.

        MDNet具體結(jié)構(gòu)如圖4所示.MDNet包含共享層(Shared Layers)和特定域?qū)?Domain-Specific La- yers),這里的域?qū)?yīng)訓(xùn)練集上不同的視頻序列.在共享層,MDNet在每個(gè)域上迭代訓(xùn)練,獲取通用的目標(biāo)表示.在測(cè)試序列上,MDNet固定預(yù)訓(xùn)練共享層,并在線訓(xùn)練特定域?qū)?獲取特定視頻序列的目標(biāo)表示.根據(jù)目標(biāo)上一幀位置隨機(jī)選取區(qū)域候選框,利用二分類網(wǎng)絡(luò)判定候選區(qū)域是否為目標(biāo),實(shí)現(xiàn)目標(biāo)跟蹤任務(wù).此外,MDNet還使用第一幀圖像訓(xùn)練回歸網(wǎng)絡(luò),對(duì)候選框進(jìn)行回歸.

        圖4 MDNet結(jié)構(gòu)圖[19]

        MDNet雖然在當(dāng)時(shí)取得較優(yōu)的跟蹤效果,然而在GPU上僅有約1幀/秒的運(yùn)行速度,無(wú)法滿足實(shí)時(shí)運(yùn)行的需求.這是由于MDNet在跟蹤過(guò)程中首先生成區(qū)域候選框,再在每幀圖像上進(jìn)行裁剪,并將多個(gè)裁剪后的圖像送入特征提取網(wǎng)絡(luò),獲取候選區(qū)域特征.為此,受Faster RCNN[20]中使用ROI Align的啟發(fā),Jung等[21]提出RT-MDNet(Real-Time MDNet),在MDNet的基礎(chǔ)上,使用ROI Align操作,加速候選區(qū)域的特征提取過(guò)程,并加入多任務(wù)損失函數(shù),獲取更優(yōu)的目標(biāo)建模方式.RT-MDNet的運(yùn)行速度是MDNet的25倍,但兩者卻有相似的跟蹤精度.

        MDNet和RT-MDNet都在RGB-T目標(biāo)跟蹤領(lǐng)域中得到廣泛使用,并在其基礎(chǔ)上從多模態(tài)特征融合、多模態(tài)特征表示等角度進(jìn)一步優(yōu)化RGB-T目標(biāo)跟蹤算法的性能.

        2.1.1基于多模態(tài)特征融合的方法

        一些基于MDNet的RGB-T目標(biāo)跟蹤算法[22-24]關(guān)注于通過(guò)多模態(tài)特征融合挖掘不同模態(tài)特征間的互補(bǔ)信息.這類方法由早期的級(jí)聯(lián)融合、相加融合等操作不斷向更有效、更復(fù)雜的融合方式發(fā)展.

        Zhang等[9]將MDNet應(yīng)用于RGB-T目標(biāo)跟蹤任務(wù),引入多模態(tài)數(shù)據(jù),提高跟蹤的魯棒性,具體算法結(jié)構(gòu)如圖5所示.算法首先使用一個(gè)雙流網(wǎng)絡(luò),分別提取RGB圖像特征和TIR圖像特征,再將兩種模態(tài)特征以級(jí)聯(lián)的方式融合,輸入特定域?qū)雍突貧w網(wǎng)絡(luò),獲得最終的跟蹤結(jié)果,在當(dāng)時(shí)取得優(yōu)于傳統(tǒng)RGB-T目標(biāo)跟蹤算法的結(jié)果.

        圖5 文獻(xiàn)[9]算法結(jié)構(gòu)圖

        為了充分挖掘不同模態(tài)圖像和層級(jí)特征包含的互補(bǔ)信息,Zhu等[10]提出DAPNet(Dense Feature Aggregation and Pruning Network),具體結(jié)構(gòu)如圖6所示.首先,設(shè)計(jì)密集聚合模塊,獲得兩種模態(tài)圖像的魯棒特征表示.然后,設(shè)計(jì)特征剪枝模塊,選擇不同模態(tài)特征,減少冗余特征和干擾信息的影響.在特征剪枝模塊中,首先使用全局平均池化(Global Average Pooling, GAP)操作,獲得每個(gè)特征通道的激活狀態(tài),再使用WRS(Weighted Random Samp-ling)[25]進(jìn)行通道選擇.剪枝特征同樣被分別用于分類任務(wù)和回歸任務(wù).

        圖6 DAPNet結(jié)構(gòu)圖[10]

        Zhang等[23]基于注意力機(jī)制和競(jìng)爭(zhēng)學(xué)習(xí)策略,提出MaCNet(RGB-T Object Tracking Algorithm Based on a Modal-Aware Attention Network and Competitive Learning).不同于上述算法采用雙流網(wǎng)絡(luò)提取多模態(tài)特征,MaCNet為三分支結(jié)構(gòu),具體如圖7所示.首先,使用雙流網(wǎng)絡(luò)分別提取RGB圖像特征和TIR圖像特征.然后,使用模態(tài)感知注意力層,生成不同層級(jí)內(nèi)不同模態(tài)特征的權(quán)重,在跨模態(tài)特征融合層內(nèi)采用加權(quán)融合的方式獲得融合特征,并將融合特征逐層加入RGB特征提取分支和TIR特征提取分支.最終,級(jí)聯(lián)雙流網(wǎng)絡(luò)的輸出特征用于分類和回歸任務(wù).

        圖7 MaCNet結(jié)構(gòu)圖[23]

        模態(tài)感知注意力層由一層平均池化層、兩層全連接層和一層ReLU層組成,輸入級(jí)聯(lián)的多模態(tài)圖像后預(yù)測(cè)得到所有特征層的模態(tài)權(quán)重.此外,分類網(wǎng)絡(luò)使用3個(gè)并行分類層,分別用于RGB特征分支、TIR特征分支和融合特征分支,并通過(guò)構(gòu)建競(jìng)爭(zhēng)學(xué)習(xí)損失函數(shù),引導(dǎo)網(wǎng)絡(luò)向多模態(tài)合作互補(bǔ)的方向優(yōu)化.具體地,首先使用交叉熵?fù)p失函數(shù)分別計(jì)算3個(gè)分支的損失函數(shù)LFUS、LRGB和LTIR,再融合分支增加懲罰項(xiàng)的損失函數(shù):

        LF=LFUS+max(LFUS-LRGB,LFUS-LTIR).

        同時(shí),RGB特征分支和TIR特征分支也使用融合分支作為競(jìng)爭(zhēng)者,RGB分支損失函數(shù)或紅外分支損失函數(shù)為:

        其中M∈(RGB,TIR).通過(guò)競(jìng)爭(zhēng)學(xué)習(xí)的策略,網(wǎng)絡(luò)在訓(xùn)練中向充分利用多模態(tài)圖像互補(bǔ)信息的方向上優(yōu)化.Mei等[26]指出兩種模態(tài)圖像特征的充分交互能夠進(jìn)一步挖掘多模態(tài)數(shù)據(jù)內(nèi)的互補(bǔ)信息,進(jìn)而提升跟蹤的魯棒性,為此提出HDINet(Hierarchical Dual-Sensor Interaction Network),在不同層級(jí)內(nèi)使用互注意力機(jī)制,將一種模態(tài)內(nèi)的關(guān)聯(lián)特征補(bǔ)充到另一種模態(tài)特征內(nèi),實(shí)現(xiàn)不同模態(tài)特征的信息交互.

        上述RGB-T目標(biāo)跟蹤算法采用離線訓(xùn)練的靜態(tài)卷積操作,不能以動(dòng)態(tài)濾波的方式處理測(cè)試數(shù)據(jù),Wang等[27]指出這可能導(dǎo)致次優(yōu)的跟蹤結(jié)果.因此,文獻(xiàn)[27]提出MFGNet(Dynamic Modality-Aware Filter Generation Network),使用在線訓(xùn)練方式預(yù)測(cè)每個(gè)輸入數(shù)據(jù)的特定卷積核,促進(jìn)不同模態(tài)之間的交流.首先,使用一個(gè)單流網(wǎng)絡(luò),獲取每個(gè)模態(tài)圖像的單模態(tài)特征.再級(jí)聯(lián)RGB特征和TIR特征,送入兩個(gè)獨(dú)立的模態(tài)感知濾波器生成網(wǎng)絡(luò),預(yù)測(cè)模態(tài)特有的卷積核.然后,進(jìn)行動(dòng)態(tài)卷積運(yùn)算,得到模態(tài)特有特征.最后,兩種模態(tài)特有特征以級(jí)聯(lián)的方式融合,獲取最終的多模態(tài)融合特征,用于分類和回歸任務(wù).

        在RGB數(shù)據(jù)和TIR數(shù)據(jù)中都包含部分低質(zhì)量信息,而這些低質(zhì)量信息中不僅包含大量的噪聲信息,而且還包含一些具有鑒別力的特征.然而,低質(zhì)量信息的潛力并沒(méi)有在上述算法中得到較好的探索.為了解決該問(wèn)題,在MANet(Multi-adapter Con-volutional Network)[28]的基礎(chǔ)上,Lu等[24]提出DMC- Net(Duality-Gated Mutual Condition Network),充分利用所有模態(tài)內(nèi)的鑒別信息,同時(shí)抑制干擾噪聲的影響.

        DMCNet在融合過(guò)程中,以一個(gè)模態(tài)特征的目標(biāo)信息作為參考,指導(dǎo)另一個(gè)模態(tài)特征的學(xué)習(xí).DMCNet模塊包括RGB特征到TIR特征調(diào)制和TIR特征到RGB特征調(diào)制兩個(gè)方向,具體結(jié)構(gòu)如圖8所示.

        圖8 DMCNet模塊結(jié)構(gòu)[24]

        G=σ(Conv(f)),

        其中,f表示輸入特征,σ(·)表示Sigmoid激活函數(shù),Conv(·)表示1×1卷積層.

        RGB特征到TIR特征調(diào)制可以表示為

        其中,⊙表示逐像素相乘操作,G1和G2表示兩個(gè)抑制多尺度條件噪聲和融合特征的門(mén)控模塊,

        在TIR特征到RGB特征調(diào)制中生成.

        此外,DMCNet還根據(jù)幀間的光流判斷是否出現(xiàn)攝像機(jī)位移,從而設(shè)置重采樣策略,提高跟蹤的魯棒性.多模態(tài)圖像內(nèi)的全局上下文關(guān)系在區(qū)分目標(biāo)與干擾物時(shí)具有重要作用.為了挖掘多模態(tài)數(shù)據(jù)內(nèi)的全局上下文關(guān)系,Mei等[29]提出AGMINet(Asy-mmetric Global-Local Mutual Integration Network),在多模態(tài)特征融合階段,設(shè)計(jì)全局-局部交互模塊,用于挖掘多模態(tài)數(shù)據(jù)之間的全局上下文關(guān)系,并聚合全局關(guān)聯(lián)信息與局部特征.

        與AGMINet相似,Mei等[30]提出DRGCNet(Differential Reinforcement and Global Collabo-ration Network),旨在同時(shí)挖掘模態(tài)內(nèi)和模態(tài)間的全局上下文關(guān)系,并使用自適應(yīng)權(quán)重融合模態(tài)內(nèi)和模態(tài)間的上下文信息.

        2.1.2基于多模態(tài)特征表示的方法

        一些基于MDNet的RGB-T目標(biāo)跟蹤算法關(guān)注點(diǎn)在特征提取階段,重點(diǎn)提高不同模態(tài)圖像的特征表征能力,從而提升跟蹤性能[28,31-32].

        Li等[28]指出,大部分工作主要通過(guò)引入模態(tài)權(quán)值以實(shí)現(xiàn)自適應(yīng)多模態(tài)特征融合.雖然這些方法可以有效利用模態(tài)特性,但忽略模態(tài)共享線索和實(shí)例感知信息的潛在價(jià)值.事實(shí)上,RGB模態(tài)和TIR模態(tài)包含大量共有信息,包括目標(biāo)邊界和部分細(xì)粒度紋理.同時(shí),也存在一些模態(tài)特有信息,如TIR圖像的熱輻射信息和RGB圖像的顏色信息.為此,Li等[28]提出MANet,用于RGB-T目標(biāo)跟蹤.MANet包含3種適配器:通用適配器(Generality Adapter, GA)、模態(tài)適配器(Modality Adapter, MA)、實(shí)例適配器(Instance Adapter, IA).MANet結(jié)構(gòu)如圖9所示.

        MANet使用VGG-M[33]構(gòu)建單流網(wǎng)絡(luò),GA分別提取RGB模態(tài)和TIR模態(tài)的共有信息,網(wǎng)絡(luò)共有3層,卷積核大小分別為7×7×96、5×5×256、3×3×512.GA在有效性和效率之間進(jìn)行良好協(xié)調(diào).GA考慮到RGB圖像和TIR圖像存在的模態(tài)差異,MA設(shè)計(jì)與GA并行的雙流網(wǎng)絡(luò),提取模態(tài)特有信息.MA使用相對(duì)GA卷積核更小的卷積層提取特征,卷積核大小分別為3×3×96、1×1×256、1×1×512.IA使用MDNet[19]的特定域?qū)咏D硞€(gè)對(duì)象的外觀屬性.

        圖9 MANet結(jié)構(gòu)圖[28]

        在MANet的基礎(chǔ)上,LU等[31]提出MANet++.首先,設(shè)計(jì)HD loss(Hierarchical Divergence Loss),提高GA和MA輸出特征的差異,從而更好地挖掘模態(tài)特有信息和模態(tài)共有信息.然后,為了實(shí)現(xiàn)不同模態(tài)特征的質(zhì)量感知融合,在IA中設(shè)計(jì)動(dòng)態(tài)融合模塊,預(yù)測(cè)模態(tài)權(quán)重.最后,將基線跟蹤算法由MDNet[19]替換為運(yùn)行速度更快的RT-MDNet[21],大幅提升運(yùn)行速度.

        Xu等[32]指出多層級(jí)深度特征在目標(biāo)定位和分類中起著重要作用.如何有效地聚合來(lái)自不同層級(jí)的RGB特征和TIR特征是實(shí)現(xiàn)魯棒目標(biāo)跟蹤的關(guān)鍵.然而,大多數(shù)RGB-T目標(biāo)跟蹤算法僅使用特征提取網(wǎng)絡(luò)最后一層的語(yǔ)義信息,或使用簡(jiǎn)單的操作(如求和、級(jí)聯(lián))從每個(gè)模態(tài)聚合多層級(jí)深度特征,從而限制多層級(jí)特征的有效性.

        為此,Xu等[32]提出CBPNet(Quality-Aware Cross-Layer Bilinear Pooling Network),用于RGB-T目標(biāo)跟蹤.首先,使用通道注意力機(jī)制[34],在實(shí)現(xiàn)分層特征融合之前,對(duì)所有卷積層特征實(shí)現(xiàn)特征通道的自適應(yīng)標(biāo)定.然后,通過(guò)交叉積對(duì)任意兩層特征進(jìn)行雙線性池化操作.兩層特征相互作用后的雙線性特征表示為:

        bAB=FA×FB,

        其中,FA∈RH×W×N和FB∈RH×W×N表示2個(gè)經(jīng)過(guò)通道注意力機(jī)制以及分辨率調(diào)整后的層級(jí)特征.

        雙線性特征矩陣bAB沿列池化的結(jié)果為:

        最終的融合特征由對(duì)ξAB執(zhí)行平方根操作和L2歸一化操作得到.這是一種二階計(jì)算,可有效聚合目標(biāo)的深層語(yǔ)義信息和淺層紋理信息.

        Li等[35]同樣研究如何更好地挖掘兩種模態(tài)內(nèi)的多層級(jí)特征,提出MBAFNet(Multibranch Adap-tive Fusion Network).該網(wǎng)絡(luò)在使用一個(gè)單流特征提取網(wǎng)絡(luò)挖掘多模態(tài)共有信息的基礎(chǔ)上,設(shè)計(jì)兩個(gè)并行的多層級(jí)適配器,分別挖掘兩種模態(tài)圖像的多層級(jí)特征.具體地,在每個(gè)多層級(jí)適配器內(nèi),使用不同卷積核大小的卷積層獲取多尺度特征,并使用注意力機(jī)制聚合多尺度特征.

        為了挖掘多尺度的模態(tài)共有信息和模態(tài)特有信息并抑制目標(biāo)預(yù)測(cè)框漂移,Xia等[36]提出CIRNet(Cross-Modality Interaction and Re-identification Network).該網(wǎng)絡(luò)由多尺度模態(tài)共有融合網(wǎng)絡(luò)和模態(tài)互補(bǔ)網(wǎng)絡(luò)構(gòu)成,分別挖掘多尺度模態(tài)共有信息和模態(tài)特有信息;同時(shí)設(shè)計(jì)一個(gè)目標(biāo)感知分支評(píng)估目標(biāo)框質(zhì)量,從而抑制目標(biāo)框漂移現(xiàn)象.

        2.1.3基于多模態(tài)特征表示-融合聯(lián)合的方法

        多個(gè)基于MDNet的RGB-T跟蹤算法同時(shí)考慮多模態(tài)特征融合和特征表示問(wèn)題[12-13,37],在兩個(gè)優(yōu)化方向上同時(shí)進(jìn)行改進(jìn)以改善跟蹤性能.

        Gao等[13]提出DAFNet(Deep Adaptive Fusion Network),遞歸自適應(yīng)聚合不同層級(jí)和不同模態(tài)特征,使用雙流網(wǎng)絡(luò)提取RGB特征和TIR特征,并設(shè)計(jì)AFM(Adaptive Fusion Module),用于每一層級(jí)的特征融合,預(yù)測(cè)RGB特征、TIR特征和上一層級(jí)特征權(quán)重,實(shí)現(xiàn)加權(quán)相加融合.DAFNet結(jié)構(gòu)如圖10所示,能高效、自適應(yīng)地聚合來(lái)自所有層的RGB特征和TIR特征.

        圖10 DAFNet結(jié)構(gòu)圖[13]

        在DAPNet[10]的基礎(chǔ)上,Zhu等[37]設(shè)計(jì)TFNet(Trident Fusion Network),保留DAPNet的密集聚合網(wǎng)絡(luò),并加入三分支結(jié)構(gòu),聚合融合特征、RGB特征及TIR特征.并且每個(gè)分支內(nèi)都加入特征剪枝模塊,剪除冗余特征,避免網(wǎng)絡(luò)過(guò)擬合問(wèn)題.

        Zhu等[12]提出FANet(Quality-Aware Feature Aggregation Network),指出挖掘多層級(jí)特征的重要性.FANet在每個(gè)模態(tài)中聚集多層級(jí)特征,處理由低光照、變形、背景雜波和遮擋引發(fā)的外觀顯著變化的挑戰(zhàn).Zhu等[12]還設(shè)計(jì)自適應(yīng)聚合子網(wǎng)絡(luò),根據(jù)不同模態(tài)的可靠性聚合特征,能夠緩解低質(zhì)量源引入的噪聲影響.自適應(yīng)聚合子網(wǎng)絡(luò)使用全連接層和Softmax激活層生成不同模態(tài)和不同層級(jí)特征的權(quán)重,實(shí)現(xiàn)特征融合.

        2.1.4基于屬性驅(qū)動(dòng)的方法

        上述基于MDNet的RGB-T目標(biāo)跟蹤算法未考慮目標(biāo)在不同場(chǎng)景屬性下的外觀變化,可能會(huì)限制跟蹤性能.在RGB跟蹤領(lǐng)域,Qi等[38]設(shè)計(jì)基于屬性表示的CNN模型,用于目標(biāo)跟蹤.受此啟發(fā),一些基于MDNet的RGB-T目標(biāo)跟蹤算法嘗試?yán)脭?shù)據(jù)集上不同場(chǎng)景的屬性標(biāo)注,使跟蹤器學(xué)習(xí)不同屬性下的魯棒特征表示.

        Li等[39]提出CAT(Challenge-Aware RGBT Tra-cker),是第一個(gè)考慮場(chǎng)景屬性的RGB-T目標(biāo)跟蹤算法,具體結(jié)構(gòu)如圖11所示.CAT將已有的RGB-T跟蹤數(shù)據(jù)集上的場(chǎng)景屬性劃分為如下5類:光照變化(Illumination Variation, IV)、快速移動(dòng)(Fast Motion, FM)、尺度變化(Scale Variation, SV)、遮擋(Occlusion, OCC)和熱交叉(Thermal Crossover, TC).可以發(fā)現(xiàn)一些屬性是模態(tài)無(wú)關(guān)的,包括快速移動(dòng)、尺度變化和遮擋,而一些屬性是模態(tài)相關(guān)的,包括熱交叉和光照變化.對(duì)于熱交叉屬性的場(chǎng)景,RGB數(shù)據(jù)較可靠,而對(duì)于光照變化屬性的場(chǎng)景,TIR數(shù)據(jù)較有效.

        圖11 CAT結(jié)構(gòu)圖[39]

        基于上述觀察,對(duì)于模態(tài)共有挑戰(zhàn),CAT使用相同的卷積分支提取目標(biāo)的外觀表征.對(duì)于模態(tài)特有挑戰(zhàn),設(shè)計(jì)一個(gè)引導(dǎo)模塊,將一個(gè)模態(tài)具有辨別力的特征補(bǔ)充到另一個(gè)模塊內(nèi),同時(shí)避免噪聲信息的傳播.具體地,在熱交叉屬性中,RGB特征使用門(mén)控引導(dǎo)變換層增強(qiáng)TIR模態(tài)的識(shí)別能力,在光照變化屬性中,TIR特征使用門(mén)控引導(dǎo)變換層增強(qiáng)RGB模態(tài)的識(shí)別能力.并使用自適應(yīng)聚合層(Adaptive Aggregation Layer, AAL)聚合多種屬性特征.

        Zhang等[40]指出以往的工作主要是利用有限的屬性建立屬性特定模型,無(wú)法覆蓋所有的跟蹤場(chǎng)景.CAT僅使用一個(gè)通用的分支處理屬性不可知的跟蹤場(chǎng)景,算法實(shí)現(xiàn)較冗余,遠(yuǎn)不能達(dá)到實(shí)時(shí)的運(yùn)行速度,為此Zhang等[40]提出ADRNet(Attribute-Dri-ven Representation Network),具體結(jié)構(gòu)如圖12所示.

        首先,根據(jù)RGB-T跟蹤場(chǎng)景中的外觀變化,將主要挑戰(zhàn)和特殊挑戰(zhàn)分為4個(gè)典型屬性: 極端光照(Extreme Illumination, EI)、遮擋(OCC)、運(yùn)動(dòng)模糊(Motion Blur, MB)和熱交叉(TC).再為每個(gè)屬性設(shè)計(jì)一個(gè)ADRB(Attribute Driven Residual Branch),挖掘?qū)傩蕴囟ǖ奶卣?然后,利用AENet(Attribute Ensemble Network),將這些特征表示在通道和像素級(jí)別上進(jìn)行聚合,適應(yīng)屬性不可知的跟蹤過(guò)程.屬性集成網(wǎng)絡(luò)內(nèi)包含一個(gè)CENet(Channel Ensemble Network),預(yù)測(cè)不同屬性特征的通道權(quán)重.同時(shí)包含一個(gè)SENet(Spatial Ensemble Network),在空間維度上強(qiáng)調(diào)目標(biāo)區(qū)域特征并抑制干擾區(qū)域響應(yīng).通道權(quán)重和空間權(quán)重將以逐元素相乘的方式生成3D權(quán)重,用于多種屬性特征的聚合.

        圖12 ADRNet結(jié)構(gòu)圖[40]

        Xiao等[41]通過(guò)場(chǎng)景屬性分解融合過(guò)程,提出APFNet(Attribute-Based Progressive Fusion Net-work),以較少的參數(shù)提高融合有效性,同時(shí)減少對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)的依賴.

        APFNet首先為每個(gè)屬性設(shè)計(jì)融合分支,學(xué)習(xí)屬性特有的融合權(quán)重.具體地,將所有跟蹤場(chǎng)景歸類為光照變化(IV)、快速移動(dòng)(FM)、尺度變化(SV)、遮擋(OCC)和熱交叉(TC)5種屬性,對(duì)每種屬性特定的融合分支,使用一個(gè)參數(shù)較少的模型實(shí)現(xiàn)融合,減少對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)的需要.然后,設(shè)計(jì)聚合融合網(wǎng)絡(luò),聚合每個(gè)屬性分支的所有融合特征.最后,設(shè)計(jì)基于Transformer的特征增強(qiáng)模塊,增強(qiáng)聚合特征和模態(tài)特有特征.

        具體地,使用3個(gè)Transformer塊中的編碼器分別對(duì)兩種模態(tài)特有特征和聚合特征進(jìn)行自注意力增強(qiáng),使用2個(gè)Transformer塊中的解碼器用于聚合特征和模態(tài)特有特征的交互增強(qiáng).

        2.1.5其它方法

        Wang等[42]發(fā)現(xiàn)兩種模態(tài)圖像之間的模式相關(guān)關(guān)系廣泛存在,并且由于視頻序列的連續(xù)性,相同的模式會(huì)在相鄰幀中反復(fù)出現(xiàn).基于上述觀察,設(shè)計(jì)CMPP(Cross-Modal Pattern-Propagation),用于模態(tài)間和幀間的模式傳播,具體結(jié)構(gòu)如圖13所示.設(shè)計(jì)IMPP(Intermodal Pattern-Propagation)模塊,在兩模態(tài)間相互傳播相關(guān)模式,減少不同模態(tài)特征的差異.具體地,在每個(gè)模態(tài)內(nèi)采用自注意力機(jī)制[43],計(jì)算每個(gè)像素點(diǎn)與其它像素點(diǎn)的關(guān)聯(lián),得到模態(tài)內(nèi)親和性矩陣.再將兩模態(tài)的親和性矩陣逐像素相乘,獲得模態(tài)間關(guān)系矩陣,實(shí)現(xiàn)模態(tài)間的模式傳播.考慮到目標(biāo)跟蹤任務(wù)中歷史幀有利于目標(biāo)定位,CMPP設(shè)計(jì)LTCP(Longterm Context Propagation),自適應(yīng)利用歷史幀信息.

        圖13 CMPP結(jié)構(gòu)圖[42]

        Tu等[44]指出,在跟蹤過(guò)程中對(duì)困難樣本進(jìn)行分類是一個(gè)很具有挑戰(zhàn)性的問(wèn)題.現(xiàn)有方法僅僅關(guān)注于區(qū)分正樣本和負(fù)樣本,而忽略對(duì)困難樣本的魯棒分類.

        為此,Tu等[44]提出M5L(Multi-modal Multi-margin Metric Learning Framework), 將所有樣本分為普通正樣本、普通負(fù)樣本、困難負(fù)樣本、困難正樣本四類.并設(shè)計(jì)Multi-modal Multi-margin Structural Loss,在訓(xùn)練階段保留不同種類樣本的關(guān)系,利于不同種類樣本之間的關(guān)系,提高特征嵌入的魯棒性.同時(shí)設(shè)計(jì)基于注意力機(jī)制的多模態(tài)特征融合模塊,生成模態(tài)權(quán)重,用于加權(quán)融合多模態(tài)圖像特征.

        2.2 基于判別式相關(guān)濾波的目標(biāo)跟蹤算法

        判別式相關(guān)濾波算法的原理是兩個(gè)相關(guān)信號(hào)的響應(yīng)大于不相關(guān)信號(hào).在目標(biāo)跟蹤中,濾波器只對(duì)感興趣的目標(biāo)產(chǎn)生高響應(yīng),對(duì)背景產(chǎn)生低響應(yīng).所以目標(biāo)跟蹤任務(wù)可以近似地視為對(duì)搜索圖像使用依據(jù)目標(biāo)特征設(shè)計(jì)的濾波器進(jìn)行相關(guān)濾波,輸出響應(yīng)圖的最大值位置就是目標(biāo)位置.在近期工作中,相關(guān)濾波算法的建模方式被廣泛應(yīng)用于基于深度學(xué)習(xí)的目標(biāo)跟蹤框架中.

        Bhat等[45]提出DiMP,具體結(jié)構(gòu)如圖14所示.DiMP使用離線訓(xùn)練預(yù)測(cè)真實(shí)框與預(yù)測(cè)框之間的交并比(Intersection over Union, IoU)分?jǐn)?shù),并在測(cè)試階段通過(guò)梯度上升優(yōu)化進(jìn)行目標(biāo)框確定.同時(shí),采用共軛梯度策略結(jié)合深度學(xué)習(xí)框架進(jìn)行快速優(yōu)化,對(duì)分類器進(jìn)行參數(shù)更新,提高目標(biāo)跟蹤算法的判別力.

        Zhang等[14]提出mfDiMP,引入DiMP作為基線跟蹤算法,研究不同層次的融合機(jī)制,尋找最優(yōu)的融合方法,包括早期融合、中期融合和晚期融合.早期融合將RGB圖像和TIR圖像沿通道方向進(jìn)行級(jí)聯(lián),再將級(jí)聯(lián)的 RGB-T 圖像輸入特征提取網(wǎng)絡(luò)中.中期融合分別對(duì)RGB圖像和TIR圖像進(jìn)行特征提取,再對(duì)RGB特征和TIR特征進(jìn)行級(jí)聯(lián),并將級(jí)聯(lián)特征輸入分類預(yù)測(cè)網(wǎng)絡(luò)和回歸預(yù)測(cè)網(wǎng)絡(luò)中.晚期融合將使用結(jié)構(gòu)相同但參數(shù)不同的特征提取網(wǎng)絡(luò)、分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)分別處理RGB圖像和TIR圖像,再對(duì)兩個(gè)模態(tài)的響應(yīng)圖進(jìn)行求和,獲得融合響應(yīng)圖確定目標(biāo)位置.最終,mfDiMP采用中期融合的方式取得最優(yōu)的跟蹤效果.mfDiMP結(jié)構(gòu)如圖15所示.

        圖14 DiMP結(jié)構(gòu)圖[45]

        圖15 mfDiMP結(jié)構(gòu)圖[14]

        此外,針對(duì)缺乏大規(guī)模訓(xùn)練數(shù)據(jù)集用于離線訓(xùn)練的問(wèn)題,mfDiMP使用pix2pix[46]在RGB目標(biāo)跟蹤數(shù)據(jù)集GOT10K[47]上生成合成的RGB-T數(shù)據(jù)集,并用于模型訓(xùn)練.

        Zhao等[48]提出CEDiMP(Channel Exchaning DiMP),基于通道動(dòng)態(tài)交換的融合方式,增強(qiáng)多模態(tài)特征表示.具體來(lái)說(shuō),利用批歸一化(Batch Norma-lization, BN)[49]的尺度因子衡量每個(gè)對(duì)應(yīng)通道的重要性.如果當(dāng)前模態(tài)某一通道對(duì)應(yīng)的比例因子接近于零,則使用另一模態(tài)對(duì)應(yīng)的通道值替換當(dāng)前通道值.針對(duì)缺乏訓(xùn)練數(shù)據(jù)集的問(wèn)題,同樣使用圖像轉(zhuǎn)換模型[46],生成一個(gè)用于長(zhǎng)時(shí)跟蹤器訓(xùn)練的RGB-T數(shù)據(jù)集LaSOT-RGBT[50].借助于LaSOT-RGBT數(shù)據(jù)集,提高跟蹤器應(yīng)對(duì)長(zhǎng)時(shí)跟蹤中典型挑戰(zhàn)的能力和泛化能力.

        Zhang等[51]提出HMFT(Hierarchical Multi-modal Fusion Tracker),以便同時(shí)挖掘中期融合和晚期融合的潛力.設(shè)計(jì)CIF(Complementary Image Fusion)模塊,學(xué)習(xí)兩種模態(tài)內(nèi)的共有模式.設(shè)計(jì)DFF(Discriminative Feature Fusion)模塊,融合多模態(tài)圖像特征.設(shè)計(jì)ADF(Adaptive Decision Fu-sion)模塊,從互補(bǔ)分類器和判別式分類器中選擇最終的分類結(jié)果.HMFT具體結(jié)構(gòu)如圖16所示.在CIF模塊中,使用單流網(wǎng)絡(luò)提取RGB圖像和TIR圖像的共有特征,并引入KL散度損失函數(shù)約束兩種模態(tài)的特征分布.在DFF模塊中,使用雙流特征網(wǎng)絡(luò)挖掘RGB圖像和TIR圖像的特有特征,預(yù)測(cè)不同模態(tài)特征的通道權(quán)重,并進(jìn)行加權(quán)融合,獲取互補(bǔ)信息.在ADF模塊中,根據(jù)兩種響應(yīng)得分的模態(tài)置信度進(jìn)行響應(yīng)圖融合,獲取最終的分類結(jié)果.并且,根據(jù)LTMU[52]跟蹤框架,建立長(zhǎng)時(shí)跟蹤版本HMFT_LT,用于長(zhǎng)時(shí)RGB-T目標(biāo)跟蹤.

        圖16 HMFT結(jié)構(gòu)圖[51]

        盡管上述算法研究多種融合方式以挖掘多模態(tài)數(shù)據(jù)內(nèi)的互補(bǔ)信息,但都忽略多模態(tài)特征存在的模態(tài)差異,直接使用RGB特征和TIR特征進(jìn)行特征融合,從而丟失多模態(tài)數(shù)據(jù)內(nèi)部分有效信息.為此,Zhang等[53]提出MFNet,設(shè)計(jì)MDC(Modality Diffe-rence Compensation Module)模塊,衡量RGB特征與TIR特征之間的差異信息,并進(jìn)行跨模態(tài)特征增強(qiáng),縮小RGB特征與TIR特征之間的模態(tài)差異.此外,為了避免某一模態(tài)數(shù)據(jù)包含大量噪聲信息時(shí)降低融合特征的表征能力,還提出FRS(Feature Re-selection Module)模塊,對(duì)多模態(tài)融合特征和單模態(tài)特征進(jìn)行自適應(yīng)選擇,獲取辯別力較高的特征,用于后續(xù)跟蹤任務(wù).

        大多數(shù)RGB-T目標(biāo)跟蹤算法主要利用目標(biāo)的外觀信息進(jìn)行跟蹤,對(duì)目標(biāo)的軌跡信息研究較少.Zhang等[54]指出,目標(biāo)的運(yùn)動(dòng)信息對(duì)于目標(biāo)準(zhǔn)確定位也非常重要,特別是當(dāng)目標(biāo)外觀信息不可靠(如目標(biāo)被遮擋或攝像機(jī)移動(dòng)導(dǎo)致運(yùn)動(dòng)模糊等跟蹤場(chǎng)景)時(shí),僅根據(jù)目標(biāo)外觀特征難以定位目標(biāo),而目標(biāo)的運(yùn)動(dòng)信息可輔助推斷目標(biāo)位置.據(jù)此,Zhang等[54]設(shè)計(jì)JMMAC(Jointly Modeling Motion and Appea-rance Cues).JMMAC在ECO(Efficient Convolution Operators)[55]的基礎(chǔ)上實(shí)現(xiàn),外觀模型采用生成融合權(quán)重的晚期融合策略融合響應(yīng)圖,該外觀模型采用離線訓(xùn)練的方式直接用于跟蹤,無(wú)需在線微調(diào)參數(shù).

        目標(biāo)運(yùn)動(dòng)預(yù)測(cè)網(wǎng)絡(luò)采用卡爾曼濾波跟蹤器,根據(jù)目標(biāo)運(yùn)動(dòng)信息預(yù)測(cè)目標(biāo)在當(dāng)前幀的位置.考慮到外觀信息在大多數(shù)場(chǎng)景上更可靠,設(shè)計(jì)轉(zhuǎn)換模塊,判斷采用外觀模型還是運(yùn)動(dòng)模型.該模塊主要根據(jù)外觀模型的預(yù)測(cè)可靠性和可變形的DDIS(Deformable Diversity Similarity)[56]計(jì)算得到的相似度得分自適應(yīng)切換使用外觀線索和運(yùn)動(dòng)線索.在獲取目標(biāo)跟蹤框后,考慮到ECO采用的多尺度搜索策略回歸精度有限,使用YOLOv2[57],在RGB圖像上對(duì)目標(biāo)包圍框進(jìn)行進(jìn)一步細(xì)化回歸.

        2.3 基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤方法

        自2016年孿生網(wǎng)絡(luò)(Siamese Network)首次應(yīng)用于目標(biāo)跟蹤任務(wù)之后[58],基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法迅速發(fā)展為目標(biāo)跟蹤任務(wù)中的主流算法之一.該算法將目標(biāo)跟蹤視為模板匹配任務(wù),通過(guò)尋找和第一幀模板最相似的候選區(qū)域進(jìn)行目標(biāo)定位.由于孿生跟蹤算法的前景、背景判別能力是通過(guò)離線階段大量數(shù)據(jù)訓(xùn)練得到的,不需要模型的在線更新,因此具有極為出色的跟蹤效率.考慮到孿生網(wǎng)絡(luò)在RGB目標(biāo)跟蹤上的成功應(yīng)用,一些工作[59-62]嘗試將孿生網(wǎng)絡(luò)引入RGB-T目標(biāo)跟蹤中,用于提升計(jì)算效率.

        孿生網(wǎng)絡(luò)定義為包含兩個(gè)相同網(wǎng)絡(luò)分支(參數(shù)共享)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通常用于度量?jī)煞种л斎氲南嗨菩?Bertinetto等[58]提出SiamFC(Siamese Fully-Convolutional Network),具體結(jié)構(gòu)如圖17所示.SiamFC上層分支z表示目標(biāo)模板圖像,由視頻序列第1幀給定的目標(biāo)區(qū)域生成.下層分支的輸入是當(dāng)前幀搜索區(qū)域,x表示搜索區(qū)域內(nèi)部不同的目標(biāo)候選圖像.z和x經(jīng)過(guò)相同的特征映射操作φ將原始圖像映射到特征空間,得到具有相同通道數(shù)的特征向量,最后經(jīng)過(guò)互相關(guān)操作得到響應(yīng)圖.其中,各個(gè)位置的值表示不同目標(biāo)候選圖像與目標(biāo)模板圖像的相似度,通過(guò)取最大值選擇最相似目標(biāo)候選區(qū)域,完成目標(biāo)定位跟蹤.圖17中特征映射操作φ由卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),并且兩個(gè)分支中φ具有相同的網(wǎng)絡(luò)結(jié)構(gòu),因此稱為孿生網(wǎng)絡(luò).而且在SiamFC中網(wǎng)絡(luò)結(jié)構(gòu)只包含卷積層和池化層,因此也是一種典型的全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese Network).

        圖17 SiamFC結(jié)構(gòu)圖[58]

        Zhang等[63]提出SiamFT(RGB-Infrared Fusion Tracking Method Based on Fully Convolutional Sia- mese Networks),使用兩個(gè)并行的孿生網(wǎng)絡(luò)分別提取RGB圖像特征和紅外圖像特征,并手工設(shè)計(jì)生成模態(tài)權(quán)重的方法,用于多模態(tài)特征融合.具體地,RGB分支和TIR分支分別使用互相關(guān)操作,得到RGB響應(yīng)得分圖RRGB和TIR響應(yīng)得分圖RTIR.基于模態(tài)可靠性越高、響應(yīng)得分越高的假設(shè),選擇每個(gè)模態(tài)的響應(yīng)最大值作為模態(tài)權(quán)重,同時(shí)考慮到目標(biāo)在幀間的平滑運(yùn)動(dòng)假設(shè),對(duì)兩幀間目標(biāo)位移過(guò)大的模態(tài)加入懲罰系數(shù).隨后,對(duì)兩種模態(tài)權(quán)重進(jìn)行歸一化處理,獲取最終的融合響應(yīng)圖.

        Zhang等[59]提出DSiamMFT(Dynamic Siamese Networks with Multi-layer Fusion),設(shè)計(jì)基于動(dòng)態(tài)孿生網(wǎng)絡(luò)[60]的RGB-T跟蹤器,在互相關(guān)操作前采用級(jí)聯(lián)的融合方式融合多模態(tài)特征.盡管基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法達(dá)到更快的運(yùn)行速度,但其跟蹤性能與最優(yōu)的多模態(tài)跟蹤算法仍存在很大差距.并且,由于缺乏大規(guī)模的RGB-T目標(biāo)跟蹤數(shù)據(jù)集,已有的基于孿生網(wǎng)絡(luò)的算法只能使用RGB目標(biāo)跟蹤數(shù)據(jù)集進(jìn)行訓(xùn)練,無(wú)法充分利用RGB-T數(shù)據(jù)的互補(bǔ)信息.

        針對(duì)基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法與目前先進(jìn)的跟蹤算法性能存在巨大差距的問(wèn)題,Zhang等[61]提出SiamCDA(Complementarity-and Distractor-Aware RGB-T Tracker Based on Siamese Network),結(jié)構(gòu)如圖18所示.具體地,在融合階段,提出基于互補(bǔ)感知的RGB-T多模態(tài)特征融合模塊,使模型有選擇性地融合有效信息,增強(qiáng)模型的辨別力.在候選框選擇階段,提出基于干擾感知的候選框選擇模塊,提高跟蹤器對(duì)干擾物的魯棒性.最后,針對(duì)目前缺少大規(guī)模RGB-T多模態(tài)跟蹤數(shù)據(jù)集的問(wèn)題,提出語(yǔ)義感知的圖像生成方法,構(gòu)建大規(guī)模的RGB-T合成數(shù)據(jù)集.

        Kang等[64]認(rèn)為已有的算法從全局角度出發(fā)融合多模態(tài)特征,但是當(dāng)圖像中僅包含部分有效信息(如大范圍遮擋)時(shí),算法并未表現(xiàn)出良好的性能.因此,提出FS-Siamese(Four-Stream Oriented Sia-mese Network),使用一個(gè)四分支孿生結(jié)構(gòu),其中兩個(gè)分支用于嵌入不同模態(tài)的模板特征,另外兩個(gè)分支用于嵌入不同模態(tài)候選區(qū)域的特征.算法借鑒基于注意力的圖像雙線性池化方法,探索RGB圖像和TIR圖像部分特征的相互作用,以此確定正確的目標(biāo)區(qū)域.此外,還采用元學(xué)習(xí)更新雙線性池化的結(jié)果,通過(guò)在線更新的方式更好地區(qū)分目標(biāo)和背景.

        Transformer的單模態(tài)目標(biāo)跟蹤算法可顯著提升跟蹤性能.受此啟發(fā),Feng等[65]在TransT(Trans-former Tracking)[66]的基礎(chǔ)上,提出RWTransT(Re- liable Modal Weight with Transformer for Robust RGBT Tracking).首先,在淺層進(jìn)行多模態(tài)特征融合,再將融合后的特征送入TransT,獲取最終的跟蹤結(jié)果.借助強(qiáng)有力的基線跟蹤算法,顯著提升基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法性能,并保持實(shí)時(shí)的運(yùn)行速度.

        Yang等[67]考慮到目前仍缺乏多模態(tài)數(shù)據(jù)集的問(wèn)題,提出ProTrack(Multi-modal Prompt Tracker),將多模態(tài)輸入數(shù)據(jù)以提示范式(Prompt Paradigm)的方式生成單模態(tài)數(shù)據(jù),將此單模態(tài)數(shù)據(jù)輸入基于Transformer的目標(biāo)跟蹤算法中,獲取最終的跟蹤結(jié)果.值得注意的是,由于ProTrack在數(shù)據(jù)輸入階段進(jìn)行多模態(tài)數(shù)據(jù)融合,因此不需要使用RGB-T目標(biāo)跟蹤數(shù)據(jù)集進(jìn)行模型訓(xùn)練,而是使用大規(guī)模的RGB目標(biāo)跟蹤數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練.

        圖18 SiamCDA結(jié)構(gòu)圖[61]

        3 RGB-T目標(biāo)跟蹤數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        公開(kāi)的RGB-T目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)集將為RGB-T目標(biāo)跟蹤算法提供訓(xùn)練數(shù)據(jù)和性能評(píng)估.本文對(duì)2016年以來(lái)提出的RGB-T目標(biāo)跟蹤數(shù)據(jù)集進(jìn)行簡(jiǎn)要介紹,主要包括GTOT[68]、RGBT234[2]、LasHeR[69]和VTUAV[51]這4個(gè)數(shù)據(jù)集.其中,RGBT234數(shù)據(jù)集包含RGBT210[6]和VOT2019-RGBT[70]數(shù)據(jù)集.各數(shù)據(jù)集具體信息如表1所示.

        2016年,Li等[68]建立第1個(gè)標(biāo)準(zhǔn)的RGB-T目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)集——GTOT數(shù)據(jù)集,由50個(gè)RGB-T視頻序列組成.場(chǎng)景包括辦公區(qū)、公共道路、水池等.包括遮擋(OCC)、大尺度變化(Large Scale Vari-ation, LSV)、快速運(yùn)動(dòng)(FM)、低光照(Low Illu-mination, LI)、熱交叉(TC)、小物體(Small Object, SO)和形變(Deformation, DEF)7個(gè)視頻級(jí)別的場(chǎng)景性標(biāo)注.數(shù)據(jù)集上包含較多的小尺寸目標(biāo).

        2017年,Li等[6]建立RGBT210數(shù)據(jù)集,包含210個(gè)視頻序列,并引入更多的場(chǎng)景屬性用于評(píng)估算法性能.2019年,Li等[2]擴(kuò)充RGBT210數(shù)據(jù)集,得到RGBT234數(shù)據(jù)集,提供兩個(gè)模態(tài)下的真實(shí)框標(biāo)RGBT234數(shù)據(jù)集標(biāo)注12個(gè)視頻級(jí)別的場(chǎng)景屬性,包括無(wú)遮擋(No Occlusion, NO)、局部遮擋(Partial Occlusion, PO)、嚴(yán)重遮擋(Heavy Occlu- sion, HO)、低光照(LI)、低分辨率(Low Resolution, LR)、熱交叉(TC)、變形(DEF)、快速運(yùn)動(dòng)(FM)、尺度變化(SV)、運(yùn)動(dòng)模糊(MB)、相機(jī)移動(dòng)(Camera Moving, CM)和復(fù)雜背景(Background Clutter, BC).最長(zhǎng)的視頻序列約4 000 幀,整個(gè)數(shù)據(jù)集包含20萬(wàn)幀以上的RGB-T圖像.

        表1 公開(kāi)的RGB-T跟蹤基準(zhǔn)數(shù)據(jù)集信息

        注.2019年的VOT-RGBT競(jìng)賽[70]從RGBT234數(shù)據(jù)集上選取60 個(gè)視頻序列,建立VOT2019-RGBT數(shù)據(jù)集.

        GTOT、RGBT234數(shù)據(jù)集上部分示例及對(duì)應(yīng)場(chǎng)景屬性如圖19所示.

        2022年,Li等[69]建立大規(guī)模的RGB-T目標(biāo)跟蹤數(shù)據(jù)集——LasHeR數(shù)據(jù)集,共包含1 224個(gè)RGB-T視頻序列.在室內(nèi)外環(huán)境拍攝20多個(gè)具有不同特征的場(chǎng)景.為了進(jìn)一步提高目標(biāo)多樣性,跟蹤目標(biāo)類別共32種.LasHeR數(shù)據(jù)集在RGBT234數(shù)據(jù)集12個(gè)場(chǎng)景屬性的基礎(chǔ)上進(jìn)一步增加7個(gè)視頻級(jí)別的場(chǎng)景屬性,包括透明物體遮擋(Hyaline Occlusion, HO),高光照(High Illumination, HI),光照快速變化(Abrupt Illumination Variation, AIV),相似外觀(Similar Appearance, SA),縱橫比變化(Aspect Ratio Change, ARC),視線外(Out-of-View, OV)和缺失幀(Frame Lost, FL).劃分979個(gè)視頻序列作為訓(xùn)練數(shù)據(jù)集,剩余245個(gè)視頻序列作為測(cè)試數(shù)據(jù)集.透明物體遮擋時(shí)TIR圖像缺少目標(biāo)信息,而熱成像儀采用非均勻校正時(shí)會(huì)停止成像,從而造成部分TIR幀缺失.這兩種屬性的示例如圖20所示.

        (a)BlackCar(OCC,LSV,FM,LI) (b)BlackSwan1(LSV,TC,SO,DEF)

        (a)HO

        2022年,Zhang等[51]構(gòu)建高分辨率的無(wú)人機(jī)RGB-T目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)集——VTUAV數(shù)據(jù)集,是目前規(guī)模最大、分辨率最高的RGB-T目標(biāo)跟蹤數(shù)據(jù)集.VTUAV數(shù)據(jù)集包括長(zhǎng)時(shí)跟蹤、短時(shí)跟蹤和視頻目標(biāo)分割3種類型的任務(wù),由專業(yè)無(wú)人機(jī)(DJI Matrice 300 RTK)搭載Zenmuse H20T相機(jī)拍攝.考慮到已有數(shù)據(jù)集在道路、學(xué)校和安全監(jiān)控等場(chǎng)景下采集,場(chǎng)景數(shù)量和目標(biāo)類別有限,該工作在2個(gè)城市的15個(gè)場(chǎng)景下采集視頻,包括5大類(行人、交通工具、動(dòng)物、火車(chē)、船只)和15個(gè)子類的目標(biāo)類別.數(shù)據(jù)集采取稀疏標(biāo)注的方式(每隔10幀標(biāo)注一次),并逐幀標(biāo)注13個(gè)挑戰(zhàn)因素,包括目標(biāo)模糊、攝像機(jī)移動(dòng)、極端光照、變形、部分遮擋、完全遮擋、尺度變化、熱交叉、快速移動(dòng)、背景聚類、視野外、低分辨率和熱可見(jiàn)分離.VTUAV數(shù)據(jù)集共包含500個(gè)視頻序列,分辨率為1 920×1 080.將250個(gè)視頻序列作為訓(xùn)練數(shù)據(jù)集,剩余250個(gè)視頻序列作為測(cè)試數(shù)據(jù)集.并且提供100個(gè)像素級(jí)標(biāo)注的視頻序列(其中50個(gè)序列作為訓(xùn)練集,另外50個(gè)序列作為測(cè)試集),序列分割掩碼標(biāo)注示例如圖21所示.

        (a)序列1 (b)序列2

        3.2 評(píng)估指標(biāo)

        為了評(píng)估算法性能,本節(jié)介紹已有RGB-T目標(biāo)跟蹤算法使用的評(píng)估指標(biāo).

        1)精確率(Precision Rate, PR).精確率表示跟蹤算法預(yù)測(cè)的目標(biāo)框中心與標(biāo)注的目標(biāo)框中心之間的歐氏距離小于選定閾值的視頻幀數(shù)占該視頻總幀數(shù)的百分比,閾值通常根據(jù)不同數(shù)據(jù)集進(jìn)行手工設(shè)置.計(jì)算公式如下:

        其中,fo表示該視頻總幀數(shù),fp表示跟蹤算法預(yù)測(cè)的目標(biāo)框中心與標(biāo)注的目標(biāo)框中心之間的歐氏距離小于選定閾值的視頻幀數(shù).由于GTOT數(shù)據(jù)集上目標(biāo)較小,因此,GTOT數(shù)據(jù)集上閾值通常設(shè)定為 5,而在RGBT234、LasHeR數(shù)據(jù)集上閾值設(shè)定為20.

        2)成功率(Success Rate, SR).成功率指輸出邊界框與真值邊界框之間的重疊率大于閾值的幀的百分比.改變閾值可以獲得SR圖.通過(guò)計(jì)算SR曲線下面積得到成功率.

        3)標(biāo)準(zhǔn)化精確率(Normalized Precision Rate, NPR).由于精確率度量容易受到圖像分辨率和目標(biāo)框大小的影響,NPR進(jìn)一步將精確率標(biāo)準(zhǔn)化,計(jì)算見(jiàn)LaSOT(Large-Scale Single Object Tracking)[50].

        根據(jù)數(shù)據(jù)集的默認(rèn)設(shè)置,在GTOT、RGBT234數(shù)據(jù)集上使用PR和SR評(píng)估算法性能,在LasHeR數(shù)據(jù)集上使用PR、SR和NPR評(píng)估算法性能.

        4 算法對(duì)比結(jié)果

        4.1 總體性能對(duì)比

        本文在GTOT[68]、RGBT234[2]和LasHeR[69]數(shù)據(jù)集上選擇25個(gè)基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法進(jìn)行性能對(duì)比,結(jié)果如表2所示.

        在表2中, 基于多模態(tài)特征融合的目標(biāo)跟蹤算法表示為A,基于多模態(tài)特征表示的目標(biāo)跟蹤算法表示為B,基于多模態(tài)特征表示-融合聯(lián)合的目標(biāo)跟蹤算法表示為C,基于屬性驅(qū)動(dòng)的目標(biāo)跟蹤算法表示為D.

        表2 各算法在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        由于2022年前缺少大規(guī)模RGB-T目標(biāo)跟蹤數(shù)據(jù)集,基于MDNet的目標(biāo)跟蹤算法在RGB-T跟蹤領(lǐng)域占據(jù)主流,且通過(guò)多模態(tài)特征融合、特征表示、屬性指導(dǎo)等多種角度提高跟蹤性能.早期基于MDNet的目標(biāo)跟蹤算法取得領(lǐng)先的跟蹤性能,但運(yùn)行速度較慢.后續(xù)算法逐漸將基線跟蹤器替換為運(yùn)行效率更高的RT-MDNet[21].其中, DMCNet[24]在MANet[28]增強(qiáng)特征表示的基礎(chǔ)上,提出挖掘低質(zhì)量模態(tài)內(nèi)的辨別力信息,在RGBT234數(shù)據(jù)集上取得最優(yōu)的精確率和成功率.基于屬性指導(dǎo)的APFNet[41]和挖掘模態(tài)間模式相關(guān)性的CMPP[42]也取得先進(jìn)的性能.但上述算法均計(jì)算效率較低.同時(shí),基于MDNet的目標(biāo)跟蹤算法在目標(biāo)定位上優(yōu)勢(shì)明顯,但回歸精度不足.

        基于判別式相關(guān)濾波的RGB-T目標(biāo)跟蹤算法同樣采用在線更新的策略訓(xùn)練分類器.由于基線跟蹤器DiMP[45]的出色設(shè)計(jì),HMFT[51]在GTOT[68]、VTUAV[51]數(shù)據(jù)集上均取得最先進(jìn)的跟蹤性能,并保持實(shí)時(shí)的運(yùn)行速度.

        基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法在運(yùn)行速度上具有明顯優(yōu)勢(shì).其中,SiamCDA[61]僅使用RGB目標(biāo)跟蹤數(shù)據(jù)集合成的RGB-T目標(biāo)跟蹤數(shù)據(jù)集訓(xùn)練模型,因此性能受到制約,雖可達(dá)到37幀/秒的運(yùn)行速度,但性能仍有明顯差距.在引入Transformer后,基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法性能具有顯著提升.其中,RWTransT[65]在GTOT、RGBT234數(shù)據(jù)集上都取得最優(yōu)的成功率,并在LasHeR數(shù)據(jù)集上獲得十分顯著的提升.相比最優(yōu)的基于MDNet的目標(biāo)跟蹤算法APFNet[41],RWTransT在成功率和精確率上分別提升28.0%和26.4%.

        4.2 基于屬性的性能對(duì)比

        為了進(jìn)一步研究不同算法在不同屬性跟蹤場(chǎng)景下的性能,分別選取MANet[28]、MANet++[31]、MaCNet[23]、DAFNet[13]、DMCNet[24]和mfDiMP[14]、JMMAC[54]、SiamCDA[61]等部分先進(jìn)算法,在RGB- 234數(shù)據(jù)集上開(kāi)展基于屬性的性能對(duì)比,結(jié)果如表3所示.

        從表3可以發(fā)現(xiàn),對(duì)于無(wú)遮擋(NO)和局部遮擋(PO)場(chǎng)景,大部分先進(jìn)的RGB-T目標(biāo)跟蹤算法都具備良好性能,而在嚴(yán)重遮擋(HO)場(chǎng)景下,所有算法性能都明顯下降.在低光照(LI)場(chǎng)景下,基于孿生網(wǎng)絡(luò)的SiamCDA表現(xiàn)優(yōu)異;在存在形變(DEF)、尺度變化(SV)場(chǎng)景下,基于MDNet的目標(biāo)跟蹤算法回歸性能有限,與采用離線訓(xùn)練的JMMAC、mfDiMP、SiamCDA差距明顯.但在熱交叉(TC)場(chǎng)景下,使用合成數(shù)據(jù)集訓(xùn)練的mfDiMP和SiamCDA表現(xiàn)很差,這表明目前生成的合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)還存在一些差異,影響跟蹤器在此類場(chǎng)景下的性能.

        同時(shí),在復(fù)雜背景(BC)、運(yùn)動(dòng)模糊(MB)和快速運(yùn)動(dòng)(FM)場(chǎng)景下,僅依靠外觀模型很難實(shí)現(xiàn)準(zhǔn)確魯棒的目標(biāo)跟蹤,因此目前根據(jù)目標(biāo)外觀進(jìn)行跟蹤的大部分算法(如MANet、mfDiMP、SiamCDA等)仍無(wú)法取得理想效果.

        4.3 速度對(duì)比

        表2給出不同算法的實(shí)驗(yàn)平臺(tái)和運(yùn)行速度,可以發(fā)現(xiàn),基于MDNet的目標(biāo)跟蹤算法無(wú)法達(dá)到實(shí)時(shí)運(yùn)行速度,僅可達(dá)到2幀/秒左右的運(yùn)行速度,基于RT-MDNet的目標(biāo)跟蹤算法速度有所提升.ADRNet可在2080Ti GPU上達(dá)到25幀/秒的運(yùn)行速度.但基于DiMP的mfDiMP和基于孿生網(wǎng)絡(luò)的SiamFT和SiamCDA在速度上具有明顯優(yōu)勢(shì).

        4.4 模型尺寸對(duì)比

        部分公布代碼的算法的模型尺寸及其在RGBT234數(shù)據(jù)集上的性能對(duì)比如圖22所示.

        圖22 不同算法的參數(shù)量對(duì)比

        由圖22可以發(fā)現(xiàn),由于使用參數(shù)量較少的VGG-M作為特征提取網(wǎng)絡(luò),大部分基于MDNet的RGB-T目標(biāo)跟蹤算法參數(shù)量更低.其中,DAFNet的參數(shù)量?jī)H為5.50 M.基于屬性驅(qū)動(dòng)的方法通常使用多分支的結(jié)構(gòu),具有較多的參數(shù)量.基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法和基于判別式相關(guān)濾波的目標(biāo)跟蹤算法由于使用更復(fù)雜的特征提取網(wǎng)絡(luò),因此參數(shù)量顯著提高.

        4.5 訓(xùn)練數(shù)據(jù)集對(duì)模型性能的影響

        考慮到早期算法使用的訓(xùn)練數(shù)據(jù)集有所差異,且訓(xùn)練數(shù)據(jù)集的規(guī)模限制算法的性能,本文選擇MANet[28]、DAFNet[13]、FANet[12]和mfDiMP[14]這4個(gè)典型算法,使用LasHeR訓(xùn)練數(shù)據(jù)集[69]重新訓(xùn)練,并在規(guī)模較大的RGBT234[2]、LasHeR[69]測(cè)試數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果如表4和表5所示.

        由表4和表5可以發(fā)現(xiàn),使用更大規(guī)模的真實(shí)訓(xùn)練數(shù)據(jù)集之后,算法性能都有明顯提升.mfDiMP盡管采用簡(jiǎn)單的級(jí)聯(lián)融合策略,但獲益于DiMP[45]的優(yōu)異性能和真實(shí)的訓(xùn)練數(shù)據(jù)集,也可取得最佳的跟蹤性能,在LasHeR數(shù)據(jù)集上的PR和SR指標(biāo)分別提升13.6%和11.2%.

        表4 重新訓(xùn)練的跟蹤算法在RGBT234數(shù)據(jù)集上的性能對(duì)比

        表5 重新訓(xùn)練的跟蹤算法在LasHeR數(shù)據(jù)集上的性能對(duì)比

        而基于MDNet的MANet、DAFNet和FANet性能上升幅度小于mfDiMP,這是由于采用的基線跟蹤算法網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,并使用在線訓(xùn)練的回歸器,無(wú)法從更大的訓(xùn)練數(shù)據(jù)集上由離線訓(xùn)練的方式獲取更多性能收益.近年來(lái),出現(xiàn)越來(lái)越多的大規(guī)模RGB-T目標(biāo)跟蹤數(shù)據(jù)集,這意味著未來(lái)研究的重點(diǎn)將轉(zhuǎn)向基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法和基于判別式相關(guān)濾波的目標(biāo)跟蹤算法.

        5 未來(lái)展望

        從2018年Li等[8]首次提出基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法開(kāi)始,不足五年的時(shí)間內(nèi),RGB-T目標(biāo)跟蹤領(lǐng)域的研究工作已經(jīng)取得巨大的進(jìn)展,但仍有很多問(wèn)題有待研究和解決.下文分別從模型設(shè)計(jì)、數(shù)據(jù)集建立和實(shí)際應(yīng)用三個(gè)角度討論RGB-T目標(biāo)跟蹤領(lǐng)域未來(lái)的研究方向和可能的解決方案.

        5.1 模型設(shè)計(jì)

        1)多模態(tài)特征融合方法研究.相比使用單模態(tài)數(shù)據(jù)的目標(biāo)跟蹤任務(wù),RGB-T目標(biāo)跟蹤可以利用多模態(tài)數(shù)據(jù)的互補(bǔ)信息,提高跟蹤的魯棒性和準(zhǔn)確性.由于RGB圖像和TIR圖像成像機(jī)理不同,多模態(tài)圖像存在信息差異和特征分布差異,而大多數(shù)已有算法首先使用雙流網(wǎng)絡(luò)或?qū)\生網(wǎng)絡(luò)進(jìn)行多模態(tài)特征提取,隨后直接進(jìn)行多模態(tài)特征融合,忽略不同模態(tài)特征分布之間的差異,容易削弱融合特征的辨別力.如何降低模態(tài)差異對(duì)融合特征的影響,進(jìn)而提高多模態(tài)目標(biāo)跟蹤的性能是一個(gè)需要研究的問(wèn)題.此外,現(xiàn)有算法主要研究中期融合策略以自適應(yīng)從多模態(tài)數(shù)據(jù)內(nèi)選擇具有辨別力的信息,對(duì)其它融合算法(如早期融合和晚期融合)未充分研究.事實(shí)上,早期融合具備降低計(jì)算復(fù)雜度、減小特征分布差異的優(yōu)勢(shì),而晚期融合可減少某一模特?cái)?shù)據(jù)內(nèi)存在的噪聲對(duì)融合性能的影響.因此,進(jìn)一步充分挖掘不同融合方式以利用多模態(tài)數(shù)據(jù)的互補(bǔ)性也是一個(gè)有待解決的問(wèn)題.

        2)更高效的目標(biāo)跟蹤算法框架.大部分RGB-T目標(biāo)跟蹤算法在RGB目標(biāo)跟蹤算法的基礎(chǔ)上設(shè)計(jì).使用的基線跟蹤算法大多是早期的RGB目標(biāo)跟蹤算法,如MDNet[19]、RT-MDNet[21]和SiamFC[58]等.這些基線算法本身存在一定的局限性,如基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法雖然達(dá)到實(shí)時(shí)的運(yùn)行速度,但存在辨別力不足問(wèn)題,在復(fù)雜場(chǎng)景下跟蹤性能有限.基于MDNet的目標(biāo)跟蹤算法存在回歸精度較差問(wèn)題,無(wú)法從更大規(guī)模的訓(xùn)練數(shù)據(jù)集上獲取顯著的性能收益.基于DCF的目標(biāo)跟蹤算法盡管在高性能的硬件設(shè)備下可取得優(yōu)異的跟蹤性能和實(shí)時(shí)的運(yùn)行速度,但由于其在線訓(xùn)練的策略,在性能更弱的移動(dòng)端設(shè)備上難以實(shí)現(xiàn)性能和速度的平衡.此外,已有算法通常依賴目標(biāo)的外觀信息進(jìn)行跟蹤,對(duì)于跟蹤場(chǎng)景信息(如目標(biāo)與背景間的上下文關(guān)系)以及跟蹤目標(biāo)的軌跡信息研究較少.這些問(wèn)題限制RGB-T目標(biāo)跟蹤算法的跟蹤魯棒性和精度.

        最近,基于Transformer的目標(biāo)跟蹤算法[66,71]在RGB目標(biāo)跟蹤領(lǐng)域取得優(yōu)異性能,在性能和速度上達(dá)到良好的平衡,并且挖掘跟蹤場(chǎng)景內(nèi)的上下文信息以提高跟蹤的魯棒性.而RGB-T跟蹤領(lǐng)域?qū)ransformer的研究雖然已經(jīng)取得一定進(jìn)展,但研究仍不充分.設(shè)計(jì)基于Transformer 的RGB-T目標(biāo)跟蹤算法,并解決上述跟蹤框架的固有問(wèn)題是未來(lái)的研究熱點(diǎn)之一.

        3)輕量化網(wǎng)絡(luò)設(shè)計(jì).RGB-T目標(biāo)跟蹤任務(wù)由于需要額外的模態(tài)數(shù)據(jù),通常使用雙流網(wǎng)絡(luò)進(jìn)行特征提取,增加網(wǎng)絡(luò)的計(jì)算復(fù)雜度,從而導(dǎo)致現(xiàn)有的目標(biāo)跟蹤框架難以滿足實(shí)時(shí)運(yùn)行的要求.大量算法采用在線更新策略[19,45]對(duì)硬件設(shè)備具有更高的要求.已有的跟蹤框架通常包括多模態(tài)特征提取、多模態(tài)特征融合和分類及回歸網(wǎng)絡(luò)三部分.為了減少RGB-T目標(biāo)跟蹤算法的計(jì)算復(fù)雜度,需分別減少上述3個(gè)部分的計(jì)算量.如何使用特征選擇[10]、知識(shí)蒸餾[72]、網(wǎng)絡(luò)結(jié)構(gòu)搜索[73]等技術(shù)加速網(wǎng)絡(luò)的前向推理速度將是未來(lái)研究的一個(gè)重點(diǎn).

        4)視頻目標(biāo)分割.已有RGB-T目標(biāo)跟蹤算法使用矩形包圍框表示目標(biāo)的位置及所在區(qū)域.但邊界框內(nèi)通常包含大量的背景信息,對(duì)于旋轉(zhuǎn)、可變形的目標(biāo)變化描述不夠精確,從而在跟蹤過(guò)程中造成目標(biāo)與背景邊界的混淆,甚至導(dǎo)致錯(cuò)誤的區(qū)分目標(biāo)與背景干擾物.在這種情況下,預(yù)測(cè)精確的目標(biāo)掩碼可以更好地明確目標(biāo)區(qū)域,獲取更準(zhǔn)確的跟蹤結(jié)果.因此,在RGB目標(biāo)跟蹤領(lǐng)域,一些跟蹤方法結(jié)合視頻目標(biāo)分割算法[74],在視頻序列中預(yù)測(cè)目標(biāo)掩碼以更好地描述目標(biāo)狀態(tài).然而在RGB-T目標(biāo)跟蹤領(lǐng)域,目標(biāo)跟蹤結(jié)合視頻目標(biāo)分割算法還未得到研究.同時(shí),已有的大部分RGB-T目標(biāo)跟蹤數(shù)據(jù)集僅提供目標(biāo)的邊界框標(biāo)注,缺乏大規(guī)模的RGB-T視頻目標(biāo)跟蹤數(shù)據(jù)用于模型訓(xùn)練.對(duì)多模態(tài)視頻進(jìn)行像素級(jí)標(biāo)注將耗費(fèi)大量的時(shí)間和人力.如何使用已有的邊界框級(jí)別標(biāo)注數(shù)據(jù),采用弱監(jiān)督訓(xùn)練等策略獲取RGB-T視頻目標(biāo)分割模型同樣是未來(lái)研究的重點(diǎn).

        5)長(zhǎng)時(shí)目標(biāo)跟蹤.已有的大多數(shù)RGB-T目標(biāo)跟蹤算法通常在短時(shí)序列(幀數(shù)小于600幅圖像)中跟蹤目標(biāo).然而,在實(shí)際應(yīng)用中,往往需要在長(zhǎng)時(shí)序列(幀數(shù)大于2 000幅圖像)中跟蹤目標(biāo),并應(yīng)對(duì)可能出現(xiàn)的目標(biāo)消失、目標(biāo)遮擋和目標(biāo)重現(xiàn)等挑戰(zhàn).在基于RGB圖像的目標(biāo)跟蹤任務(wù)中,長(zhǎng)時(shí)目標(biāo)跟蹤已經(jīng)得到廣泛的關(guān)注和研究.然而,在RGB-T目標(biāo)跟蹤算法中,缺乏對(duì)此問(wèn)題的深入分析和研究.在RGB-T目標(biāo)跟蹤領(lǐng)域,進(jìn)一步研究利用多模態(tài)數(shù)據(jù)的互補(bǔ)性提高長(zhǎng)時(shí)目標(biāo)跟蹤的魯棒性和目標(biāo)重檢測(cè)的準(zhǔn)確性將是未來(lái)研究的重點(diǎn).

        5.2 數(shù)據(jù)集建立

        1)大規(guī)模數(shù)據(jù)集.近年來(lái),隨著RGB-T目標(biāo)跟蹤的發(fā)展,多個(gè)RGB-T目標(biāo)跟蹤數(shù)據(jù)集被提出.其中,LasHeR[69]、VTUAV[51]數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,但目標(biāo)跟蹤任務(wù)需要更大規(guī)模的訓(xùn)練數(shù)據(jù)集,以提高模型的泛化性能.相比RGB目標(biāo)跟蹤數(shù)據(jù)集的規(guī)模,已有RGB-T目標(biāo)跟蹤數(shù)據(jù)集的規(guī)模通常較小,例如,常用的RGB跟蹤數(shù)據(jù)集GOT10K包含9 340個(gè)視頻用于模型訓(xùn)練.而目前大規(guī)模的RGB-T目標(biāo)跟蹤數(shù)據(jù)集僅包含979個(gè)視頻用于模型訓(xùn)練,如表6所示.訓(xùn)練數(shù)據(jù)集規(guī)模上的顯著差異導(dǎo)致模型訓(xùn)練過(guò)程中容易出現(xiàn)過(guò)擬合問(wèn)題,且場(chǎng)景多樣性的缺乏導(dǎo)致跟蹤泛化性能的不足.此外,仍缺乏大規(guī)模的RGB-T目標(biāo)分割數(shù)據(jù)集用于訓(xùn)練視頻目標(biāo)分割算法.VTUAV數(shù)據(jù)集上僅包含50個(gè)視頻序列用于訓(xùn)練,相比RGB視頻目標(biāo)分割算法使用的數(shù)據(jù)集Youtube-VOS[75],視頻序列數(shù)量太少,對(duì)于網(wǎng)絡(luò)的設(shè)計(jì)和訓(xùn)練造成較大困難.在未來(lái)構(gòu)建更大規(guī)模的RGB-T目標(biāo)跟蹤數(shù)據(jù)集并提供目標(biāo)的像素級(jí)標(biāo)注,仍是未來(lái)研究的重要工作.

        表6 各數(shù)據(jù)集規(guī)模對(duì)比

        2)模態(tài)對(duì)齊.已有的RGB-T目標(biāo)跟蹤算法通常假設(shè)RGB圖像和TIR圖像在空間上嚴(yán)格對(duì)齊,這在實(shí)際中很難實(shí)現(xiàn).雖然使用配準(zhǔn)算法可以改善不對(duì)齊現(xiàn)象,但仍然難以保證所有局部區(qū)域的精確對(duì)齊.在GTOT[68]、RGBT234[2]、VTUAV[51]數(shù)據(jù)集上,不對(duì)齊問(wèn)題仍廣泛存在.對(duì)此,本文統(tǒng)計(jì)RGBT234、VTUAV數(shù)據(jù)集上目標(biāo)在兩種模態(tài)內(nèi)的中心像素偏差(即目標(biāo)在兩種模態(tài)圖像下中心點(diǎn)的像素距離),如表7所示.空間未對(duì)齊問(wèn)題會(huì)導(dǎo)致多模態(tài)特征融合過(guò)程中信息的無(wú)效傳播,從而影響目標(biāo)回歸的精度和目標(biāo)分類的魯棒性.一方面,可以設(shè)計(jì)更準(zhǔn)確的圖像配準(zhǔn)方法,實(shí)現(xiàn)RGB圖像和TIR圖像的像素級(jí)精確配準(zhǔn);另一方面,還可以考慮如何在現(xiàn)有的RGB-T跟蹤模型中嵌入相應(yīng)的多模態(tài)圖像特征局部對(duì)齊模塊,提高模型對(duì)輸入圖像弱配準(zhǔn)時(shí)的魯棒性.

        表7 RGB-TIR模態(tài)邊界框中心距離對(duì)比

        5.3 實(shí)際應(yīng)用

        RGB-T目標(biāo)跟蹤能夠在具有挑戰(zhàn)性的環(huán)境中實(shí)現(xiàn)強(qiáng)大的跟蹤性能,具有廣泛的應(yīng)用價(jià)值.

        1)智能監(jiān)控系統(tǒng).監(jiān)控系統(tǒng)已經(jīng)廣泛應(yīng)用于各種實(shí)際場(chǎng)景中,而目標(biāo)跟蹤技術(shù)是智能監(jiān)控系統(tǒng)的重要組成部分.RGB-T目標(biāo)跟蹤技術(shù)能夠全時(shí)段、全天候工作.在公安系統(tǒng)方面,可對(duì)監(jiān)控視頻中的嫌疑人進(jìn)行跟蹤和行為分析,有效提高辦案效率.在智能交通方面, RGB-T目標(biāo)跟蹤技術(shù)可以監(jiān)測(cè)道路交通狀況并實(shí)時(shí)檢測(cè)違規(guī)車(chē)輛,對(duì)肇事逃逸車(chē)輛進(jìn)行追蹤以降低人力要求.RGB-T目標(biāo)跟蹤技術(shù)也可以部署在無(wú)人機(jī)上,實(shí)現(xiàn)更加靈活的檢測(cè)監(jiān)控.

        2)軍事領(lǐng)域.在軍事領(lǐng)域,RGB-T目標(biāo)跟蹤技術(shù)可用于制導(dǎo)和導(dǎo)彈預(yù)警,例如,通過(guò)精確捕獲目標(biāo)位置以確保遠(yuǎn)程打擊的精確性,或及時(shí)預(yù)警來(lái)襲導(dǎo)彈位置.RGB-T目標(biāo)跟蹤技術(shù)也可用于實(shí)時(shí)監(jiān)測(cè)戰(zhàn)場(chǎng)狀態(tài),評(píng)估打擊效果和敵方軍備調(diào)動(dòng)情況.

        3)智能導(dǎo)航與定位.在自動(dòng)駕駛中,可使用RGB-T目標(biāo)跟蹤技術(shù)對(duì)周?chē)男腥思拔矬w進(jìn)行跟蹤定位,實(shí)現(xiàn)自動(dòng)駕駛的最優(yōu)路線規(guī)劃并保持最合適的車(chē)速.

        4)人機(jī)交互與虛擬現(xiàn)實(shí).RGB-T目標(biāo)跟蹤可在各種場(chǎng)景下跟蹤人的動(dòng)作,并結(jié)合檢測(cè)算法識(shí)別表情及動(dòng)作類型,使計(jì)算機(jī)發(fā)出相應(yīng)的操作指令,從而實(shí)現(xiàn)機(jī)器和用戶之間的交互,也可在未來(lái)應(yīng)用于虛擬現(xiàn)實(shí)技術(shù)中.

        6 結(jié) 束 語(yǔ)

        隨著傳感器技術(shù)的不斷發(fā)展,RGB-T目標(biāo)跟蹤因其全天候、全場(chǎng)景工作特性逐漸成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn).本文首先介紹RGB-T目標(biāo)跟蹤任務(wù)目前面臨的諸多挑戰(zhàn),包括目標(biāo)跟蹤任務(wù)的通用挑戰(zhàn)和RGB-T目標(biāo)跟蹤任務(wù)的特有挑戰(zhàn).接著詳細(xì)介紹目前基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法,并對(duì)它們進(jìn)行分類和對(duì)比.然后,介紹RGB-T目標(biāo)跟蹤任務(wù)常用的公開(kāi)數(shù)據(jù)集及評(píng)估指標(biāo),并對(duì)現(xiàn)有方法在各個(gè)數(shù)據(jù)集上的性能進(jìn)行整理及對(duì)比分析.最后,本文還對(duì)RGB-T目標(biāo)跟蹤未來(lái)的研究方向進(jìn)行思考與展望,以期為廣大研究人員的工作提供一些參考和幫助.

        猜你喜歡
        模態(tài)特征圖像
        改進(jìn)的LapSRN遙感圖像超分辨重建
        有趣的圖像詩(shī)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        遙感圖像幾何糾正中GCP選取
        二区在线视频| 亚洲精品一区久久久久一品av| 亚洲成a人片在线观看无码3d| 国模少妇一区二区三区| 欧美亚洲国产人妖系列视| 黄色国产一区在线观看| 成人影院视频在线免费观看| 亚洲精品久久| 在线播放人成午夜免费视频| 区一区一日本高清视频在线观看| 五月激情四射开心久久久| 艳妇臀荡乳欲伦69调教视频| 亚洲 高清 成人 动漫| 欧美日韩综合在线视频免费看| 丝袜美腿一区在线观看| 亚洲av永久无码天堂网| 男人边吃奶边做好爽免费视频 | 粗了大了 整进去好爽视频 | 国产情侣一区二区| aaa级久久久精品无码片| 久久精品国产亚洲一区二区| 国产成人精品一区二三区在线观看 | 国产不卡在线播放一区二区三区| 欧洲熟妇色xxxx欧美老妇性| aaaaaa级特色特黄的毛片| 91精品国产闺蜜国产在线| 日本不卡一区二区三区久久精品| 在办公室被c到呻吟的动态图 | 人妻无码一区二区三区免费| 亚洲AV无码一区二区三区人| 亚洲一区二区三区在线| 中文字幕亚洲熟女av| 久久露脸国产精品| 日韩爱爱视频| 亚洲精品不卡av在线免费| 日韩精品视频一区二区三区| 91精品福利一区二区| 久久婷婷色香五月综合激激情| 十八禁视频在线观看免费无码无遮挡骂过 | 久久久精品中文无码字幕| 亚洲最新精品一区二区|