亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        動(dòng)態(tài)模態(tài)交互和特征自適應(yīng)融合的RGBT跟蹤

        2022-10-21 01:56:00王福田張淑云李成龍羅斌
        中國圖象圖形學(xué)報(bào) 2022年10期
        關(guān)鍵詞:跟蹤器集上紅外

        王福田,張淑云,李成龍*,羅斌

        1.安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院多模態(tài)認(rèn)知計(jì)算實(shí)驗(yàn)室,合肥 230000;2.合肥綜合性國家科學(xué)中心人工智能研究院,合肥 230000

        0 引 言

        視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域中的熱門課題之一,在多個(gè)領(lǐng)域有著廣泛的應(yīng)用,如視頻監(jiān)控、無人駕駛和人機(jī)交互(Li等,2019a;Ruan等,2019;Yao等,2017;Yuan等,2015;Zhang等,2015)。紅外成像具有成像距離長、對(duì)煙霧的穿透力強(qiáng)和對(duì)光照變化不敏感等優(yōu)點(diǎn)。隨著熱紅外技術(shù)的不斷成熟,RGBT(RGB-thermal)目標(biāo)跟蹤受到越來越多學(xué)者的關(guān)注(Wu等,2011;Liu和Sun,2012;Li等,2016,2017)。RGBT目標(biāo)跟蹤是視覺目標(biāo)跟蹤的一個(gè)分支,其任務(wù)是在給定某視頻序列第1幀目標(biāo)狀態(tài)的情況下,通過聚合不同模態(tài)數(shù)據(jù)來估計(jì)后續(xù)幀中目標(biāo)的狀態(tài)。雖然RGBT目標(biāo)跟蹤近年來取得了很大的進(jìn)展,但是如何充分探索和利用不同模態(tài)的信息仍然是一個(gè)挑戰(zhàn)。

        早期的RGBT跟蹤方法(Li等,2016;Liu和Sun,2012)主要依賴于傳統(tǒng)的手工特征。例如,Liu和Sun(2012)通過在基于粒子濾波器的框架中聯(lián)合稀疏表示和對(duì)稀疏系數(shù)的最小化操作融合可見光和熱紅外模態(tài)的跟蹤結(jié)果。Li等人(2016)引入可靠的權(quán)重來自適應(yīng)地融合可見光和熱紅外模態(tài)的信息。但是,這些方法很難應(yīng)對(duì)復(fù)雜場景和環(huán)境。近年來,深度學(xué)習(xí)方法成功地應(yīng)用于RGBT目標(biāo)跟蹤領(lǐng)域,并逐漸在性能上超越傳統(tǒng)方法。Gao等人(2019)提出了一種新的機(jī)制來自適應(yīng)地融合不同模態(tài)的有效信息。Zhu等人(2019)提出了一種新穎的特征聚合網(wǎng)絡(luò)以此聚合不同層的特征,同時(shí)利用修剪技術(shù)消除冗余信息。Tu等人(2020)提出了一種多邊際度量學(xué)習(xí)框架M5L(multi-modal multi-margin metric learning)來解決困難樣本問題。Xu等人(2022)提出了一種跨層雙線性池化網(wǎng)絡(luò)來自適應(yīng)地聚合兩種模態(tài)的不同信息。但是,這些基于深度學(xué)習(xí)的跟蹤方法要么僅利用高層的語義信息,要么將不同層的特征進(jìn)行逐層聚合,很少去有效挖掘不同模態(tài)的互補(bǔ)特征,因此無法有效探索RGBT數(shù)據(jù)的優(yōu)越性。

        本文提出了一種基于動(dòng)態(tài)交互和融合的跟蹤框架來有效挖掘兩個(gè)模態(tài)之間的互補(bǔ)性。一般來說,RGB圖像主要用來捕獲目標(biāo)的視覺外觀信息,例如顏色和紋理等,而熱紅外圖像在光照變化劇烈和背景雜亂等條件下能提供有效信息。兩個(gè)模態(tài)特征的融合方式通常是元素級(jí)相加或通道上級(jí)聯(lián)。如果某種模態(tài)的信息中包含一些噪聲或者是錯(cuò)誤的信息,那么經(jīng)過上述方法融合的特征里面難免會(huì)引入噪聲,這樣會(huì)影響跟蹤的性能。因此,本文利用了基于乘法操作的模態(tài)交互模塊來抑制雜波噪聲,同時(shí)設(shè)計(jì)了一個(gè)融合模塊來聚合不同層的多模態(tài)特征以捕獲豐富的語義信息和空間信息。最后,設(shè)計(jì)了一個(gè)動(dòng)態(tài)權(quán)重?fù)p失函數(shù)來優(yōu)化網(wǎng)絡(luò)參數(shù)。

        圖1展示了RGB模態(tài)下的特定特征和互補(bǔ)特征的可視化結(jié)果。本文的主要貢獻(xiàn)有:

        圖1 特征圖的可視化結(jié)果

        1)提出了一種新穎的動(dòng)態(tài)交互和融合模塊,有效挖掘RGB和熱紅外數(shù)據(jù)的互補(bǔ)性;

        2)提出了一種動(dòng)態(tài)權(quán)重?fù)p失函數(shù),通過對(duì)兩個(gè)模態(tài)特定分支預(yù)測結(jié)果進(jìn)行一致性和不確定性約束來優(yōu)化整個(gè)網(wǎng)絡(luò)中的參數(shù);

        3)在RGBT234(Li等,2019)和GTOT(grayscale-thermal object tracking)(Li等,2016)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文方法在跟蹤性能上優(yōu)于其他主流的跟蹤方法,驗(yàn)證了有效性。

        1 相關(guān)工作

        1.1 RGBT目標(biāo)跟蹤算法

        可見光信息和熱紅外信息的融合能夠有效改善跟蹤性能,且隨著熱紅外相關(guān)產(chǎn)品的價(jià)格下降,越來越多的學(xué)者開始研究RGBT目標(biāo)跟蹤。

        一些早期的工作(Li等,2016;Lan等,2018)通過為每種模態(tài)引入可靠的權(quán)重實(shí)現(xiàn)自適應(yīng)融合。Li等人(2016)在貝葉斯框架的基礎(chǔ)上提出了一種基于稀疏表示的自適應(yīng)跟蹤框架。Lan等人(2018)提出了一種新穎的判別性學(xué)習(xí)框架,以自適應(yīng)和協(xié)作地學(xué)習(xí)分類器和不同模態(tài)的可靠性權(quán)重。但是,當(dāng)權(quán)重不能可靠地反映模態(tài)的重要性時(shí),跟蹤器將會(huì)面臨跟蹤失敗的狀況。同時(shí),一些工作(Li等,2017;Zhu等,2020)探索如何利用多模態(tài)數(shù)據(jù)來生成更加魯棒的特征表示。Li等(2018c)提出了一種跨模態(tài)排序模型,該模型考慮了兩種模態(tài)的異質(zhì)性以及初始化排序種子點(diǎn)時(shí)所引起的噪聲,同時(shí)使用結(jié)構(gòu)化的SVM(support vector machines)來進(jìn)行跟蹤。這些RGBT跟蹤方法依賴于傳統(tǒng)的手工特征,而傳統(tǒng)的手工特征無法魯棒地表示目標(biāo)對(duì)象,所以這些方法復(fù)雜場景下的跟蹤性能會(huì)受到限制。

        由于深度學(xué)習(xí)方法成功應(yīng)用跟蹤領(lǐng)域,因此RGBT跟蹤取得了很大的進(jìn)步(Xu等,2018;Zhang等,2018;Zhu等,2019;Li等,2020a)。Xu等人(2018)提出了一種像素級(jí)融合的RGBT跟蹤方法,該方法直接將熱紅外圖像作為可見光圖像的額外通道。該融合方式容易引入大量噪聲,從而影響跟蹤的性能。Zhang等人(2018)使用VGG-M(Visual Geometry Group-middle network)網(wǎng)絡(luò)提取兩個(gè)模態(tài)的特征,然后對(duì)兩個(gè)模態(tài)的特征進(jìn)行級(jí)聯(lián),最后對(duì)目標(biāo)進(jìn)行前景和背景的分類。Zhu等人(2019)提出了一種新的跟蹤框架遞歸的聚合不同層的特征和抑制其中的冗余信息。但上述方法沒有考慮到不同模態(tài)的特征在不同場景下的重要程度。Li等人(2020a)考慮到不同模態(tài)中存在不同的和共同的挑戰(zhàn)因素,提出了一個(gè)基于挑戰(zhàn)感知的RGBT跟蹤框架,取得了很好的效果。雖然上述RGBT跟蹤方法有效地利用了兩個(gè)模態(tài)的信息,但是沒有對(duì)兩個(gè)模態(tài)之前的互補(bǔ)性進(jìn)行充分探索。

        1.2 注意力機(jī)制

        注意力機(jī)制一開始應(yīng)用于自然語言領(lǐng)域。2014年,谷歌大腦團(tuán)隊(duì)利用注意力機(jī)制進(jìn)行圖像分類,取得了很好的效果。由于注意力機(jī)制的有效性,其廣泛用于各種任務(wù)中,如目標(biāo)跟蹤、目標(biāo)檢測和語義分割。近年來,注意力機(jī)制在提高網(wǎng)絡(luò)性能方面取得了很大的進(jìn)步。Hu等人(2018)提出了一種有效的通道注意力機(jī)制,該機(jī)制通過自適應(yīng)地調(diào)節(jié)各通道的特征響應(yīng)值來選擇性地加強(qiáng)有用信息和抑制無用信息。Chen等人(2018)提出了一種雙重注意力機(jī)制,從輸入圖像或視頻的時(shí)空空間中聚合和傳遞全局特征,從而使得后續(xù)的卷積層有效地提取特征。Fu等人(2019)引入空間注意力和通道注意力機(jī)制來聚合更多有用的信息。上述這些方法為了提升性能,都致力于研究復(fù)雜的注意力模塊,但同時(shí)不可避免地增加了計(jì)算開銷。為了平衡性能和資源消耗,Wang等人(2020)提出了一個(gè)輕量級(jí)的注意力模塊,其通過1維卷積運(yùn)算生成通道關(guān)注圖。

        2 網(wǎng)絡(luò)框架及其實(shí)現(xiàn)

        2.1 網(wǎng)絡(luò)框架

        在RGBT跟蹤任務(wù)中,輸入可見光和相應(yīng)的熱紅外圖像,本文網(wǎng)絡(luò)框架如圖2所示。從圖2中可以看到,除了可見光和熱紅外分支之外,還包含跨模態(tài)交互模塊和融合模塊、互補(bǔ)特征學(xué)習(xí)模塊,跨模態(tài)交互模塊用來獲取不同級(jí)別的多模態(tài)特征,模態(tài)融合模塊用來融合不同級(jí)別的多模態(tài)特征,互補(bǔ)特征學(xué)習(xí)模塊用來獲取不同模態(tài)的互補(bǔ)特征。本文使用VGG-M(Simonyan和Zisserman等,2015)的前3個(gè)卷積層作為骨干網(wǎng)絡(luò)來提取可見光和熱紅外模態(tài)的特定特征,其中卷積核大小分別為7×7×96、5×5×256、3×3×512。

        圖2 網(wǎng)絡(luò)框架圖

        2.2 交互和融合模塊

        2.2.1 交互模塊

        為了減少噪聲影響,本文設(shè)計(jì)了一種模態(tài)交互模塊。首先,使用通道注意模塊從通道方面增強(qiáng)不同模態(tài)的特定特征,然后將可見光和熱紅外特征進(jìn)行元素級(jí)相乘。在某些情況下,熱紅外數(shù)據(jù)中有一些噪聲,可見光數(shù)據(jù)也存在噪聲。如果直接將RGB特征和熱紅外特征進(jìn)行相加或級(jí)聯(lián),可能會(huì)引入許多噪聲。本文將不同模態(tài)的特征進(jìn)行相乘操作,可以在一定程度上抑制噪聲。整個(gè)交互過程可以表示為

        (1)

        (2)

        (3)

        考慮上下文信息有助于模型捕獲目標(biāo)的位置,而推理跟蹤中的上下文信息需要知道哪些位置是與目標(biāo)相關(guān)的關(guān)鍵點(diǎn)。本文網(wǎng)絡(luò)模型利用了通道注意力模塊(Wang等,2020)從通道方面增強(qiáng)不同模態(tài)的特定特征。Wang等人(2020)的實(shí)驗(yàn)結(jié)果表明捕獲所有通道之間的依賴關(guān)系是低效的,而捕獲局部通道之間的信息是高效的。式(4)能夠?yàn)槊總€(gè)通道捕獲其周圍的鄰居信息以預(yù)測該通道的注意力預(yù)測。分組卷積在固定組數(shù)量的情況下,高維(低維)通道與長距離(短距離)卷積核大小成正比;因此,局部通道信息交互作用的范圍(即1維卷積的核大小k)與通道維數(shù)C也存在一定的映射關(guān)系。

        具體來說,首先將輸入的特征圖經(jīng)過全局平均池化(global average pooling,GAP),再執(zhí)行卷積核大小為k的快速1維卷積來生成通道權(quán)值,最后將輸入的特征和通道權(quán)值做相乘操作

        (4)

        式中,k表示1維卷積的內(nèi)核大小,C表示通道數(shù),| |odd表示奇數(shù),b和γ的值分別設(shè)為2和1。

        2.2.2 融合模塊

        首先將前兩層獲得的多模態(tài)特征圖調(diào)整為與最后一層的多模態(tài)特征圖相同尺寸,然后進(jìn)行元素級(jí)相加。最后將融合后的特征輸入到卷積核大小為3×3的深度可分離卷積中,從而減少參數(shù)量。具體為

        (5)

        2.3 互補(bǔ)特征學(xué)習(xí)模塊

        2.4 動(dòng)態(tài)權(quán)重?fù)p失函數(shù)

        RGBT目標(biāo)跟蹤方法(Zhu等,2019;Li等,2017)一般使用傳統(tǒng)的二分類損失函數(shù)(L)來訓(xùn)練模型,即

        (6)

        本文提出了一個(gè)新的損失函數(shù)來動(dòng)態(tài)優(yōu)化模型參數(shù)。不同模態(tài)的樣本輸入到相應(yīng)的模態(tài)特定分支中,樣本的預(yù)測結(jié)果可能有所不同。通過對(duì)兩個(gè)模態(tài)特定分支的預(yù)測結(jié)果進(jìn)行一致性和不確定性的約束來動(dòng)態(tài)優(yōu)化整個(gè)網(wǎng)絡(luò)的參數(shù),從而提高最終預(yù)測結(jié)果的置信度。提出的動(dòng)態(tài)損失函數(shù)為

        L=L1+λ×L2

        (7)

        L1=Lrgb(y1′,y)+Lthermal(y2′,y)

        (8)

        L2=Lfusion(y′,y)

        (9)

        λ=||y1′-y2′|+1-|y1′-0.5|-|y2′-0.5||

        (10)

        式中,第1項(xiàng)|y1′-y2′|的L1損失是為了約束兩個(gè)分支的預(yù)測結(jié)果,使其更加一致,而第2項(xiàng)1-|y1′-0.5|-|y2′-0.5|,用于限制兩個(gè)特定分支的預(yù)測結(jié)果的不確定性。如果預(yù)測結(jié)果得分接近0.5,則表示網(wǎng)絡(luò)不確定檢測到的候選框是否為前景。從圖3可以看出,在訓(xùn)練參數(shù)設(shè)置相同的情況下,本文提出的動(dòng)態(tài)加權(quán)損失下降得更快,收斂得更好。這也進(jìn)一步表明本文提出的動(dòng)態(tài)加權(quán)損失函數(shù)的有效性。

        圖3 動(dòng)態(tài)權(quán)重?fù)p失與二分類損失在訓(xùn)練期間的比較結(jié)果

        2.5 訓(xùn)練過程

        本文網(wǎng)絡(luò)可以進(jìn)行端到端的訓(xùn)練。在初始化時(shí),網(wǎng)絡(luò)主干的前3層相應(yīng)權(quán)重從VGG-M網(wǎng)絡(luò)(Simonyan和Zisserman,2015)中加載得到,全連接層和其他卷積層的權(quán)重隨機(jī)初始化。采用SGD(stochastic gradient descent)算法來對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行優(yōu)化。同時(shí)參考MDNet(multi-domain convolutional neural networks)(Nam等,2016),在使用K個(gè)視頻的多領(lǐng)域?qū)W習(xí)中,一共執(zhí)行100個(gè)循環(huán),其中每次循環(huán)包括K個(gè)迭代,每個(gè)迭代都對(duì)應(yīng)一個(gè)視頻。在每次訓(xùn)練迭代中,最小批處理由視頻序列中隨機(jī)選取的8幀圖像組成。在每幀圖像上隨機(jī)采樣32個(gè)正樣本(與幀值的IoU(intersection over union)重疊率不小于0.7)和96個(gè)負(fù)樣本(與幀值的IoU重疊率不大于0.5)。因此,每個(gè)最小批處理都包含256個(gè)正樣本和768個(gè)負(fù)樣本。在訓(xùn)練過程中,全連接層和卷積層的學(xué)習(xí)率分別設(shè)置為0.005和0.000 5,權(quán)重衰減、動(dòng)量和梯度剪切閾值分別固定為0.000 5、0.9和10。在GTOT(Li等,2016)數(shù)據(jù)集上進(jìn)行測試時(shí),從RGBT234(Li和Liang,2019)數(shù)據(jù)集中隨機(jī)選擇了78個(gè)視頻作為訓(xùn)練集。在RGBT234數(shù)據(jù)集上進(jìn)行測試時(shí),將GTOT數(shù)據(jù)集(50個(gè)視頻序列)作為訓(xùn)練集。

        2.6 在線跟蹤過程

        3 實(shí)驗(yàn)分析

        3.1 數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)

        GTOT數(shù)據(jù)集包含50個(gè)可見光—熱紅外視頻序列,同時(shí)包含不同的場景,如水池、公共區(qū)域和校園道路等。該數(shù)據(jù)集有7種不同的挑戰(zhàn)因素,分別是大尺度變化(large scale variation,LSV)、快速運(yùn)動(dòng)(fast motion,F(xiàn)M)、低光照(low illumination,LI)、形變(deformation,DEF)、熱交叉(thermal crossover,TC),小目標(biāo)(small object,SO)和遮擋(occlusion,OCC)。

        RGBT234數(shù)據(jù)集是由RGBT210(red green blue-thermal 210)數(shù)據(jù)集(Li等,2017)擴(kuò)展而來,由234個(gè)可見光—熱紅外視頻序列組成。該數(shù)據(jù)集共有12種挑戰(zhàn)因素,分別是運(yùn)動(dòng)模糊(motion blur,MB)、無遮擋(no occlusion,NO)、部分遮擋(partial occlusion,PO)、嚴(yán)重遮擋(heavy occlusion,HO)、低照度(low illumination,LI)、低分辨率(low resolution,LR)、熱交叉(thermal crossover,TC)、形變(deformation,DEF)、快速移動(dòng)(fast motion,F(xiàn)M)、比例變化(scale variation,SV)、背景雜亂(background clutter,BC)和相機(jī)移動(dòng)(camera moving,CM)。最長的視頻序列包含4 000多幀,最短的視頻序列不超過100幀。

        采用精確率(precision rate, PR)和成功率(success rate, SR)作為RGBT目標(biāo)跟蹤的評(píng)價(jià)標(biāo)準(zhǔn),同時(shí)在RGBT234(Li等,2019)和GTOT(Li等,2016)上比較本文方法與其他跟蹤方法的性能。PR是輸出目標(biāo)位置在標(biāo)注真值的閾值距離內(nèi)幀數(shù)所占的百分比。由于GTOT數(shù)據(jù)集中的大多數(shù)跟蹤對(duì)象很小,因此將其閾值距離設(shè)置為5像素。將RGBT234數(shù)據(jù)集的閾值距離設(shè)置為20像素。SR是在標(biāo)注的邊界框和輸出的邊界框之間的IoU重疊率高于設(shè)定閾值的幀數(shù)所占的百分比。

        3.2 在GTOT數(shù)據(jù)集上的評(píng)估

        為了評(píng)估本文方法的性能,在GTOT數(shù)據(jù)集上將本文方法與10個(gè)RGBT跟蹤方法進(jìn)行比較,它們分別是MDNet(Nam和Han,2016)+ RGBT、KCF(kernelized correlation filter)(Henriques等,2015)+RGBT、Struck(Hare等,2016)+RGBT、CN(color name)(Danelljan等,2014)+ RGBT、SCM(sparsity-based collaborative model)(Zhong等,2012)+ RGBT、SGT(sparse graph tracker)(Li等,2017)、SiamDW(deeper and wider siamese networks)(Zhang和Peng,2019)+ RGBT、CMRT(cross-model ranking algorithm for RGB-T tracking)(Li等,2018c)、DAPNet(dense feature aggregation and pruning network)(Zhu等,2019)和RT-MDNet(real-time multi-domain convolutional neural networks)(Jung等,2018)+ RGBT。其中MDNet + RGBT、CMRT、SiamDW + RGBT、SGT和DAPNet是RGBT目標(biāo)跟蹤器,其他跟蹤器是拓展的RGBT目標(biāo)跟蹤器。通過將兩種不同模態(tài)的特征拼接成單個(gè)向量或?qū)峒t外特征視為可見光特征的額外通道,把原本基于RGB的跟蹤器擴(kuò)展為RGBT目標(biāo)跟蹤器。根據(jù)圖4的結(jié)果,在GTOT數(shù)據(jù)集上,本文方法(86.1%,70.9%)的PR和SR分別比基準(zhǔn)跟蹤器MDNet + RGBT(80.0%,63.7%)高6.1%和7.2%。這些實(shí)驗(yàn)數(shù)據(jù)證明了本文方法的有效性。

        從圖4中可以看出,本文方法PR比DAPNet(Zhu等,2019)低2.1%。同時(shí)將本文方法和DAPNet在GTOT數(shù)據(jù)集的7種挑戰(zhàn)因素上進(jìn)行了比較。本文方法在形變(DEF)挑戰(zhàn)下PR、SR分別為88.4%、73.7%,而DAPNet在形變挑戰(zhàn)下的PR、SR分別為91.9%、77.1%。這表明本文方法在形變(DEF)這個(gè)挑戰(zhàn)因素下跟蹤性能低于DAPNet。原因可能是GTOT數(shù)據(jù)集上的目標(biāo)相對(duì)較小,本文方法不能很好地處理小目標(biāo)的尺度變化。

        圖4 GTOT數(shù)據(jù)集上不同跟蹤器的評(píng)估曲線

        3.3 在RGBT234數(shù)據(jù)集上的評(píng)估

        為了評(píng)估本文方法的整體性能,在RGBT234數(shù)據(jù)集上將本文方法與一些RGBT方法進(jìn)行比較,包括RT-MDNet(Jung等,2018)+RGBT、SiamDW(Zhang和Peng,2019)+RGBT、MDNet(Nan和Ham,2016)+RGBT、SOWP(spatially ordered and weighted patch)(Kim等,2015)+RGBT、DAPNet(Zhu等,2019)、CFnet(correlation filter networks)(Valmadre等,2017)+RGBT、CSR-DCF(discriminative correlation filter with channel and spatial reliability)(Luke?ic等,2017)+RGBT、CMRT(Zhu等,2019)、MEEM(multi-expert entropy minimization tracking network)(Zhang等,2014)+RGBT、KCF(Henriques等,2015)+RGBT,其中RT-MDNet+RGBT、MDNet+RGBT、DAPNet、CMRT和SGT是RGBT目標(biāo)跟蹤器,其余的是拓展的RGBT目標(biāo)跟蹤器。從圖5中可以看出,本文方法PR比基準(zhǔn)跟蹤器MDNet + RGBT(72.2%)高7.0%,SR比基準(zhǔn)跟蹤器MDNet + RGBT(49.5%)高6.3%。本文方法的PR和 SR(79.2%和55.8%)分別比DAPNet(76.6%和53.7%)高2.6%和2.1%。

        圖5 RGBT234數(shù)據(jù)集上不同跟蹤器的評(píng)估曲線

        在RGBT234數(shù)據(jù)集不同的挑戰(zhàn)因素下,將本文跟蹤器與其他主流跟蹤器進(jìn)行比較,分別是MDNet+RGBT,DAPNet,RT-MDNet+RGBT,SiamDW+RGBT,CMRT,SOWP+RGBT,M5L,CSR-DCF+RGBT。在表1中詳細(xì)展示了實(shí)驗(yàn)結(jié)果。從表1中可以看出,本文方法幾乎在所有挑戰(zhàn)下均優(yōu)于其他RGBT跟蹤器,尤其是在背景雜亂(BC),遮擋(HO)和形變(DEF)等挑戰(zhàn)下的跟蹤效果尤其突出。表明本文跟蹤器在處理物體外觀變化和不利條件方面具有更好的優(yōu)勢,但是在熱交叉的情況下,本文跟蹤器性能不如DAPNet,這是熱交叉情況下的熱紅外模態(tài)的信息不可靠所致,由于本文方法是將互補(bǔ)特征和模態(tài)特征直接進(jìn)行元素級(jí)相加,因此在熱交叉情況下引入了一些噪聲。但是在其他挑戰(zhàn)中,本文跟蹤器性能優(yōu)于DAPNet。

        表1 在RGB234數(shù)據(jù)集上,不同跟蹤器在不同挑戰(zhàn)上的PR/SR分?jǐn)?shù)比較

        3.4 定性分析

        在RGBT目標(biāo)跟蹤數(shù)據(jù)集中選取了4個(gè)視頻序列,將本文方法和4個(gè)RGBT跟蹤方法進(jìn)行了定性結(jié)果比較,其分別是SiamDW(Zhang和Peng,2019)+ RGBT,C-COT(continuous convolution operator tracker)(Danelljan等,2016),RT-MDNet(Jung等,2018)+ RGBT和MDNet(Nam和Han,2016)+ RGBT??梢暬慕Y(jié)果展示在圖6中。本文跟蹤器能夠有效應(yīng)對(duì)遮擋、背景雜亂和外觀變化等挑戰(zhàn)。圖6(a)(c)所示的背景混亂和部分遮擋的情況下,本文方法很好地區(qū)分目標(biāo)和背景,從而準(zhǔn)確地跟蹤目標(biāo)。圖6(b)所示的高強(qiáng)度照明的條件下,可見光圖像幾乎完全無法定位目標(biāo)物體的位置,而熱紅外圖像提供了額外的信息,本文方法充分利用了熱紅外圖像所提供的信息來對(duì)目標(biāo)的位置進(jìn)行準(zhǔn)確定位。如圖6(d)所示,在攝像機(jī)強(qiáng)烈抖動(dòng)和強(qiáng)光照射的情況下,只有本文方法可以準(zhǔn)確地跟蹤到目標(biāo),而其他方法都跟蹤失敗。

        圖6 不同跟蹤方法的實(shí)例

        3.5 消融分析

        為了進(jìn)一步驗(yàn)證本文方法的各個(gè)組成部分的有效性,在GTOT和RGBT234數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。使用“Baseline”來表示基準(zhǔn)方法,即MDNet+RGBT,是直接在通道方向上級(jí)聯(lián)兩個(gè)模態(tài)的特定特征,并在訓(xùn)練期間使用二分類損失函數(shù)訓(xùn)練模型。實(shí)驗(yàn)包括:1)Baseline+DWL,在通道方向上級(jí)聯(lián)兩個(gè)模態(tài)的特定特征,同時(shí)在訓(xùn)練期間使用動(dòng)態(tài)權(quán)重?fù)p失函數(shù)來優(yōu)化整個(gè)網(wǎng)絡(luò);2)Baseline + DWL + MIFL,使用跨模態(tài)交互和融合模塊來融合不同層的多模態(tài)特征,在訓(xùn)練期間使用動(dòng)態(tài)損失函數(shù)訓(xùn)練模型;3)Baseline + DWL + MIFL+CFL,使用跨模態(tài)交互和融合模塊融合不同層的多模態(tài)特征,同時(shí)利用互補(bǔ)特征學(xué)習(xí)模塊來計(jì)算不同模態(tài)的互補(bǔ)特征,將模態(tài)特定特征和互補(bǔ)特征進(jìn)行融合,最后使用動(dòng)態(tài)損失函數(shù)訓(xùn)練網(wǎng)絡(luò)模型。

        表2展示了在GTOT和RGBT234數(shù)據(jù)集上各個(gè)組成成分的實(shí)驗(yàn)結(jié)果。從表2可以得出:1)Baseline+DWL的結(jié)果優(yōu)于Baseline,在相同設(shè)置的測試環(huán)境下,在RGBT234數(shù)據(jù)集上PR和SR分別提升了3.4%和3.2%,在GTOT數(shù)據(jù)集上PR和SR分別提升了3.5%和3.9%。這表明在訓(xùn)練過程中使用動(dòng)態(tài)權(quán)重?fù)p失函數(shù)以自適應(yīng)優(yōu)化網(wǎng)絡(luò)中的參數(shù),使得訓(xùn)練的模型的魯棒性更高。2)Baseline+DWL+ MIFL的結(jié)果優(yōu)于Baseline+DWL,這表明通過跨模態(tài)交互和融合模塊后得到的多模態(tài)特征比直接在通道上級(jí)聯(lián)兩種模態(tài)的特征所獲得的多模態(tài)特征更具有判別性。3)Baseline+DWL+MIFL+CFL優(yōu)于Baseline+DWL+MIFL,這表明互補(bǔ)特征學(xué)習(xí)模塊有效探索了兩種模態(tài)之間的互補(bǔ)性,模態(tài)互補(bǔ)和特定特征的融合之后能更加魯棒地表示目標(biāo)對(duì)象。從實(shí)驗(yàn)結(jié)果得出,每一個(gè)模塊的加入都會(huì)使跟蹤精度有進(jìn)一步的提升。最后,本文方法和Baseline(MDNet+RGBT)的幀速率分別為1.67幀/s和2.1幀/s。

        表2 在RGBT234和GTOT數(shù)據(jù)集上的成分分析結(jié)果

        4 結(jié) 論

        本文方法通過門機(jī)制對(duì)可見光和熱紅外特征之間的互補(bǔ)性進(jìn)行了有效的挖掘。提出了一個(gè)動(dòng)態(tài)權(quán)重?fù)p失函數(shù),通過對(duì)兩個(gè)特定分支的預(yù)測結(jié)果進(jìn)行一致性和不確定性的約束來優(yōu)化整個(gè)訓(xùn)練模型。在RGBT234和GTOT這兩個(gè)基準(zhǔn)數(shù)據(jù)集上將本文方法與其他跟蹤方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明本文方法優(yōu)于其他方法。

        然而本文方法也存在不足,相對(duì)于實(shí)時(shí)的RGBT跟蹤方法,本文方法在實(shí)時(shí)性方面存在很大的優(yōu)化空間,未來會(huì)考慮加入改進(jìn)的ROI-align(region of interest-align)模塊來提高跟蹤器的速度。同時(shí)本文方法通過門機(jī)制獲取的互補(bǔ)特征,在獲取的特征中可能仍然有一些噪聲,未來也會(huì)將采取一些措施來進(jìn)一步抑制噪聲,以獲得更加魯棒的特征表示。

        猜你喜歡
        跟蹤器集上紅外
        網(wǎng)紅外賣
        光伏跟蹤器陣列跟蹤精度的測算方法研究
        太陽能(2022年3期)2022-03-29 05:15:50
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        Cookie-Cutter集上的Gibbs測度
        淺析一種風(fēng)光儲(chǔ)一體化跟蹤器
        太陽能(2020年3期)2020-04-08 03:27:10
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        超長待機(jī)的自行車位置跟蹤器
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
        電子制作(2019年7期)2019-04-25 13:17:14
        復(fù)扇形指標(biāo)集上的分布混沌
        雙向多軌跡判定方法在目標(biāo)跟蹤中的應(yīng)用研究
        中文字幕一区二区三区的| 国产成+人+综合+亚洲专| 日日噜噜噜夜夜爽爽狠狠视频| 国产伦精品一区二区三区| 四虎永久在线精品免费一区二区 | 精品人妻无码一区二区三区蜜桃一| 五月婷一本到五月天| 亚洲精品中文字幕乱码二区| 性色av色香蕉一区二区蜜桃| а√天堂资源官网在线资源| 日韩a∨精品日韩在线观看| 一区二区无码精油按摩| 日韩免费精品在线观看| 极品少妇小泬50pthepon| 在线视频一区色| 亚洲综合精品在线观看中文字幕 | 国产第19页精品| 亚洲成熟丰满熟妇高潮XXXXX | 国产黄色污一区二区三区| 日本不卡在线视频二区三区| 久久国内精品自在自线图片| 欧美视频九九一区二区| 亚洲欧美成人a∨| 新久久久高清黄色国产| 日韩一区在线精品视频| 中文日韩亚洲欧美制服| 亚洲欧美日韩国产精品网| 亚洲精品大全中文字幕| 男人扒开添女人下部免费视频| 两个黑人大战嫩白金发美女| 久久麻豆精亚洲av品国产精品| 免费在线观看av不卡网站 | 越南女子杂交内射bbwxz| 亚洲精品国产不卡在线观看| 亚洲中文字幕精品久久吃奶| 欧美又大又色又爽aaaa片 | 最新欧美一级视频| 国产精品一区二区偷拍| 鸭子tv国产在线永久播放| 成人无码区免费a片www| 日本最新一区二区三区免费看|