王 暐, 付飛亞, 雷 灝, 唐自力
(中國人民解放軍63870部隊(duì),陜西 渭南 714299)
作為計(jì)算機(jī)視覺的一個(gè)重要研究方向,視覺跟蹤長期以可見光圖像為研究對象[1],但可見光圖像在光照較差及雨、霧、霾等氣候條件下的成像效果不理想,導(dǎo)致跟蹤算法性能下降[2]。熱紅外相機(jī)在上述惡劣環(huán)境中的成像質(zhì)量更高[1-2],因此,將可見光和熱紅外圖像進(jìn)行融合,利用二者信息的互補(bǔ)能夠?qū)崿F(xiàn)更穩(wěn)定的跟蹤。目前,可見光紅外跟蹤(RGB and Thermal infrared tracking,RGB-T)已成為一個(gè)新的研究熱點(diǎn),在無人駕駛、監(jiān)控、軍事等領(lǐng)域具有廣泛的應(yīng)用前景[2-3]。
RGB-T 跟蹤在傳統(tǒng)可見光跟蹤算法的基礎(chǔ)上進(jìn)行多模態(tài)擴(kuò)展。Li 等[4]較早進(jìn)行了RGB-T的跟蹤研究,在基于稀疏表示的跟蹤框架下,將單模特?cái)U(kuò)展為多模態(tài),引入自適應(yīng)模態(tài)加權(quán)系數(shù)。Zhang 等[5]通過計(jì)算不同模態(tài)的融合權(quán)重,探索了后融合在RGB-T 跟蹤中的作用,同時(shí)引入運(yùn)動(dòng)估計(jì)提高跟蹤性能。
隨著深度學(xué)習(xí)在可見光跟蹤中的成功應(yīng)用,深度學(xué)習(xí)也被應(yīng)用于RGB-T 跟蹤。Li 等[6]利用兩個(gè)結(jié)構(gòu)相同、參數(shù)經(jīng)過微調(diào)的卷積神經(jīng)網(wǎng)絡(luò)分別提取可見光和紅外圖像的特征,進(jìn)行在線特征選擇,然后在核相關(guān)濾波[7]框架下跟蹤。Zhang等[8]基于經(jīng)典跟蹤算法DiMP[9],全面考察了像素級、特征級和決策級的融合策略,指出特征級融合對RGB-T 跟蹤的性能提升最為顯著,但該方法使用了大量額外的訓(xùn)練數(shù)據(jù)。
基于Siamese 網(wǎng)絡(luò)的跟蹤[10-11]是可見光跟蹤算法中的主流,具有優(yōu)異的跟蹤性能。Zhang等[12]在SiamRPN++[11]的基礎(chǔ)上,提出一種特征互補(bǔ)和干擾物識別的RGB-T 跟蹤算法,設(shè)計(jì)專用的多模態(tài)特征融合模塊對可見光特征和紅外特征進(jìn)行交互融合。但這類方法對RGB-T 跟蹤的性能提升并不明顯,通常需要采用較多的額外數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練才能達(dá)到RGB-T 跟蹤的基線水平,同時(shí)兩個(gè)模態(tài)各有兩路卷積網(wǎng)絡(luò),使得模型較為繁瑣復(fù)雜。
MDNet[13]是一種相對較小的跟蹤網(wǎng)絡(luò)(參數(shù)量約為4.4M),將它擴(kuò)展到可見光和紅外兩個(gè)模態(tài)時(shí),對訓(xùn)練數(shù)據(jù)的量要求較低,符合該領(lǐng)域的發(fā)展現(xiàn)狀,因此,較多的學(xué)者關(guān)注MDNet 架構(gòu)下的RGB-T 跟蹤算法。文獻(xiàn)[14]提出了一種MANet 算法,將MDNet 中的卷積層定義為模態(tài)共享適配器,針對紅外和可見光圖像設(shè)計(jì)模態(tài)適配器,將MDNet 中的全連接層定義為目標(biāo)適配器,同時(shí)考慮了模態(tài)間共享特征、模態(tài)專有特征以及目標(biāo)特征。ADRNet[15],CAT[16],APFNet[17]均利用圖像序列的屬性提升跟蹤性能,為每個(gè)屬性類別的視頻訓(xùn)練專門的網(wǎng)絡(luò),然后將基于屬性的特征進(jìn)行不同方式的融合。這些算法能夠在一定程度上提高跟蹤的精度和穩(wěn)定性,但是在訓(xùn)練階段需要額外提供圖像的屬性信息,同時(shí)專用網(wǎng)絡(luò)也會(huì)增加算法的復(fù)雜性。Wang 等[18]利用相關(guān)性對MDNet 中的卷積特征進(jìn)行增強(qiáng),建模得到了模態(tài)內(nèi)、模態(tài)間和圖像幀間的相關(guān)關(guān)系,建立了紅外和可見光圖像特征的相互作用機(jī)制,取得較好的跟蹤結(jié)果。在該研究的基礎(chǔ)上,Xu 等[19]提出跨模態(tài)交互學(xué)習(xí)框架,將兩個(gè)模態(tài)的特征進(jìn)行逐像素的相關(guān),嘗試挖掘不同模態(tài)間更直接的相關(guān)關(guān)系,提升模態(tài)間的信息傳播。
上述研究的焦點(diǎn)基本都在可見光特征與紅外特征的有效融合上,融合方式主要以加權(quán)和串接為主??梢姽夂图t外圖像以相同的視角獲取,不僅具有模態(tài)的差異性,而且在圖像結(jié)構(gòu)和內(nèi)容上也具有共性,模態(tài)間的特征融合應(yīng)同時(shí)考慮這種差異性和共性。文獻(xiàn)[18-19]通過直觀的相關(guān)操作對這種共性進(jìn)行了探索和增強(qiáng),但沒有進(jìn)行更深入的挖掘。近年來,注意力機(jī)制在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域大放異彩[20-22],特別是Transformer[20]。利用Transformer 的編碼器能夠?qū)μ卣鬟M(jìn)行增強(qiáng),而解碼器模塊能夠?qū)崿F(xiàn)兩種模態(tài)特征自然且充分的交互。
本文采用transformer 的編碼器和解碼器對兩個(gè)模態(tài)的特征進(jìn)行有效融合,增強(qiáng)可見光和紅外特征,并在融合后的特征中保留兩個(gè)模態(tài)的互補(bǔ)和共性信息,最終提升RGB-T 跟蹤的性能。
MDNet[13]是一種采用離線預(yù)訓(xùn)練和在線更新結(jié)合的視覺跟蹤算法,其網(wǎng)絡(luò)由三個(gè)卷積層(CNN)和三個(gè)全連接層(FC)組成。在RGB-T跟蹤任務(wù)中,針對可見光和紅外圖像分別設(shè)置一路卷積,并將卷積特征進(jìn)行融合,即可將MDNet擴(kuò)展至多模態(tài)跟蹤。其算法框架如圖1 所示,包括雙路卷積層、融合網(wǎng)絡(luò)和全連接層等三部分。
圖1 基于MDNet 的RGB-T 跟蹤算法Fig.1 Basis framework of MDNet-based RGB-T tracking method
網(wǎng)絡(luò)的輸入為候選圖像塊,輸出為該圖像塊為目標(biāo)的概率,每一幀的跟蹤結(jié)果為概率最大的圖像塊。MDNet 的卷積網(wǎng)絡(luò)已經(jīng)針對可見光跟蹤進(jìn)行了充分的訓(xùn)練,能夠提取相應(yīng)的卷積特征進(jìn)行跟蹤。在跟蹤前僅需要對卷積層進(jìn)行微調(diào),并對融合網(wǎng)絡(luò)和全連接層進(jìn)行初始化和訓(xùn)練;在線跟蹤過程中,僅對全連接層進(jìn)行微調(diào)和訓(xùn)練。
Transformer 首先在文獻(xiàn)[20]中被提出,并應(yīng)用于機(jī)器翻譯任務(wù)。Transformer 由多個(gè)注意力模塊相互串聯(lián)構(gòu)成,每個(gè)注意力模塊的輸入為整個(gè)句子,具有全局的表達(dá)能力。最初的Transformer 中采用兩種注意力模塊,編碼器和解碼器的結(jié)構(gòu)如圖2 所示。編碼器中,輸入序列zl-1首先映射生成q,k,v,三者進(jìn)行注意力(Attention)運(yùn)算:
圖2 Transformer 結(jié)構(gòu)Fig.2 Structure of transformer
該式通常采用矩陣化運(yùn)算,d為k的維度。對z?l進(jìn)行殘差操作(Add),經(jīng)過映射和一個(gè)多層感知機(jī)(Multilayer Perception, MLP),即為編碼器的輸出zl。
解碼器和編碼器的結(jié)構(gòu)基本相同,區(qū)別為解碼器多進(jìn)行一個(gè)自注意力操作,并在第二個(gè)注意力操作中將k和v替換為外部輸入x的映射。文獻(xiàn)[20]中還采用位置編碼、多頭注意力等設(shè)置,本文不再詳述。
Transformer 結(jié)構(gòu)目前已應(yīng)用在圖像分類[21]、目標(biāo)檢測[23]和目標(biāo)跟蹤[24]等計(jì)算機(jī)視覺任務(wù)中,并取得了較好的效果,驗(yàn)證了編碼器-解碼器的注意力機(jī)制對視覺任務(wù)的有效性。APFNet[17]在RGB-T 跟蹤中首先引入Transformer,但僅作為其融合網(wǎng)絡(luò)的眾多模塊中的一個(gè),且只設(shè)計(jì)兩個(gè)編碼器和一個(gè)解碼器對特征進(jìn)行增強(qiáng)。消融實(shí)驗(yàn)表明,該Transformer 模塊的引入并未大幅提升RGB-T 跟蹤性能。與APFNet 不同,本文設(shè)計(jì)了一個(gè)完全由Transformer 結(jié)構(gòu)組成的融合網(wǎng)絡(luò),用以驗(yàn)證Transformer 的注意力結(jié)構(gòu)對多模態(tài)特征增強(qiáng)和融合的有效性。
本文對可見光和紅外兩個(gè)模態(tài)的特征融合進(jìn)行深入挖掘,在基于MDNet 的RGB-T 跟蹤框架下,提出一種基于注意力交互的RGB-T 跟蹤算法(Attention Interaction based RGB-T Tracking method,AIT)。AIT 的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,包括卷積網(wǎng)絡(luò)、全連接網(wǎng)絡(luò)和融合網(wǎng)絡(luò),其中前兩個(gè)網(wǎng)絡(luò)與MDNet 中相同。融合網(wǎng)絡(luò)的核心是特征增強(qiáng)和交互模塊(Feature Enhance and Interaction module,F(xiàn)EI),它利用自注意力特征增強(qiáng)編碼器(Self-feature Enhance Encoder,SEE)對紅外和可見光圖像特征進(jìn)行增強(qiáng),利用互注意力特征交互解碼器(Cross-feature Interaction Decoder,CID)對兩個(gè)模態(tài)的圖像進(jìn)行交互融合。為了充分利用多層卷積特征,融合網(wǎng)絡(luò)對每層卷積特征均采用FEI 進(jìn)行處理,并利用FEI 對處理后的融合特征進(jìn)行進(jìn)一步的融合和增強(qiáng),以有效提高跟蹤算法的性能。
圖3 基于自注意力交互的RGB-T 跟蹤算法總體結(jié)構(gòu)Fig.3 Framework of attention interaction based RGB-T tracking method
原始的Transformer 結(jié)構(gòu)由編碼器和解碼器串聯(lián)組成。為了實(shí)現(xiàn)更有效的特征增強(qiáng)和交互融合,這里采用相同的結(jié)構(gòu),利用兩層編碼器實(shí)現(xiàn)模態(tài)內(nèi)的特征增強(qiáng)、兩層編碼器實(shí)現(xiàn)跨模態(tài)的特征交互。特征增強(qiáng)和交互模塊的結(jié)構(gòu)如圖4 所示,由兩個(gè)自注意力特征增強(qiáng)編碼器(SEE)和兩個(gè)互注意力特征交互解碼器(CID)組成,SEE 和CID 的細(xì)節(jié)分別如圖5(a)和5(b)所示。
圖4 特征增強(qiáng)和交互模塊結(jié)構(gòu)Fig.4 Structure of FEI module
圖5 自注意力增強(qiáng)編碼器和互注意力交互解碼器構(gòu)圖Fig.5 Structure of Self-feature Enhanced Encoder(SEE)and Cross-feature Interaction Decoder(CID)
SEE 的輸入為單一模態(tài)的卷積特征,與原始Transformer 不同,本文沒有對特征進(jìn)行升維和降維處理。首先直接將輸入特征Frgb(以可見光模態(tài)為例,紅外模態(tài)處理方式相同)按照卷積的空間維度進(jìn)行變換,設(shè)Frgb的維度為H×W×C,H和W分別為特征的空間高寬,C為卷積特征通道數(shù),則索引Q、鍵K、值V的維度為HW×C,表示有HW個(gè)向量,每個(gè)向量維度是C,且Q=K=V。然后進(jìn)行自注意力運(yùn)算,得到:
其中:Conv1×1表示1×1 卷積,Res 表示殘差連接。
SEE 第二層編碼器結(jié)構(gòu)與第一層相同,但輸入中,索引Q、鍵值K由最初的特征Frgb維度變換得到,值V由第一層增強(qiáng)的特征維度變換得到,經(jīng)第二層編碼器增強(qiáng)后的特征表示為上述操作表述為:
CID 在結(jié)構(gòu)上與SEE 類似。為了實(shí)現(xiàn)可見光和紅外兩個(gè)模態(tài)的交互融合,利用注意力機(jī)制進(jìn)行兩個(gè)模態(tài)特征的相互調(diào)節(jié)。以紅外特征對可見光特征進(jìn)行調(diào)節(jié)為例,CID 兩層解碼器的索引Q、鍵K均來自SEE 增強(qiáng)后的紅外特征第一層解碼器的值V由SEE 增強(qiáng)后的可見光特征維度變換得到,第二層解碼器的值V來自第一層解碼器調(diào)節(jié)交互后的特征。將上述操作表述為:
為了充分利用低層到高層的所有卷積特征,對3 個(gè)卷積層的特征都進(jìn)行了特征增強(qiáng)和交互,得到兩個(gè)模態(tài)分層增強(qiáng)和交互后的特征為了進(jìn)一步在層間進(jìn)行特征的增強(qiáng)和融合,對同一模態(tài)的多層融合特征進(jìn)行維度變換并串接,得到和如圖3(b)所示。將得到的兩個(gè)特征作為FEI 的輸入,進(jìn)行多層特征總體的增強(qiáng)和融合,最后將FEI 的兩個(gè)輸出特征串接,得到兩個(gè)模態(tài)的融合特征Ffuse。
所提網(wǎng)絡(luò)的離線訓(xùn)練需要考慮:(1)兩路卷積層需要分別學(xué)習(xí)可見光和紅外圖像的特征;(2)全連接層重新初始化,以適應(yīng)融合特征的輸入;(3)多層的特征增強(qiáng)和交互模塊具備特征增強(qiáng)和跨模特的交互能力。在APFNet 等算法中,研究人員采用多階段離線訓(xùn)練方式逐個(gè)模塊進(jìn)行訓(xùn)練,但訓(xùn)練過程較為繁瑣。本文提出對各模塊進(jìn)行聯(lián)合訓(xùn)練,同步優(yōu)化卷積層、全連接層和融合模塊。
通過分析,卷積層和全連接層的參數(shù)量與MDNet 基本相同(卷積層參數(shù)量為1.8M+1.8M,全鏈接層參數(shù)量為5M)。在FEI 結(jié)構(gòu)下,解碼器和編碼器中采用傳統(tǒng)的MLP,融合網(wǎng)絡(luò)的參數(shù)量將超過100M,對其進(jìn)行完全初始化的訓(xùn)練不利于網(wǎng)絡(luò)的收斂,因此,本文提出將解碼器和編碼器中的MLP 改為1×1 卷積,將融合網(wǎng)絡(luò)的參數(shù)量降至6M,以實(shí)現(xiàn)聯(lián)合訓(xùn)練。聯(lián)合訓(xùn)練的學(xué)習(xí)率設(shè)置為:卷積層0.000 01,全連接層0.001,融合網(wǎng)絡(luò)0.000 1,訓(xùn)練的迭代次數(shù)為1 500。
在線跟蹤階段,在第一幀初始化FC6 層,微調(diào)FC4 和FC5 層,后續(xù)幀也僅對這3 個(gè)全連接層進(jìn)行微調(diào),F(xiàn)C4 和FC5 的學(xué)習(xí)率為0.000 1,F(xiàn)C6層學(xué)習(xí)率為0.001,網(wǎng)絡(luò)的其他層參數(shù)固定。其余細(xì)節(jié)請參考MDNet[13]和APFNet[14]。
綜上,AIT 算法的在線跟蹤流程如下。
實(shí)驗(yàn)硬件平臺配置如下:CPU 為Intel? Xeon E5-2630 v4,內(nèi)存為32 GB,GPU 為NVIDIA GeForce RTX 1080Ti,操作系統(tǒng)為 Ubuntu 22.04 LTS,使用pytorch 1.0.1,python 3.7,CUDA 10.2 a 環(huán)境。
GTOT 數(shù)據(jù)集[24]:該數(shù)據(jù)集包含50 個(gè)可見光-紅外視頻序列,共有15 000 幀圖像,采集場景有道路、行人密集區(qū)域等,標(biāo)注了尺度變化、快速運(yùn)動(dòng)、目標(biāo)形變、熱交疊、小目標(biāo)、遮擋和低光照等7 類對跟蹤具有挑戰(zhàn)性的標(biāo)簽。
RGBT234 數(shù)據(jù)集[1]:這是目前應(yīng)用最普遍的RGB-T 跟蹤數(shù)據(jù)集,包含234 個(gè)可見光-紅外視頻序列,總幀數(shù)超過234 000 幀,標(biāo)注了12 類屬性標(biāo)簽和遮擋水平等。
LasHeR 數(shù)據(jù)集[3]:該數(shù)據(jù)是目前最大的RGB-T 跟蹤數(shù)據(jù)集,包含1 224 個(gè)可見光-紅外視頻序列,其中979 個(gè)序列被劃分為訓(xùn)練集,245 個(gè)被劃分為測試集。
?
本文采用精確率(Precision Rate,PR)和成功率(Success Rate,SR)作為各數(shù)據(jù)集的評價(jià)指標(biāo)。對某個(gè)數(shù)據(jù)集,精確率定義為跟蹤算法輸出的目標(biāo)位置與標(biāo)注位置的像素距離小于或等于給定閾值的幀數(shù)同該數(shù)據(jù)集總幀數(shù)的百分比。通過給定不同的閾值得到算法對數(shù)據(jù)集的PR 曲線。為了更直觀地比較,在PR 曲線中取一個(gè)典型PR值對算法進(jìn)行排名。GTOT 數(shù)據(jù)集中圖像的分辨率較低,目標(biāo)的像素尺寸小,取閾值為5 對應(yīng)的精確率為典型值,RGBT234 和LasHeR 數(shù)據(jù)集中,取閾值為20 對應(yīng)的精確率為典型值。此外,定義成功率曲線,曲線的橫坐標(biāo)為閾值,閾值范圍為[0, 1],曲線縱坐標(biāo)值為跟蹤算法輸出的邊界框與標(biāo)注邊界框之間的交并比(Intersection of Union,IoU)大于該閾值的幀數(shù)同數(shù)據(jù)集總幀數(shù)的百分比,成功率的典型值定義為該成功率曲線下的面積。后續(xù)分析中的具體數(shù)值對比均采用上述典型值。
為了展示所提算法的有效性,實(shí)驗(yàn)選擇現(xiàn)有的主流RGB-T 跟蹤算法作為對比算法,包括APFNet[17],F(xiàn)ANet[25],MANet[14],HDINet[26],M5L[27],CMPP[18],JMMAC[5],CAT[16],DAFNet[28],DAPNet[29],MaCNet[30],以及基礎(chǔ)MDNet在RGB-T 跟蹤任務(wù)上簡單處理擴(kuò)展后的MDNet+RGBT。其中,APFNet 和CMPP 具有最好的跟蹤性能。
采用RGBT234 數(shù)據(jù)集對所提算法進(jìn)行離線訓(xùn)練,然后測評GTOT 數(shù)據(jù)集,結(jié)果如圖6 所示。相較于基礎(chǔ)的MDNet+RGBT 算法,AIT 的跟蹤精確率和成功率分別提升了11.6% 和10.1%。圖6 中,多數(shù)算法在GTOT 數(shù)據(jù)集上具有較高的跟蹤性能,趨近飽和,表明該數(shù)據(jù)在規(guī)模和難度上已經(jīng)不足以充分評估RGB-T 跟蹤算法。
圖6 AIT 及對比算法在GTOT 數(shù)據(jù)集上的跟蹤結(jié)果Fig. 6 Evaluation results of AIT and compared algorithms on GTOT dataset
采用GTOT 對所提AIT 算法進(jìn)行離線訓(xùn)練,圖7 為所提算法與對比算法在RGBT234 數(shù)據(jù)集上的跟蹤結(jié)果。如圖7 所示,AIT 算法取得最優(yōu)的跟蹤結(jié)果,與原始MDNet+RGBT 相比,AIT 在精確率和成功率上分別提升了11.4%和8.6%,說明特征的交互融合對RGB-T 跟蹤的重要性。與已有算法中性能最優(yōu)的APFNet 算法相比,AIT 在精確率和成功率上分別高出0.9%和0.2%。需要注意的是,APFNet 在離線訓(xùn)練階段利用視頻的屬性信息和多階段的訓(xùn)練策略,而AIT 僅僅是在MDNet 的基礎(chǔ)上利用FEI 進(jìn)行特征增強(qiáng)和融合,進(jìn)一步說明了FEI 的有效性。
圖7 AIT 及對比算法在RGBT234 數(shù)據(jù)集上的跟蹤結(jié)果Fig.7 Evaluation results of AIT and compared algorithm on RGBT234 dataset
雖然LasHeR 數(shù)據(jù)集提供了專用的訓(xùn)練數(shù)據(jù),但為了與已有算法保持一致,依然采用GTOT 進(jìn)行離線訓(xùn)練,圖8 為AIT 算法在LasHeR 數(shù)據(jù)集的測試集上的跟蹤結(jié)果。與前兩個(gè)數(shù)據(jù)集不同,該數(shù)據(jù)集的發(fā)布較晚,僅提供了部分較新算法的跟蹤結(jié)果,因此在該數(shù)據(jù)集上的對比算法有所不同,包括APFNet,DMCNet[31],DAPNet,CAT,DAFNet,F(xiàn)ANet 和CMR[32]。如圖8所示,LasHeR 數(shù)據(jù)集的跟蹤難度較大,但AIT 算法依然取得了最優(yōu)的跟蹤結(jié)果,在精確率上比已有的最好算法APFNet 和DMCNet 分別高0.9%和1.9%,在成功率上分別高0.1%和0.8%,說明了AIT 算法的有效性。
圖8 AIT 及對比算法在LasHeR 測試集上的跟蹤結(jié)果Fig.8 Evaluation results of AIT and compared algorithms on LasHeR testing set
為了驗(yàn)證對所提融合網(wǎng)絡(luò)設(shè)計(jì)的合理性,進(jìn)行了消融實(shí)驗(yàn)。AIT 算法的幾個(gè)變種包括:(1)AIT_ch,這個(gè)版本中將編碼器和解碼器的注意力按照通道(channel)維度進(jìn)行操作;(2)AIT_spch,將編碼器/解碼器中的第二層注意力改為通道維度操作,第一層依然為空間維度;(3)AIT_conv3,僅利用第三層卷積層進(jìn)行跟蹤;(4)AIT_nolastEFI,在三個(gè)卷積層特征分別增強(qiáng)和融合后,直接進(jìn)行維度變換和串接,不增加最后一個(gè)EFI 模塊。表1 為AIT 與這4 個(gè)變種在RGBT234 數(shù)據(jù)集上的跟蹤結(jié)果。
表1 AIT 及其變種在RGBT234 數(shù)據(jù)集上的跟蹤結(jié)果Tab.1 PR/SR scores of AIT and its variants on RGBT234 dataset
表1 中,AIT 優(yōu)于AIT_ch 和AIT_spch,表明在本文融合網(wǎng)絡(luò)結(jié)構(gòu)中,選用特征空間維度注意力操作優(yōu)于特征通道維度。在特征方面,AIT 明顯優(yōu)于AIT_conv3 和AIT_nolastEFI,表明多層特征的有效性和最后一個(gè)EFI 模塊的有效性。
本文提出了一種基于注意力交互的RGB-T跟蹤算法,從可見光和紅外兩種模態(tài)圖像的特征融合出發(fā)設(shè)計(jì)融合網(wǎng)絡(luò),引入注意力機(jī)制實(shí)現(xiàn)了特征增強(qiáng)和跨模態(tài)的特征交互。在傳統(tǒng)Transformer 注意力網(wǎng)絡(luò)的基礎(chǔ)上,通過利用1×1 卷積替換全連接層等方式減小網(wǎng)絡(luò)規(guī)模??疾炝瞬煌瑢泳矸e特征對跟蹤性能的影響,提出了多層卷積融合的網(wǎng)絡(luò)結(jié)構(gòu)。AIT 算法在GTOT,RGBT234 和LasHeR 三個(gè)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,跟蹤結(jié)果優(yōu)于文獻(xiàn)[17-18]中提出的基線算法,驗(yàn)證了在RGB-T 跟蹤中注意力機(jī)制對多模態(tài)特征融合的有效性。