韓明 王景芹 王敬濤 孟軍英 劉教民
摘 要:近年來,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法由于在跟蹤精度和跟蹤效率之間能夠?qū)崿F(xiàn)良好的平衡而備受關(guān)注。通過對基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法的文獻(xiàn)進(jìn)行歸納,對現(xiàn)有孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法進(jìn)行了全面總結(jié),對孿生網(wǎng)絡(luò)的2個分支結(jié)構(gòu)進(jìn)行了討論。首先,介紹了基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤的基本架構(gòu),重點分析了孿生網(wǎng)絡(luò)中主干網(wǎng)絡(luò)的優(yōu)化,以及主干網(wǎng)絡(luò)的目標(biāo)特征提取問題。其次,對目標(biāo)跟蹤過程中的分類和回歸2個任務(wù)展開討論,將其分為有錨框和無錨框2大類來進(jìn)行分析研究,通過實驗對比,分析了算法的優(yōu)缺點及其目標(biāo)跟蹤性能。最后,提出未來的研究重點:1)探索背景信息訓(xùn)練,實現(xiàn)場景中背景信息傳播,充分利用背景信息實現(xiàn)目標(biāo)定位。2)目標(biāo)跟蹤過程中,目標(biāo)特征信息的更加豐富化和目標(biāo)跟蹤框的自適應(yīng)變化。3)從幀與幀之間全局信息傳播,到目標(biāo)局部信息傳播的研究,為準(zhǔn)確定位跟蹤目標(biāo)提供支撐。
關(guān)鍵詞:計算機圖象處理;目標(biāo)跟蹤;孿生網(wǎng)絡(luò);深度學(xué)習(xí);特征提取
中圖分類號:TN520?? 文獻(xiàn)標(biāo)識碼:A
DOI:10.7535/hbkd.2022yx01004
收稿日期:2021-08-04;修回日期:2021-12-20;責(zé)任編輯:王淑霞
基金項目:河北省高等學(xué)??茖W(xué)技術(shù)研究重點項目(ZD2020405);河北省“三三三人才工程”資助項目(A202101102);石家莊市科學(xué)技術(shù)研究與發(fā)展計劃項目(201130181A)
第一作者簡介:韓 明(1984—),男,河北行唐人,副教授,博士,主要從事計算機視覺、圖像處理方面的研究。
通訊作者:王景芹教授。E-mail:jqwang@hebut.edu.cn
Comprehensive survey on target tracking based on Siamese network
HAN Ming1,2,WANG Jingqin2,WANG Jingtao1,MENG Junying1,LIU Jiaomin2
(1.School of Computer Science and Engineering,Shijiazhuang University,Shijiazhuang,Hebei 050035,China;2.State Key Laboratory of Reliability and Intelligence of Electrical Equipment,Hebei University of Technology,Tianjin 300130,China)
Abstract:In recent years,the target tracking algorithm based on Siamese network has attracted much attention because it can achieve a good balance between tracking accuracy and tracking efficiency.Through the intensive study of the literature of target tracking algorithm based on Siamese network,the existing target tracking algorithm based on Siamese network was comprehensively summarized.Firstly,the basic framework of target tracking was introduced based on Siamese network,and the optimized backbone network in Siamese network and its target feature extraction were analyzed.Secondly,the classification and regression tasks in the process of target tracking were discussed,which were divided into two categories of anchor frame and anchor-free frame.The advantages and disadvantages of the algorithm as well as the target tracking performance were analyzed through experimental comparison.Finally,the focus of future research is proposed as following:1) Explore the training of background information,realize the dissemination of background information in the scene,and make full use of background information to achieve target positioning.2) In the process of target tracking,the target feature information is enriched and the target tracking frame is changed adaptively.3) Research from the global information transmission between frames to the target local information transmission provides support for the accurate target positioning and tracking.
Keywords:
computer image processing;target tracking;Siamese network;deep learning;feature extraction
視覺目標(biāo)跟蹤是人機交互、視覺分析和輔助驅(qū)動系統(tǒng)應(yīng)用中最基本的問題,也是計算機視覺中一項基本又具挑戰(zhàn)性的任務(wù)。近年來,目標(biāo)跟蹤取得了一定的研究成果,尤其是隨著深度學(xué)習(xí)的研究,利用大量已知數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練,捕捉目標(biāo)深度語義特征,實現(xiàn)對目標(biāo)外觀表征的同時,增加對語義特征的表征,從而助力目標(biāo)跟蹤[1-2]。結(jié)合深度學(xué)習(xí)目標(biāo)跟蹤算法吸引了大量學(xué)者進(jìn)行不斷的研究和探索。但是在目標(biāo)跟蹤過程中,隨著目標(biāo)運動和背景變化,跟蹤過程中出現(xiàn)的目標(biāo)被遮擋、劇烈變形、光照變化、背景相似物干擾等復(fù)雜情況,導(dǎo)致目標(biāo)跟蹤精度和實時性面臨巨大挑戰(zhàn)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)在處理各種各樣的視覺問題中具有非常優(yōu)秀的表現(xiàn),尤其是在特征提取方面[3-5]。因此一些目標(biāo)跟蹤算法將其嵌入到跟蹤框架中,其中SiamFC[6]就是典型代表。SiamFC[6]通過計算響應(yīng)圖的最大值位置推斷目標(biāo)的位置,將基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤問題轉(zhuǎn)化成一個相似度匹配問題,在超大規(guī)模數(shù)據(jù)集上離線學(xué)習(xí)目標(biāo)特征,并將初始幀作為目標(biāo)跟蹤模板,通過輸入模板圖像和搜索圖像,提取搜索圖像特征,之后與模板特征作相似度匹配,得到得分響應(yīng)圖,然后根據(jù)得分值最大的原則確定目標(biāo)跟蹤的位置。
近年來,基于孿生網(wǎng)絡(luò)架構(gòu)的目標(biāo)跟蹤器因目標(biāo)跟蹤性能高,以及在跟蹤精度和跟蹤效率之間能夠?qū)崿F(xiàn)良好的平衡而受到高度關(guān)注?;趯\生網(wǎng)絡(luò)的目標(biāo)跟蹤器一般分為2個分支:第1個分支[7-9]通過細(xì)化Siamese網(wǎng)絡(luò)的模板子網(wǎng)和實例子網(wǎng),增強了Siamese網(wǎng)絡(luò)的表示能力,這些算法努力實現(xiàn)對目標(biāo)對象的定位,但忽略了對對象大小的估計;第2個分支[10-12]將視覺跟蹤問題視為分類任務(wù)和回歸任務(wù)的結(jié)合,分類任務(wù)將響應(yīng)圖上的特征點分類為目標(biāo)和背景,回歸任務(wù)是通過回歸估計目標(biāo)的準(zhǔn)確狀態(tài)。第2個分支的典型代表是SiamRPN[13],它借鑒了經(jīng)典目標(biāo)檢測算法Faster R-CNN[14]的區(qū)域提議網(wǎng)絡(luò),將跟蹤問題轉(zhuǎn)化到區(qū)域提議網(wǎng)絡(luò)中,該網(wǎng)絡(luò)用于估計新幀內(nèi)目標(biāo)的位置和形狀,從而避免了多尺度測試,大大提高了目標(biāo)的跟蹤速度。TAO等[15]提出了SINT(siamese instance search tracker)來訓(xùn)練一個孿生網(wǎng)絡(luò)識別與初始對象匹配的候選區(qū)域的圖像位置;SiamFC[6]采用互相關(guān)操作融合輸入特征;VALMADRE等[16]首先將相關(guān)濾波器解釋為全卷積連體網(wǎng)絡(luò)中的可微層;CAO等[17]提出了一個動態(tài)加權(quán)模塊,使離線訓(xùn)練的Siamese網(wǎng)絡(luò)具有更強的適應(yīng)性;SiamRPN++[18]在SiamRPN[13]的基礎(chǔ)上通過引入更深層次的神經(jīng)網(wǎng)絡(luò)進(jìn)一步提高其性能;ZHU等[19]提出了一種有效的采樣策略來控制訓(xùn)練數(shù)據(jù)的分布,學(xué)習(xí)到一個更有區(qū)別性的模型。HE等[20]提出了一個雙卷積Siamese網(wǎng)絡(luò),一個分支用于學(xué)習(xí)外觀特征;另一個分支用于學(xué)習(xí)語義特征;SiamMask[21]擴展了SiamRPN[13],增加了一個分支和損失函數(shù),用于二值分割任務(wù),統(tǒng)一了視覺目標(biāo)跟蹤和分割。
基于深度學(xué)習(xí)的目標(biāo)跟蹤算法的綜述研究主要集中在相關(guān)性濾波和神經(jīng)網(wǎng)絡(luò)的分類綜述研究中,文獻(xiàn)[22]基于孿生網(wǎng)絡(luò)的研究進(jìn)行綜述,內(nèi)容包括相關(guān)濾波算法的和孿生網(wǎng)絡(luò)相關(guān)的目標(biāo)跟蹤2大部分,主要對基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤中的典型算法進(jìn)行了綜述。本文基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法的發(fā)展,根據(jù)孿生網(wǎng)絡(luò)的2個分支結(jié)構(gòu)進(jìn)行綜述討論,一方面是Siamese主干網(wǎng)絡(luò)的優(yōu)化及目標(biāo)特征的提取,另一方面是孿生網(wǎng)絡(luò)目標(biāo)跟蹤中的分類任務(wù)和回歸任務(wù),總結(jié)為有錨框和無錨框2大類,根據(jù)討論與分析,對未來孿生網(wǎng)絡(luò)目標(biāo)跟蹤的研究方向進(jìn)行思考。
1 孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法的基本結(jié)構(gòu)
以SiamFC[6]為代表的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法通過端到端的網(wǎng)絡(luò)學(xué)習(xí),計算對比第一幀模板圖像與后續(xù)幀搜索圖像的特征相似度,從而得到相似度得分,得分越高說明2個圖像的相似度越大,孿生網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,孿生網(wǎng)絡(luò)由模板和搜索2個分支組成,模板分支將第一幀圖像作為輸入,用于學(xué)習(xí)目的特征表示;搜索分支將當(dāng)前幀作為圖像輸入,2個分支共享網(wǎng)絡(luò)參數(shù)。
由圖1可知,孿生網(wǎng)絡(luò)對模板圖像和搜索圖像分別經(jīng)過各自分支進(jìn)行訓(xùn)練,并且這2個分支使用的主干網(wǎng)絡(luò)完全一致?;ハ嚓P(guān)函數(shù)fX,Z作為相似度計算函數(shù),計算經(jīng)過φ之后,進(jìn)行特征提取得到特征圖相似性,公式如下:
fX,Z=φX*φZ+b,(1)
式中:φX、φZ分別表示模板圖像Z和搜索圖像X經(jīng)過特征提取網(wǎng)絡(luò)之后得到的特征圖;*為卷積運算;b表示偏移量。
該算法中使用了最簡單的AlexNet[23]作為主干網(wǎng)絡(luò),前5層為卷積層,后3層為全連接層,最后將數(shù)據(jù)輸出到Softmax。
2 Siamese主干網(wǎng)絡(luò)優(yōu)化及圖像特征提取
2.1 Siamese主干網(wǎng)絡(luò)優(yōu)化及應(yīng)用
近幾年,基于AlexNet[23]作為主干網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)跟蹤器[6-7,13,15,24-26]在運行速度和跟蹤準(zhǔn)確性上都備受關(guān)注。但是輕量級的卷積神經(jīng)網(wǎng)絡(luò)Alexnet對于復(fù)雜環(huán)境下的目標(biāo)跟蹤效果較差,尤其是在處理復(fù)雜環(huán)境問題(旋轉(zhuǎn)、光照變化、變形、背景相似等)時,容易出現(xiàn)跟蹤漂移和跟蹤丟失的問題。隨著對深度神經(jīng)網(wǎng)絡(luò)特征嵌入更廣、更深層、更有效的研究,一些學(xué)者用更深更寬的網(wǎng)絡(luò)取代前景網(wǎng)絡(luò),如VGG[27],Inception[28]和ResNet[29]。通過對比發(fā)現(xiàn),用更深更寬的網(wǎng)絡(luò)取代淺層主干網(wǎng)絡(luò),并沒有得到預(yù)期效果,而是出現(xiàn)了因為網(wǎng)絡(luò)深度和寬度的增加導(dǎo)致性能下降的情況。因此近幾年出現(xiàn)了多種主干網(wǎng)絡(luò)優(yōu)化算法。
更深更寬網(wǎng)絡(luò)未能取得更好的跟蹤效果,主要原因是網(wǎng)絡(luò)的架構(gòu)主要是為圖像分類的任務(wù)而設(shè)計的,而不是主要面向目標(biāo)跟蹤,因此在跟蹤任務(wù)中對目標(biāo)的定位精確度不高。通過對Siamese網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析,發(fā)現(xiàn)神經(jīng)元感受野的大小、網(wǎng)絡(luò)步幅和特征填充是影響跟蹤精度的3個重要因素。其中感受野決定了用于計算機特征的圖像區(qū)域,較大的感受野能夠提供較大的圖像上下文,而較小的感受野可能導(dǎo)致無法捕捉目標(biāo)物體的結(jié)構(gòu)。網(wǎng)絡(luò)的步幅會影響定位精度,尤其是對于小尺寸的跟蹤目標(biāo)。同時,網(wǎng)絡(luò)的步幅控制輸出特征映射的大小,從而影響特征的可辨別度和檢測精度。此外,對于完全卷積的結(jié)構(gòu),卷積的特征填充在模型訓(xùn)練中產(chǎn)生了潛在的位置偏差,當(dāng)目標(biāo)移動到搜索范圍邊界附近時,很難做出準(zhǔn)確的預(yù)測。ZHANG等[30]為了實現(xiàn)對更廣更深網(wǎng)絡(luò)的應(yīng)用,首先,基于“瓶頸”殘差塊,提出了一組內(nèi)部裁剪殘差(CIR)單元。CIR單元裁剪出塊內(nèi)受填充影響的特征,從而避免卷積濾波器學(xué)習(xí)位置偏差。然后,通過CIR單元的堆疊,設(shè)計了更深網(wǎng)絡(luò)和更寬網(wǎng)絡(luò)2種網(wǎng)絡(luò)架構(gòu)。通過實驗對比發(fā)現(xiàn),基于“殘差塊”的主干網(wǎng)絡(luò)跟蹤器在跟蹤性能上有較大提升。
為了提升特征提取能力,才華等[31]通過分析殘差網(wǎng)絡(luò)的特點,將深層網(wǎng)絡(luò)ResNet50[32]作為主干網(wǎng)絡(luò),但是在使用時對ResNet50進(jìn)行修改優(yōu)化處理,使其擺脫由于網(wǎng)絡(luò)深度或?qū)挾仍黾釉斐尚阅艽蠓陆档膯栴}。首先,為了實現(xiàn)更多特征的保留減少步長;然后,通過應(yīng)用擴張卷積增加其感受野。網(wǎng)絡(luò)設(shè)計中對淺層特征和深層特征進(jìn)行了融合處理,為了增加感受野,將Conv4中的步長設(shè)置為1,擴張率設(shè)置為2,Conv5的步長設(shè)置為1,擴張率設(shè)置為4。該算法將修改后的ResNet50作為主干網(wǎng)絡(luò)充分利用了殘差網(wǎng)絡(luò)的優(yōu)勢,使其除能夠獲取顏色、形狀等底層特征外,還能夠利用后邊的層獲取特征豐富的語義信息,通過深度互相關(guān),實現(xiàn)更有效的信息關(guān)聯(lián),使其具有更少的參數(shù),從而減少超參數(shù)優(yōu)化。
為了使提取特征更加豐富,SiamRPN++[18]將MobileNet作為主干網(wǎng)絡(luò),其處理速度相對較高,速度高于70幀/s。楊梅等[33]將一種參數(shù)較少、復(fù)雜度較小輕量級網(wǎng)絡(luò)MobileNetV3作為主干網(wǎng)絡(luò)對目標(biāo)進(jìn)行特征提取,并進(jìn)行了3方面的改進(jìn):1)為了保留深層特征圖中足夠多的信息,刪除了2個步長為2的卷積層,將網(wǎng)絡(luò)的總步長由32改為8;2)為了減少padding造成的最大響應(yīng)點的偏移影響,用3×3的卷積核替換原來5×5的卷積核,并利用剪裁操作去除最外層特征;3)為了得到更多的特征信息,將網(wǎng)絡(luò)中bneck的3×3卷積步長改為1,并使用1×1的卷積核調(diào)節(jié)網(wǎng)絡(luò)通道數(shù)。在該算法中FPS達(dá)到了67幀/s,F(xiàn)PS降低的主要原因是由于增加了注意力模塊,在OTB50數(shù)據(jù)集實驗中,精度達(dá)到了0.773,成功率達(dá)到了0.566,相對于SiamFC分別提升了7.5%和5.3%。該方法針對目標(biāo)變形、尺度變化、快速運動、背景干擾、低分辨率等問題,在精確度和成功率上都相對提高,但是網(wǎng)絡(luò)訓(xùn)練好之后一直依賴于第一幀的目標(biāo)模板,當(dāng)出現(xiàn)目標(biāo)遮擋、背景與目標(biāo)相似時容易跟蹤丟失,使得算法整體性能下降。
淺層網(wǎng)絡(luò)的典型代表SiamFC算法和深層網(wǎng)絡(luò)典型代表算法SiamRPN,SiamRPN++等的工作原理以及優(yōu)缺點的對比如表1所示。
隨著對主干網(wǎng)絡(luò)的不同優(yōu)化,孿生網(wǎng)絡(luò)架構(gòu)更加合理,在運行速度、成功率和重疊率上均有不同程度的提升。深層次主干網(wǎng)絡(luò)的應(yīng)用使得網(wǎng)絡(luò)在提取更深層次目標(biāo)特征信息上更加完善,提取的特征信息更加全面,在進(jìn)行目標(biāo)跟蹤時充分利用目標(biāo)淺層特征和深層特征,不僅充分利用了目標(biāo)的外觀信息,同時結(jié)合目標(biāo)的語義信息,使得目標(biāo)跟蹤過程更加準(zhǔn)確。
2.2 Siamese網(wǎng)絡(luò)的圖像特征提取
對主干網(wǎng)絡(luò)進(jìn)行不同的優(yōu)化操作,無論是淺層網(wǎng)絡(luò)還是深層網(wǎng)絡(luò)的優(yōu)化,目的是更加準(zhǔn)確、高效地提取目標(biāo)特征,使特征表達(dá)更加全面,信息更加豐富。傳統(tǒng)的基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法采用卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)圖像的特征,在提取圖像特征時對于每個通道內(nèi)的圖像特征平等對待,從而導(dǎo)致圖像不同通道內(nèi)的不同信息表達(dá)不準(zhǔn)確,對目標(biāo)跟蹤有利的特征得不到增強,冗余特征得不到抑制。同時,對于目標(biāo)跟蹤過程而言,每一幀圖像中都包含有目標(biāo)信息和背景信息,而傳統(tǒng)算法中則沒有考慮二者在目標(biāo)跟蹤中的不同作用。
目標(biāo)跟蹤過程中總會面臨長程跟蹤和目標(biāo)遮擋導(dǎo)致消失問題,當(dāng)目標(biāo)出現(xiàn)遮擋或者是需要長程跟蹤時,對整體跟蹤網(wǎng)絡(luò)架構(gòu)的要求更加嚴(yán)格和高效。為了解決這一問題,SiamRPN[13],SiamRPN++[18]和DaSiamRPN[19]都做了相關(guān)工作,將搜索策略從局部擴展到全局來檢測目標(biāo)是否跟蹤丟失。QIN等[34]設(shè)計的模板更新方法旨在解決跟蹤過程中由于遮擋造成的目標(biāo)丟失問題。目前解決目標(biāo)遮擋問題大致可分為2種解決辦法:其一,在進(jìn)行網(wǎng)絡(luò)離線訓(xùn)練時增加遮擋情況下的訓(xùn)練,提高跟蹤時的準(zhǔn)確性,但是訓(xùn)練數(shù)據(jù)的情況覆蓋不全,使得訓(xùn)練結(jié)果不一定適合于所有的場合;其二,通過匹配樣本與目標(biāo)模板的特征,尤其是深度語義特征,通過對比整體深度特征與目標(biāo)模板的相似性進(jìn)行判斷,但是在這個過程中由于需要匹配整個圖像,導(dǎo)致準(zhǔn)確性降低,時間復(fù)雜度增加,實時性降低。針對這些問題,注意力機制在時空2個領(lǐng)域都表現(xiàn)出了優(yōu)勢。
2.2.1 基于注意力機制的圖像特征提取
注意力機制(attention mechanism,AM)[35]在計算機視覺領(lǐng)域內(nèi)的目標(biāo)檢測、圖像分類等任務(wù)中都得到了不同程度的應(yīng)用,通過注意力機制實現(xiàn)對圖像中有效信息的聚焦關(guān)注。為了使目標(biāo)跟蹤算法更多地關(guān)注空間位置和通道位置上對目標(biāo)跟蹤有利的特征,WANG等[36]提出了殘差注意力機制網(wǎng)絡(luò),在編碼解碼模式下使用注意力模塊,重新定義特征圖,網(wǎng)絡(luò)不僅性能更好,而且對噪聲更魯棒。該算法充分利用殘差注意力機制強化圖像的關(guān)鍵特征,對于目標(biāo)遮擋、目標(biāo)與背景相似、光照變化等復(fù)雜環(huán)境下的目標(biāo)跟蹤具有較強的適應(yīng)能力,但是隨著網(wǎng)絡(luò)注意力模塊的應(yīng)用,算法的實時性還有待提升。HU等[37]引入了一個緊湊的模塊來發(fā)展通道之間的關(guān)系,利用平均池化層的特征來計算通道之間的注意力。
不少研究者將注意力機制引入到孿生網(wǎng)絡(luò)目標(biāo)跟蹤中。首先,對于通道注意力模塊,通過對圖像的不同通道賦予不同的權(quán)重,讓圖像特征的外觀語義更加立體化,在目標(biāo)跟蹤中更加關(guān)注前景目標(biāo)的通道內(nèi)特征;其次,對于空間注意力模塊而言,通過對特征圖上不同空間位置分配不同的權(quán)重,增加前景目標(biāo)的空間位置權(quán)重,進(jìn)而突出前景目標(biāo)。文獻(xiàn)[38—39]均以殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),都是在主干網(wǎng)絡(luò)之后增加了高效通道注意力模塊,增大對首幀信息的利用率,通道注意力模塊對輸入的特征在每個通道中都進(jìn)行全局平均池化和最大池化運算,文獻(xiàn)[38]在不減少通道數(shù)的前提下,進(jìn)行跨通道交互學(xué)習(xí),進(jìn)而豐富目標(biāo)特征信息,進(jìn)一步削弱其他干擾特征,有效解決目標(biāo)跟蹤過程中劇烈形變和旋轉(zhuǎn)等情況。但是文獻(xiàn)[39]為了提升模型對通道的建模速度,將通道依賴關(guān)系限定在相鄰的K(K<9)個通道內(nèi)。
以上研究在通道注意力使用過程中,關(guān)注了每個通道的特征表達(dá),但卻忽略了每個特征點對于整體特征的重要性。宋鵬等[40]提出了整體特征通道識別的自適應(yīng)孿生網(wǎng)絡(luò)跟蹤算法,以ResNet22作為主干網(wǎng)絡(luò),在Conv3階段的第4個卷積層加入高效通道注意力機制,在提取特征之后利用整體特征識別功能計算全局信息,獲取整體特征中各個通道之間的依賴關(guān)系。整體特征通道識別網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
由圖2可知,通過整體感知模塊和特征轉(zhuǎn)換模塊之后逐像素相加,實現(xiàn)了將整體特征與通道特征的聚合,從而提取出更為豐富的語義特征,提高跟蹤精度。
在相同的測試環(huán)境下,從實驗效果來看文獻(xiàn)[38-39]在OTB50測試集上的跟蹤精度高于文獻(xiàn)[40],在VOT2016和VOT2018測試集上的EAO(expected average overlap),文獻(xiàn)[38-39]相對于文獻(xiàn)[40]的0.348 2和0.261 0都要高,其中文獻(xiàn)[38]達(dá)到了0.448和0.405。造成文獻(xiàn)[40]測試數(shù)據(jù)低的原因,主要是使用了簡化的自注意力機制,造成了部分精度的損失。
為了提高模型對于關(guān)鍵特征的關(guān)注度,增大前景貢獻(xiàn),抑制背景特征,充分利用空間信息,不少學(xué)者將通道注意力與空間注意力相結(jié)合,提出時空注意力網(wǎng)絡(luò)或聯(lián)合注意力網(wǎng)絡(luò),從而增強卷積網(wǎng)絡(luò)對正樣本的辨別能力。文獻(xiàn)[41-43]設(shè)計全局聯(lián)合注意力機制,對提取的特征作進(jìn)一步操作,增強網(wǎng)絡(luò)的辨別能力。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,該網(wǎng)絡(luò)基于空間和通道聯(lián)合注意力機制提高特征的判別能力。通過實驗對比可知,該算法在OTB實驗數(shù)據(jù)集上取得了較好的效果,尤其是當(dāng)背景中出現(xiàn)相似物干擾和目標(biāo)快速運動時具有較好的魯棒性,但是當(dāng)目標(biāo)出現(xiàn)長時間遮擋時,這類算法需要再次長時間適應(yīng),性能下降,那么就需要在后續(xù)的研究中對長時間遮擋時的時空序列的圖像連續(xù)性進(jìn)行研究。
其中通道聯(lián)合注意力機制與文獻(xiàn)[38—39]相似,在此基礎(chǔ)上增加了空間注意力模塊,空間注意力模塊通過建立不同特征圖之間的空間信息關(guān)系來增強網(wǎng)絡(luò)的特征表達(dá)能力。其中空間注意力模塊首先通過1×1×256的卷積核對圖像特征進(jìn)行降維處理,然后將降維處理之后的特征圖經(jīng)過Sigmoid函數(shù)進(jìn)行歸一化處理,從而得到特征圖中每一個空間位置的權(quán)重,最后通過每個位置的權(quán)重與特征圖φ(z)相乘得到響應(yīng)圖,響應(yīng)圖中最大值的位置即為目標(biāo)跟蹤位置??臻g注意力模塊工作原理如圖4所示。
為了使圖像特征更好地進(jìn)入網(wǎng)絡(luò),文獻(xiàn)[44]利用Mish函數(shù)代替了ReLU激活函數(shù),提高準(zhǔn)確性和模型的泛化能力。
2.2.2 不同對比算法試驗驗證
為了驗證不同算法的性能優(yōu)劣,本文進(jìn)行了對比試驗,主要從跟蹤精確度、魯棒性和EAO 3個方面進(jìn)行評價,實驗環(huán)境為Intel(R) Xeon(R) CPU E5-2660 V2 @3.50G Hz×40,2個顯卡NVIDIA GTX 1080Ti GPUs共計內(nèi)存16 GB。在上述實驗環(huán)境下,將文獻(xiàn)[38-43]在VOT2016和VOT2018數(shù)據(jù)集上進(jìn)行試驗對比,結(jié)果如表2所示。
由表2可知,在VOT2016數(shù)據(jù)集的測試上,文獻(xiàn)[43]的跟蹤精度結(jié)果優(yōu)于其他算法,文獻(xiàn)[38]魯棒性效果最好,文獻(xiàn)[43]次之。從VOT2018上的跟蹤效果來看,文獻(xiàn)[43]的跟蹤精度依然較高,魯棒性與文獻(xiàn)[39]持平,從EAO的表達(dá)效果來看2個數(shù)據(jù)集中文獻(xiàn)[43]均最優(yōu)。
雖然研究者將目標(biāo)特征通過主干網(wǎng)絡(luò)進(jìn)行了多信息化的提取,使得圖像特征表達(dá)更加清晰。通過通道特征的表達(dá)使得圖像特征的外觀語義更加立體化,通過空間特征的表達(dá)使得圖像的空間位置更加準(zhǔn)確。將二者進(jìn)行聯(lián)合可使目標(biāo)的深度特征提取信息更加豐富,從而進(jìn)一步增強網(wǎng)絡(luò)的判別能力。但是隨著網(wǎng)絡(luò)深度的增加,算法的復(fù)雜度越來越大,這對前期網(wǎng)絡(luò)訓(xùn)練和后期實時跟蹤都將產(chǎn)生負(fù)面影響,因此需要在前期增加更多、更詳細(xì)、更有效的圖像標(biāo)簽,利用這些先驗信息提高訓(xùn)練的精度,同時在特征提取時還應(yīng)研究更加輕型的網(wǎng)絡(luò)結(jié)構(gòu)和算法,進(jìn)一步降低算法的時間復(fù)雜度,在實現(xiàn)目標(biāo)特征豐富化表示的同時,實現(xiàn)目標(biāo)的高效跟蹤。
2.3 孿生網(wǎng)絡(luò)的最新優(yōu)化應(yīng)用
近幾年孿生網(wǎng)絡(luò)的發(fā)展取得了長足進(jìn)步,網(wǎng)絡(luò)結(jié)構(gòu)越來越優(yōu)化,尤其是特征提取越來越側(cè)重于突出前景目標(biāo),以有利于目標(biāo)的準(zhǔn)確定位跟蹤。但是當(dāng)出現(xiàn)復(fù)雜環(huán)境變化,例如光照變化、背景相似物干擾、目標(biāo)形變、目標(biāo)遮擋等情況時,如何設(shè)計出高精度、高魯棒性和實時性的目標(biāo)跟蹤算法仍然具有很大的困難。如何提高復(fù)雜場景下的目標(biāo)跟蹤,實現(xiàn)端到端的跟蹤效果還需要進(jìn)行不斷優(yōu)化。一些學(xué)者對孿生網(wǎng)絡(luò)的結(jié)構(gòu)作優(yōu)化處理,使跟蹤過程精確度更高,魯棒性更強,主要表現(xiàn)在從時空信息、上下文信息等多個角度綜述孿生網(wǎng)絡(luò)的最新優(yōu)化應(yīng)用,同時對目標(biāo)跟蹤過程的模板動態(tài)更新問題進(jìn)行了研究。
2.3.1 多角度孿生網(wǎng)絡(luò)最新目標(biāo)跟蹤應(yīng)用
多角度孿生網(wǎng)絡(luò)目標(biāo)跟蹤研究,不再集中于目標(biāo)特征提取的某些或者某幾個方面,而是針對時空性和上下文信息,針對基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤過程中目標(biāo)遮擋,或者是光照劇烈變化等情況下出現(xiàn)目標(biāo)時空連貫信息缺失,最終導(dǎo)致目標(biāo)跟蹤失敗的問題,而目前大多數(shù)研究沒有考慮時空信息和上下文信息。GCT(graph convolutional tracking)[45-46]采用圖卷積跟蹤方法,該方法綜合考慮了歷史目標(biāo)樣本的時空結(jié)構(gòu)及其對應(yīng)的上下文信息,圖卷積跟蹤(GCT)主要利用時空圖卷積網(wǎng)絡(luò)(GCN)實現(xiàn)歷史目標(biāo)結(jié)構(gòu)化表示,并設(shè)計了一個上下文的GCN,利用當(dāng)前框架的上下文學(xué)習(xí)自適應(yīng)特征進(jìn)行目標(biāo)定位。首先,該算法通過圖結(jié)構(gòu)把前T幀視頻的時空信息連接為一個整體,通過將每一幀中的候選區(qū)域分為M個部分,然后將M個部分組成一個團(tuán),其中每一個團(tuán)代表一個空間信息,然后將不同幀的團(tuán)連接在一起構(gòu)成時空信息。其次,通過圖卷積計算每個節(jié)點的結(jié)果,并再次經(jīng)過上下文的圖卷積將輸出結(jié)果做一次softmax操作,然后輸出模板特征。最終圖卷積網(wǎng)絡(luò)在統(tǒng)一框架下,實現(xiàn)目標(biāo)的時空外觀建模以及上下文感知的自適應(yīng)學(xué)習(xí),最終實現(xiàn)目標(biāo)的準(zhǔn)確定位。
YU等[47]在2020年的CVPR會議上提出了可變形孿生注意力網(wǎng)絡(luò)SiamAttn,該可變形注意力機制可提高網(wǎng)絡(luò)對目標(biāo)特征的表達(dá)能力,在目標(biāo)外觀劇烈變化、相似物干擾等復(fù)雜環(huán)境下具有更強的魯棒性以及更好的區(qū)分前景與背景能力。該網(wǎng)絡(luò)與2.2節(jié)的注意力機制不同,該注意力機制設(shè)計了可變形的自注意力特征和互注意力特征,其中自注意力特征包含空間特征和通道特征,可在空間域?qū)W習(xí)豐富的上下文信息,在通道域進(jìn)行有選擇的權(quán)重賦值,增強通道特征之間的相互依賴性;互注意力特征則負(fù)責(zé)聚合搜索區(qū)域和模板區(qū)域之間的相似特征信息,進(jìn)一步提高特征的區(qū)分能力。
SiamAttn[47]網(wǎng)絡(luò)首先經(jīng)過可變注意力機制提取特征,然后利用SiamRPN[13]提取候選區(qū)域,得出候選區(qū)域得分最高的區(qū)域,然后經(jīng)過區(qū)域修正模塊,對預(yù)測結(jié)果進(jìn)行進(jìn)一步修正,同時生成包含跟蹤目標(biāo)的目標(biāo)框和掩膜,實現(xiàn)準(zhǔn)確跟蹤,整體網(wǎng)絡(luò)架構(gòu)如圖5所示。
通過對比實驗可以發(fā)現(xiàn),SiamAttn算法在VOT這種帶旋轉(zhuǎn)跟蹤框的數(shù)據(jù)集上可以更好地定位目標(biāo),相較于其他算法其定位效果有更為明顯的提升。該算法通過自注意力和互注意力相結(jié)合,提高模型目標(biāo)區(qū)分能力,與其他跟蹤器的區(qū)別在于該方法提供了一種自適應(yīng)的隱式模型特征更新方法,將卷積層和池化層替換為可變形的卷積層和可變形的池化層,用來增加每個像素點的感受野,從而更加準(zhǔn)確、有效地提取目標(biāo)特征。
基于Siamese網(wǎng)絡(luò)的跟蹤器將視覺跟蹤任務(wù)定義為相似性匹配問題。幾乎所有流行的Siamese跟蹤器都是通過目標(biāo)分支和搜索分支之間的卷積特征互相關(guān)聯(lián)來實現(xiàn)相似性學(xué)習(xí)的。但是,由于需要預(yù)先確定目標(biāo)特征區(qū)域的大小,這些互相關(guān)方法要么保留了大量不利的背景信息,要么丟失了大量的前景信息。此外,目標(biāo)與搜索區(qū)域的全局匹配也在很大程度上忽略了目標(biāo)結(jié)構(gòu)和部分層次信息。GUO等[48]設(shè)計了一個部分到部分的信息嵌入網(wǎng)絡(luò),提出了一個目標(biāo)感知孿生圖注意網(wǎng)絡(luò)。通過證明發(fā)現(xiàn)模板和搜索區(qū)域之間的信息嵌入可以用完全二分圖來建模,該圖通過圖的注意力機制來編碼模板節(jié)點和搜索節(jié)點之間的關(guān)系。通過學(xué)習(xí)注意力得分,每個搜索節(jié)點可以有效地從模板中聚合目標(biāo)信息。然后,所有搜索節(jié)點生成一個響應(yīng)圖,該響應(yīng)圖包含豐富的后續(xù)解碼任務(wù)的信息,在此基礎(chǔ)上,提出了一種圖注意模塊(GAM)來實現(xiàn)部分到部分的信息傳播,而不是在模板和搜索區(qū)域之間進(jìn)行全局信息傳播。這種局部與局部相似度匹配方法可以大大降低目標(biāo)形狀和姿態(tài)變化的影響。此外,該算法沒有使用預(yù)先確定的區(qū)域裁剪,而是研究了一種目標(biāo)感知的模板計算機制,以適應(yīng)不同對象的大小和長徑比變化。該算法通過引入GAM,實現(xiàn)了面向?qū)ο蟮男畔⑶度氩呗?,提出了一種新的跟蹤框架,即孿生網(wǎng)絡(luò)圖注意跟蹤(SiamGAT)網(wǎng)絡(luò)。
2.3.2 跟蹤模板更新
目標(biāo)跟蹤過程中單純利用第一幀圖像作為模板進(jìn)行目標(biāo)跟蹤,容易因目標(biāo)遮擋、劇烈光照變化和相似背景等問題出現(xiàn)跟蹤漂移。為解決整個跟蹤過程中僅使用第一幀圖像作為模板的單一問題,QIN等[34]采用高置信度的多模板更新機制來確定模板是否需要更新。
為了防止干擾物和背景特征被添加到模板中,將峰值的得分與相關(guān)能量相對應(yīng),以保證模板的有效性。利用平均峰值相關(guān)能量APCE能夠反映遮擋程度,可通過以下計算得到:
Fmax=max(R),(2)
Fmin=min(R),(3)
APCE=|Fmax-Fmin|2mean∑w,hFw,h-Fmin2,(4)
式中:Fmax,F(xiàn)min和Fw,h分別表示響應(yīng)圖最大值、最小值和坐標(biāo)(w,h)處對應(yīng)的響應(yīng)值;R表示響應(yīng)圖;mean()表示均值函數(shù)。在上述公式中分子代表峰值,分母代表響應(yīng)圖的波動。峰值和波動可以反映對跟蹤結(jié)果的置信程度。當(dāng)目標(biāo)不被遮擋時,APCE變大,反映圖上只有一個尖峰;相反,如果目標(biāo)被遮擋或缺失,APCE顯著降低。
將APCE計算為多個響應(yīng)映射的和,并判斷是否超過了閾值,如果APCE大于閾值,則表明結(jié)果是可靠的,可以進(jìn)行模板更新:
RT=η×RT+(1-η)×RX,(5)
式中:η表示更新率;RT表示模板圖像特征;RX表示高置信度的搜索圖像特征。
3 分類與邊框回歸任務(wù)
SiamRPN算法引入?yún)^(qū)域推薦網(wǎng)絡(luò),將目標(biāo)跟蹤過程中的目標(biāo)相似度匹配問題轉(zhuǎn)化為分類和回歸問題。RPN網(wǎng)絡(luò)分為相似度匹配部分和監(jiān)督部分,其中監(jiān)督部分一個分支用于前景和背景的分類,另外一個分支用于邊框回歸。
3.1 基于有錨框的分類與邊框回歸目標(biāo)跟蹤
SiamRPN[13]采用滑動窗口算法產(chǎn)生大量的錨框,從而生成候選區(qū)域,通過對anchor網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終計算出分類分支的類別預(yù)測結(jié)果,計算出每個anchor屬于背景和前景的概率。在訓(xùn)練過程中,在響應(yīng)得分圖的每個像素點的位置上都生成5個anchor,5個anchor的寬高比分別為[3,2,1,1/2,1/3],由于最后網(wǎng)絡(luò)的輸出特征圖尺寸為17×17,則共設(shè)置1 445(17×17×5)個anchor,但是這些anchor的中心點對應(yīng)搜索圖像中的位置并不是整個搜索圖像,只是搜索圖像中心128×128的區(qū)域。SiamRPN不需要進(jìn)行尺度估計,而是根據(jù)生成的錨框以及網(wǎng)絡(luò)特征,直接預(yù)測目標(biāo)的中心位置,分別使用分類任務(wù)和回歸任務(wù),可能導(dǎo)致預(yù)測目標(biāo)的中心位置出現(xiàn)不匹配的現(xiàn)象,最終使得跟蹤結(jié)果性能降低。
SiamRPN++[18]和DaSiamRPN[19]網(wǎng)絡(luò)同SiamRPN[13]相似,基于RPN的孿生網(wǎng)絡(luò)目標(biāo)跟蹤器主要依賴于密集的錨框策略,實現(xiàn)劇烈形變目標(biāo)的高準(zhǔn)確定位,但是多錨框的設(shè)置使得分類和回歸任務(wù)的復(fù)雜程度增加,同時大量的冗余錨框降低了跟蹤器的跟蹤效率,從而影響跟蹤的速度和精度。
為了解決大量錨框冗余造成的跟蹤速度和精度降低的問題,文獻(xiàn)[49]通過思考anchor的生成問題,將導(dǎo)向錨框網(wǎng)絡(luò)中關(guān)于錨框的解決方法引入目標(biāo)檢測,通過2個條件概率分布實現(xiàn)anchor的生成,公式如下:
p(x,y,w,hI)=p(x,yI)p(w,hx,y,I),(6)
式中:(x,y,w,h)表示圖像I的中心坐標(biāo)和寬高;px,yI和pw,hx,y,I分布分別為給定圖像特征之后anchor中心點的概率分布和給定圖像特征和中心點之后的形狀概率分布。
借鑒文獻(xiàn)[49]的導(dǎo)向錨框算法,文獻(xiàn)[50]將導(dǎo)向錨框RPN網(wǎng)絡(luò)結(jié)合孿生網(wǎng)絡(luò)實現(xiàn)目標(biāo)跟蹤。將SiamRPN中沒有考慮的語義信息增加到網(wǎng)絡(luò)中,利用孿生網(wǎng)絡(luò)提取的語義特征對模板幀進(jìn)行錨框預(yù)測。孿生導(dǎo)向錨框RPN網(wǎng)絡(luò)如圖6所示。
在導(dǎo)向錨框網(wǎng)絡(luò)中利用位置預(yù)測模塊預(yù)測區(qū)域的中心點,從而生成錨框,通過設(shè)定相應(yīng)閾值確定前景目標(biāo)可能出現(xiàn)的位置,從而過濾掉大量的區(qū)域;另外,利用形狀預(yù)測模塊,通過預(yù)測模塊得到錨框中心點學(xué)習(xí)的最佳高度和寬度,實現(xiàn)對目標(biāo)的更好捕捉。同時該算法通過特征自適應(yīng)模塊動態(tài)獲取特征,利用特征調(diào)整實現(xiàn)錨框大小的自適應(yīng)調(diào)整。
李明杰等[51]將孿生區(qū)域提議網(wǎng)絡(luò)(RPN)與錨框掩碼相結(jié)合,將3D卷積操作與FCN[6]網(wǎng)絡(luò)引入到固定卷積操作范圍的錨框掩碼機制。首先,在FCN網(wǎng)絡(luò)上利用3D卷積學(xué)習(xí)連續(xù)3幀圖像的IOU熱度圖的時空信息;然后,在FCN網(wǎng)絡(luò)進(jìn)行全卷積操作,預(yù)測下一幀圖像的錨框掩碼圖片。相較于SiamRPN[13]中的每個錨點對應(yīng)生成K個錨框,該算法的錨框掩碼生成原理如圖7所示,先利用先驗知識,將圖像特征圖與生成的錨框掩碼進(jìn)行點乘運算,得到一個稀疏矩陣。由圖7可知,通過錨框卷積運算之后得分框和回歸框都會出現(xiàn)大量的0,根據(jù)0的數(shù)量濾掉無效錨框,實現(xiàn)真實目標(biāo)錨框的預(yù)測。
基于anchor的孿生網(wǎng)絡(luò)首先需要借助初始人工設(shè)定的錨框,在目標(biāo)跟蹤過程中需要不斷進(jìn)行多次迭代,使目標(biāo)跟蹤框越來越接近真實目標(biāo)?;阱^框的方法通過多次迭代實現(xiàn)了目標(biāo)跟蹤框的逐漸修正,使得跟蹤更加準(zhǔn)確,該方法大多通過滑動窗口的方法實現(xiàn),導(dǎo)致產(chǎn)生大量錨框,使得算法的整體計算復(fù)雜度增加,實時性下降。為了提高算法性能,Siammask[21]采用錨框掩碼進(jìn)行目標(biāo)位置的預(yù)測,該算法對于高幀率視頻以及沒有出現(xiàn)目標(biāo)遮擋和目標(biāo)消失的情況,網(wǎng)絡(luò)性能較高,魯棒性高,但是在遮擋等情況時性能變差。因此,為了進(jìn)一步提高對目標(biāo)的跟蹤性能和跟蹤效率,一些研究人員提出了anchor-free網(wǎng)絡(luò)。
3.2 基于無錨框的分類與邊框回歸目標(biāo)跟蹤
目前主流的基于孿生網(wǎng)絡(luò)的深度學(xué)習(xí)模型SiamRPN[13],SiamRPN++[18],DaSiamRPN[19],SSD(single shot multibox detector)[52]等依賴于一組預(yù)定義的錨框,實現(xiàn)高效的目標(biāo)跟蹤。但是基于錨框的檢測器具有明顯缺點:一方面,需要預(yù)定義一組具有較大參數(shù)和固定超參數(shù)的錨框,使得檢測性能對與錨框相關(guān)的超參數(shù)過于敏感;另一方面,為了解決目標(biāo)跟蹤過程中目標(biāo)的尺度和劇烈形變問題,需要設(shè)置大量錨框,導(dǎo)致正負(fù)樣本嚴(yán)重不平衡,同時增加了算法的復(fù)雜度。為了解決上述問題,有學(xué)者提出了anchor-free的目標(biāo)跟蹤算法。
張睿等[53]采用anchor-free機制,設(shè)計了無錨框網(wǎng)絡(luò),包括回歸分支和分類分支。在回歸分支中利用像素點的位置回歸方法直接預(yù)測采樣點到目標(biāo)區(qū)域邊界的4個距離值,相對于錨框機制而言,可以有效減少人為設(shè)定的超參數(shù)的數(shù)量,同時增加正樣本數(shù)。在分類分支中引入了中心度分支,中心度C(i,j)為
C(i,j)=Tk*(i,j)min(l*,r*)max(l*,r*)×min(t*,b*)max(t*,t*),(7)
式中,定義k*(i,j)=(l*,t*,r*,b*)表示中心度得分圖中任意位置(i,j)所對應(yīng)的采樣點(x,y)到目標(biāo)真實邊界區(qū)域的4個距離。
其中
Tk*(i,j)=1, k*(i,j)(n)>0, n=0,1,2,3,0, other。(8)
式(8)表示采樣點(x,y)是否在目標(biāo)區(qū)域內(nèi),由式(8)可知,如果在目標(biāo)區(qū)域內(nèi)取值為1,否則為0。
將式(8)代入式(7),當(dāng)采樣點落在目標(biāo)區(qū)域外部時,式(7)表示的中心度值為0,對于落入目標(biāo)區(qū)域內(nèi)部的采樣點而言,距離目標(biāo)中心越近中心度值越高,相反,則越低。最后將相同位置的分類結(jié)果與中心度結(jié)果進(jìn)行相乘運算,實現(xiàn)對邊緣點的有效抑制。
FCAF[54]和文獻(xiàn)[55]提出了端到端離線訓(xùn)練的FCAF模型,采用深度網(wǎng)絡(luò)ResNet50提供更深層次的特征表示,同時引入多特征融合模塊,將低級細(xì)節(jié)信息和高級的語義信息進(jìn)行有效融合,提高目標(biāo)的定位性能,用anchor-free 提議網(wǎng)絡(luò)代替候選提議網(wǎng)絡(luò)(region proposal network),AFPN(anchor-free proposal network)網(wǎng)絡(luò)由相關(guān)段和監(jiān)督段組成,其中,相關(guān)段通過深度方向互相關(guān)實現(xiàn),監(jiān)督段由分類分支和回歸分支2個分支組成。另外,為了抑制低質(zhì)量邊界框的預(yù)測,SiamCAR[56]對像素級進(jìn)行分類。SiamCAR算法由2個簡單的子網(wǎng)絡(luò)組成,一個用于特征提取的孿生子網(wǎng)絡(luò),一個用于邊框預(yù)測的分類回歸子網(wǎng)絡(luò),主干網(wǎng)絡(luò)采用ResNet50。 該算法與現(xiàn)有的基于區(qū)域建議的跟蹤器(如SiamRPN[13],SiamRPN++[18]和SPM[22])不同,其提出的框架是anchor-free網(wǎng)絡(luò)。SiamCAR算法通過anchor-free策略,將網(wǎng)絡(luò)的回歸輸出變成了特征圖映射在搜索區(qū)域上的點與選定的目標(biāo)區(qū)域邊界(樣本標(biāo)注gt,ground-truth)4條邊的距離。通過觀察分類得分圖和中心度得分圖,決定最佳目標(biāo)中心點,然后提取最佳目標(biāo)中心點與gt框4條邊的距離,得到預(yù)測框,從而實現(xiàn)跟蹤。但是,SiamCAR算法將預(yù)測的位置映射到原始圖像可能會導(dǎo)致偏差,從而導(dǎo)致跟蹤過程中出現(xiàn)漂移。
為了解決上述問題,在獲得目標(biāo)區(qū)域內(nèi)多個相鄰像素的預(yù)測結(jié)果后,對多個相鄰點的預(yù)測結(jié)果進(jìn)行加權(quán)平均,得到最終目標(biāo)框,但其帶來的后果是增加了計算過程的復(fù)雜度。雖然anchor-free方法可以簡化基于錨的跟蹤器的區(qū)域候選模塊,但是基于語義分割的網(wǎng)絡(luò)輸出仍然需要后續(xù)進(jìn)行處理。
為了提高無錨框全卷積孿生網(wǎng)絡(luò)跟蹤器的跟蹤性能,譚建豪等[57]在訓(xùn)練過程中引入了相似語義干擾物,同時融合高中低3層特征,提高跟蹤器的魯棒性,在無錨框使用上與FCAF[54]和文獻(xiàn)[55]類似,基于像素直接進(jìn)行預(yù)測回歸,在每個位置僅僅預(yù)測一次目標(biāo)的狀態(tài)信息,不再進(jìn)行錨框相關(guān)的編碼過程,減少算法復(fù)雜度。為了提高目標(biāo)跟蹤的準(zhǔn)確性,YUAN等[58]提出了多模板更新的無錨孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法,采用一種基于多層特征的雙融合方法將多個預(yù)測結(jié)果分別進(jìn)行組合,將低級特征映射與高級特征映射連接起來,充分利用空間信息和語義信息。為了使結(jié)果盡可能穩(wěn)定,將多個預(yù)測結(jié)果相結(jié)合得到最終結(jié)果。針對模板更新問題,采用了一種高置信度的多模板更新機制。用平均峰值相關(guān)能量來決定模板是否需要更新,采用模板更新機制實現(xiàn)目標(biāo)跟蹤模板的準(zhǔn)確更新,同時算法中使用無錨框網(wǎng)絡(luò)實現(xiàn)逐像素目標(biāo)跟蹤,直接計算對象類別和邊界框。一個完全卷積的單級目標(biāo)檢測器(FCOS)[59]消除了預(yù)先定義的錨框集,同F(xiàn)CAF[54]類似以逐像素預(yù)測的方式解決目標(biāo)檢測,完全避開了與錨框有關(guān)的大參數(shù)和復(fù)雜計算。CenterNet[60]使用三元組檢測每個對象,包括一個中心關(guān)鍵點和2個角落。這些無錨框方法可以達(dá)到與基于有錨框方法的精確度相似,但是速度更快。
無錨框網(wǎng)絡(luò)計算方法[53-57]網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示,整個網(wǎng)絡(luò)可以分為2個分支:分類分支對每個點進(jìn)行分類,回歸分支對該點的目標(biāo)包圍框進(jìn)行回歸。對于每個響應(yīng)圖,分類網(wǎng)絡(luò)輸出一個分類特征圖和它的2個維度,分別表示對應(yīng)點的前景和背景分?jǐn)?shù)?;貧w分支輸出一個回歸特征圖,并在對應(yīng)點上編碼預(yù)測邊界框的位置。無錨預(yù)測操作完全消除了有錨邊界框相關(guān)的復(fù)雜計算和復(fù)雜的調(diào)參問題。
3.3 有錨框與無錨框網(wǎng)絡(luò)對比
無論是有錨框還是無錨框的網(wǎng)絡(luò)結(jié)構(gòu)都將孿生網(wǎng)絡(luò)的跟蹤任務(wù)分為了分類和回歸2個部分,分類任務(wù)通過對每個像素點進(jìn)行分類實現(xiàn)前景和背景的分類,回歸任務(wù)通過對目標(biāo)位置的回歸實現(xiàn)跟蹤框的回歸,生成回歸特征圖。通過分類和回歸任務(wù)實現(xiàn)對目標(biāo)中心位置和尺度的預(yù)測,實現(xiàn)目標(biāo)的準(zhǔn)確有效跟蹤。但是這些算法在使用分類和回歸任務(wù)時是分別進(jìn)行使用的,二者之間的任務(wù)沒有很好地進(jìn)行聯(lián)系使用,導(dǎo)致部分模型在預(yù)測目標(biāo)前景和背景的分類結(jié)果與邊框的回歸預(yù)測結(jié)果不符合,在跟蹤過程中不能得到最優(yōu)結(jié)果。
基于上述分析,如何將分類任務(wù)的最高得分與邊框預(yù)測的最佳位置相匹配實現(xiàn)最優(yōu)跟蹤,是目前需要研究的問題。通過分析發(fā)現(xiàn),分類損失函數(shù)主要目的是提高正樣本IOU的精度,回歸損失函數(shù)主要是提升邊框回歸的定位精度。因此,如何增強分類任務(wù)與邊框回歸任務(wù)的聯(lián)系成為研究重點。從損失函數(shù)的角度出發(fā),需要對分類損失函數(shù)和回歸損失函數(shù)進(jìn)行改進(jìn)研究,實現(xiàn)分類損失函數(shù)與回歸損失函數(shù)的聯(lián)合使用,從而實現(xiàn)分類的最高得分即是跟蹤邊框的最佳回歸位置,實現(xiàn)二者的關(guān)聯(lián)匹配。
有錨框網(wǎng)絡(luò)和無錨框網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法的工作機制以及優(yōu)缺點對比如表3所示。
4 研究展望
基于孿生網(wǎng)絡(luò)的跟蹤算法在發(fā)展過程中越來越注重算法的實時性和準(zhǔn)確性,尤其是針對復(fù)雜環(huán)境下目標(biāo)跟蹤的研究。各類算法都在不斷地對實時性和準(zhǔn)確性進(jìn)行完善和優(yōu)化,孿生網(wǎng)絡(luò)架構(gòu)的優(yōu)勢逐漸顯現(xiàn),未來基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法研究將從以下幾個方面展開。
1)背景信息的訓(xùn)練。目前大多數(shù)基于孿生網(wǎng)絡(luò)的跟蹤算法均未考慮背景信息,在目標(biāo)訓(xùn)練過程中,只考慮目標(biāo)的外觀信息,但是當(dāng)背景中出現(xiàn)相似性物體干擾時,對背景信息的訓(xùn)練顯得尤為重要。因此,如何實現(xiàn)對背景信息的訓(xùn)練,并實現(xiàn)有價值的信息在場景中進(jìn)行傳播,充分利用目標(biāo)外觀模型和場景信息特征實現(xiàn)對目標(biāo)的準(zhǔn)確定位是值得深入研究的問題。
2)目標(biāo)富含更多自身語義信息的特征提取。目前大多數(shù)算法將目標(biāo)特征作為一個整體與搜索區(qū)域進(jìn)行相似性計算。但是,在跟蹤目標(biāo)過程中往往會產(chǎn)生較大的旋轉(zhuǎn)、位姿變化和嚴(yán)重遮擋,對變化目標(biāo)進(jìn)行全局匹配的魯棒性不強。因此,在目標(biāo)跟蹤過程中,實現(xiàn)更多自身語義信息的嵌入,使目標(biāo)特征更加突出,研究目標(biāo)跟蹤過程中目標(biāo)的大小和寬高比的變化,逐步實現(xiàn)跟蹤框的自適應(yīng)性,是一項重要的研究內(nèi)容。
3)幀與幀之間的信息傳播。孿生網(wǎng)絡(luò)中的模板區(qū)域和搜索區(qū)域之間的信息嵌入是一個全局信息傳播過程,其中模板向搜索區(qū)域傳遞的信息是有限的,信息壓縮過多,最終會導(dǎo)致部分信息出現(xiàn)丟失,因此,需要考慮目標(biāo)跟蹤過程中幀與幀之間目標(biāo)部分的信息傳播,因為在跟蹤過程中目標(biāo)的部分特征相對于形狀和姿態(tài)的變化往往是不變的,更具有魯棒性,對于目標(biāo)的跟蹤定位會更加準(zhǔn)確。幀與幀之間目標(biāo)局部信息的傳播將成為準(zhǔn)確跟蹤定位的重要研究內(nèi)容。
4)跟蹤模型的通用性。在目標(biāo)跟蹤的多種實際場景中,通過大量數(shù)據(jù)集進(jìn)行訓(xùn)練,或者是通過特定數(shù)據(jù)集進(jìn)行離線訓(xùn)練,實現(xiàn)快速、準(zhǔn)確的學(xué)習(xí)到目標(biāo)的特征表示,從而實現(xiàn)準(zhǔn)確、快速定位跟蹤目標(biāo),以及利用跟蹤模型實現(xiàn)通用特征的提取等方面都值得深入研究。
參考文獻(xiàn)/References:
[1] XIAO T,LI H S,OUYANG W L,et al.Learning deep feature representations with domain guided dropout for person re-identification[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR):IEEE,2016:1249-1258.
[2] LIU Q K,CHU Q,LIU B,et al.GSM:Graph similarity model for multi-object tracking[C]//Proceedings of the Twenty-Ninth Interna-tional Joint Conference on Artificial Intelligence.[S.l.]:[s.n.],2020:530-536.
[3] KRISTAN M,MATAS J,LEONARDIS A,et al.The visual object tracking VOT2015 challenge results[C]//2015 IEEE International Conference on Computer Vision Workshop (ICCVW).[S.l.]:IEEE,2015:564-586.
[4] TOSHEV A,SZEGEDY C.DeepPose:Human pose estimation via deep neural networks[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2014:1653-1660.
[5] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2015:3431-3440.
[6] BERTINETTO L,VALMADRE J,HENRIQUES J F,et al.Fully-convolutional Siamese networks for object tracking[C]//Computer Vision-ECCV 2016 Workshops.Cham:Springer International Publishing,2016:850-865.
[7] KUAI Y L,WEN G J,LI D D.Masked and dynamic Siamese network for robust visual tracking[J].Information Sciences,2019,503:169-182.
[8] LI Xin,MA Chao,WU Baoyuan,et al.Target-aware deep tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:1369-1378.
[9] LI Peixia,CHEN Boyu,OUYANG Wanli,et al.GradNet:Gradient-guided network for visual object tracking[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).[S.l.]:IEEE,2019:6161-6170.
[10]侯志強,陳立琳,余旺盛,等.基于雙模板Siamese網(wǎng)絡(luò)的魯棒視覺跟蹤算法[J].電子與信息學(xué)報,2019,41(9):2247-2255.
HOU Zhiqiang,CHEN Lilin,YU Wangsheng,et al.Robust visual tracking algorithm based on Siamese network with dual templates[J].Journal of Electronics & Information Technology,2019,41(9):2247-2255.
[11]FAN Heng,LING Haibin.Siamese cascaded region proposal networks for real-time visual tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:7944-7953.
[12]沈雁,王環(huán),戴瑜興.基于改進(jìn)深度孿生網(wǎng)絡(luò)的分類器及其應(yīng)用[J].計算機工程與應(yīng)用,2018,54(10):19-25.
SHEN Yan,WANG Huan,DAI Yuxing.Deep siamese network-based classifier and its application[J].Computer Engineering and Applications,2018,54(10):19-25.
[13]LI Bo,YAN Junjie,WU Wei,et al.High performance visual tracking with Siamese region proposal network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2018:8971-8980.
[14]REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[15]TAO R,GAVVES E,SMEULDERS A W M.Siamese instance search for tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2016:1420-1429.
[16]VALMADRE J,BERTINETTO L,HENRIQUESJ,et al.End-to-end representation learning for correlation filter based tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2017:5000-5008.
[17]CAO Y,JI H B,ZHANG W B,et al.Visual tracking via dynamic weighting with pyramid-redetection based Siamese networks[J].Journal of Visual Communication and Image Representation,2019(65).DOI:10.1016/j.jvcir.2019.102635.
[18]LI B,WU W,WANG Q,et al.SiamRPN++:Evolution of siamese visual tracking with very deep networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:4277-4286.
[19]ZHU Zheng,WANG Qiang,Li Bo,et al.Distractor-aware siamese networks for visual object tracking[C]// European Conference on Computer Vision,Munich.[S.l.]:ECCV,2018:101-117.
[20]HE A F,LUO C,TIAN X M,et al.A twofold Siamese network for real-time object tracking[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2018:4834-4843.
[21]WANG Q,ZHANG L,BERTINETTO L,et al.Fast online object tracking and segmentation:A unifying approach[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:1328-1338.
[22]陳云芳,吳懿,張偉.基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的目標(biāo)跟蹤算法綜述[J].計算機工程與應(yīng)用,2020,56(6):10-18.
CHEN Yunfang,WU Yi,ZHANG Wei.Survey of target tracking algorithm based on siamese network structure[J].Computer Engineering and Applications,2020,56(6):10-18.
[23]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems.[S.l.]:Curran Associates Inc,2012:1097-1105.
[24]DONG X P,SHEN J B.Triplet loss in Siamese network for object tracking[C]//Computer Vision-ECCV.Cham:Springer International Publishing,2018:472-488.
[25]GUO Q,F(xiàn)ENG W,ZHOU C,et al.Learning dynamic Siamese network for visual object tracking[C]//2017 IEEE International Conference on Computer Vision (ICCV).[S.l.]:IEEE,2017:1781-1789.
[26]ZHANG Yunhua,WANG Lijun,QI Jinqing,et al.Tructured Siamese network for real-time visual tracking[C]// European Conference on Computer Vision.Amsterdam.[S.l.]:ECCV,2018,351-366.
[27]KAREN S ANDREW Z.Very deep convolutional networks for large-scale image recognition[C]// International Conference on Learning Representations.San Diego:ICLR,2015:1-14.
[28]SZEGEDY C,LIU W,JIA YQ,et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:1-9.
[29]HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Amsterdam:IEEE,2016:770-778.
[30]ZHANG Z P,PENG H W.Deeper and wider Siamese networks for real-time visual tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:4586-4595.
[31]才華,王學(xué)偉,朱新麗,等.基于動態(tài)模板更新S的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法[J/OL].吉林大學(xué)學(xué)報(工學(xué)版).[2021-03-18].DOI:10.13229/j.cnki.jdxbgxb20200962.
CAI Hua,WANG Xuewei,ZHU Xinli,et al.Siamese network target tracking algorithm based on dynamic template updating[J/OL].Journal of Jilin University(Engineering and Technology Edition).[2021-03-18].DOI:10.13229/j.cnki.jdxbgxb20200962.
[32]馬素剛,趙祥模,侯志強,等.一種基于ResNet網(wǎng)絡(luò)特征的視覺目標(biāo)跟蹤算法[J].北京郵電大學(xué)學(xué)報,2020,43(2):129-134.
MA Sugang,ZHAO Xiangmo,HOU Zhiqiang,et al.A visual object tracking algorithm based on features extracted by deep residual network[J].Journal of Beijing University of Posts and Telecommunications,2020,43(2):129-134.
[33]楊梅,賈旭,殷浩東,等.基于聯(lián)合注意力孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法[J].儀器儀表學(xué)報,2021,42(1):127-136.
YANG Mei,JIA Xu,YIN Haodong,et al.Object tracking algorithm based on Siamese network with combined attention[J].Chinese Journal of Scientific Instrument,2021,42(1):127-136.
[34]QIN X F,ZHANG Y P,CHANG H,et al.ACSiamRPN:Adaptive context sampling for visual object tracking[J].Electronics,2020,9(9):1528.
[35]WANG Q,TENG Z,XING J L,et al.Learning attentions:Residual attentional Siamese network for high performance online visual tracking[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4854-4863.
[36]WANG F,JIANG M Q,QIANC,et al.Residual attention network for image classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Hawaii:IEEE,2017:6450-6458.
[37]HU J,SHEN L,SUN G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[38]柏羅,張宏立,王聰.基于高效注意力和上下文感知的目標(biāo)跟蹤算法[J/OL].北京航空航天大學(xué)學(xué)報.[2021-03-10].https://kns.cnki.net/kcms/detail/detail.aspx?FileName=BJHK20210308000&DbName=CAPJ2021.
BAI Luo,ZHANG Hongli,WANG Cong.Target tracking algorithm based on efficient attention and context awareness[J/OL].Journal of Beijing University of Aeronautics and Astronautics.[2021-03-10].https://kns.cnki.net/kcms/detail/detail.aspx?FileName=BJHK-20210308000&DbName=CAPJ2021.
[39]邵江南,葛洪偉.融合殘差連接與通道注意力機制的Siamese目標(biāo)跟蹤算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2021,33(2):260-269.
SHAO Jiangnan,GE Hongwei.Siamese object tracking algorithm combining residual connection and channel attention mechanism[J].Journal of Computer-Aided Design & Computer Graphics,2021,33(2):260-269.
[40]宋鵬,楊德東,李暢,等.整體特征通道識別的自適應(yīng)孿生網(wǎng)絡(luò)跟蹤算法[J].浙江大學(xué)學(xué)報(工學(xué)版),2021,55(5):966-975.
SONG Peng,YANG Dedong,LI CHANG,et al.An adaptive Siamese network tracking algorithm based on global feature channel recognition[J].Journal of Zhejiang University (Engineering Science),2021,55(5):966-975.
[41]齊天卉,張輝,李嘉鋒,等.基于多注意力圖的孿生網(wǎng)絡(luò)視覺目標(biāo)跟蹤[J].信號處理,2020,36(9):1557-1566.
QI Tianhui,ZHANG Hui,LI Jiafeng,et al.Siamese network with multi-attention map for visual object tracking[J].Journal of Signal Processing,2020,36(9):1557-1566.
[42]程旭,崔一平,宋晨,等.基于時空注意力機制的目標(biāo)跟蹤算法[J].計算機科學(xué),2021,48(4):123-129.
CHENG Xu,CUI Yiping,SONG Chen,et al.Object tracking algorithm based on temporal-spatial attention mechanism[J].Computer Science,2021,48(4):123-129.
[43]ZHANG D L,LV J G,CHENG Z,et al.Siamese network combined with attention mechanism for object tracking[C]//The International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences.[S.l]:[s.n.],2020:1315-1322.
[44]ZHANG F B,WANG X F.Object tracking in Siamese network with attention mechanism and mish function[J].Academic Journal of Computing & Information Science,2021,4(1):75-81.
[45]GAO J Y,ZHANG T Z,XU C S.Graph convolutional tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:4644-4654.
[46]YAN S J,XIONG Y J,LIN D H.Spatial temporal graph convolutional networks for skeleton-based action recognition[C].The 32nd AAAI Conference on Artificial Intelligence.USA:Artificial Inteligence,2018:7444-7452.
[47]YU Y C,XIONG Y L,HUANG W L,et al.Deformable Siamese attention networks for visual object tracking[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2020:6727-6736.
[48]GUO D Y,SHAO Y Y,CUI Y,et al.Graph attention tracking[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2021:9538-9547.
[49]WANG J Q,CHEN K,YANG S,et al.Region proposal by guided anchoring[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:2960-2969.
[50]尚欣茹,溫堯樂,奚雪峰,等.孿生導(dǎo)向錨框RPN網(wǎng)絡(luò)實時目標(biāo)跟蹤[J].中國圖象圖形學(xué)報,2021,26(2):415-424.
SHANG Xinru,WEN Yaole,XI Xuefeng,et al.Target tracking system based on the Siamese guided anchor region proposal network[J].Journal of Image and Graphics,2021,26(2):415-424.
[51]李明杰,馮有前,尹忠海,等.一種用于單目標(biāo)跟蹤的錨框掩碼孿生RPN模型[J].計算機工程,2019,45(9):216-221.
LI Mingjie,F(xiàn)ENG Youqian,YIN Zhonghai,et al.An anchor mask siamese RPN model for single target tracking[J].Computer Engineering,2019,45(9):216-221.
[52]LIU W,ANGUELOV D,ERHAND,et al.SSD:Single shot multibox detector[C]// Computer Vision-ECCV 2016.Las Vegas:Springer International Publishing,2016:21-37.
[53]張睿,宋荊洲,李思昊.基于無錨點機制與在線更新的目標(biāo)跟蹤算法[J].計算機工程與應(yīng)用,2021,57(20):210-220.
ZHANG Rui,SONG Jingzhou,LI Sihao.Object tracking with anchor-free and online updating[J].Computer Engineering and Applications,2021,57(20):210-220.
[54]HAN G,DU H,LIU J X,et al.Fully conventional anchor-free Siamese networks for object tracking[J].IEEE Access,2019,7:123934-123943.
[55]杜花.基于全卷積無錨框?qū)\生網(wǎng)絡(luò)的目標(biāo)跟蹤算法研究[D].南京:南京郵電大學(xué),2020.
DU Hua.Research on Object Tracking with Fully Conventional Anchor-free Siamese Network[D].Nanjing:Nanjing University of Posts and Telecommunications,2020.
[56]GUO Dongyan,WANG Jun,CUI Ying,et al.SiamCAR:siamese fully convolutional classification and regression for visual tracking[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2020:6268-6276.
[57]譚建豪,鄭英帥,王耀南,等.基于中心點搜索的無錨框全卷積孿生跟蹤器[J].自動化學(xué)報,2021,47(4):801-812.
TAN Jianhao,ZHENG Yingshuai,WANG Yaonan,et al.AFST:Anchor-free fully convolutional Siamese tracker with searching center point[J].Acta Automatica Sinica,2021,47(4):801-812.
[58]YUAN T T,YANG W Z,LI Q,et al.An anchor-free Siamese network with multi-template update for object tracking[J].Electronics,2021,10(9):1067.
[59]TIAN Z,SHEN C H,CHENH,et al.FCOS:Fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Long Beach:IEEE,2019:9626-9635.
[60]ZHOU Xingyi,WANG Dequan,PHILIPP K.Objects as Points[C]// IEEE Conference on Computer Vision and Pattern Recognition.Long Beach:CVPR,2019:1-12.
3475501908271