趙元龍,單玉剛,袁 杰,趙康迪
(1.新疆大學(xué) 電氣工程學(xué)院,烏魯木齊 830017;2.湖北文理學(xué)院 教育學(xué)院,湖北 襄陽(yáng) 441053)
視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方向,普遍地運(yùn)用在智能監(jiān)控、移動(dòng)終端、無(wú)人駕駛以及軍事勘測(cè)等領(lǐng)域[1]。在實(shí)際場(chǎng)景目標(biāo)跟蹤中,如何解決尺度變化、相似性干擾、遮擋等問(wèn)題成為研究熱點(diǎn)。
近年來(lái),隨著深度學(xué)習(xí)在目標(biāo)識(shí)別、檢測(cè)等領(lǐng)域的廣泛應(yīng)用,越來(lái)越多的研究人員投入到基于深度學(xué)習(xí)的目標(biāo)跟蹤算法研究中。Danelljan 等[2]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與空間正則化判別相關(guān)濾波器(Spatially Regularized Discriminative Correlation Filter,SRDCF)結(jié)合,提出了DeepSRDCF 算法,利用深度學(xué)習(xí)網(wǎng)絡(luò)增強(qiáng)了特征的外觀(guān)表征能力,但網(wǎng)絡(luò)參數(shù)過(guò)多導(dǎo)致跟蹤速度不滿(mǎn)足實(shí)時(shí)性要求。為了進(jìn)一步提高跟蹤速度,Bertinetto 等[3]將全卷積網(wǎng)絡(luò)融入孿生網(wǎng)絡(luò)結(jié)構(gòu)中提出了SiamFC(Siamese Fully-Convolutional)算法,通過(guò)卷積網(wǎng)絡(luò)計(jì)算兩條分支中圖像的相關(guān)性,提高了算法的實(shí)時(shí)性,但復(fù)雜環(huán)境下的目標(biāo)跟蹤效果欠佳。Danelljan 等[4]提出的連續(xù)卷積算子跟蹤器(Continuous Convolution Operator Tracker,C-COT)算法采用多分辨率高維特征圖,將不同分辨率的特征圖通過(guò)隱式插值的方式插入連續(xù)空間域,有效地提高了跟蹤精度,然而深度特征的使用需要訓(xùn)練大量濾波器,導(dǎo)致算法復(fù)雜度較高。Danelljan 等[5]在C-COT 算法的基礎(chǔ)上對(duì)濾波器降維,提出了高效卷積算子(Efficient Convolution Operators,ECO)算法,該算法利用混合高斯模型表征樣本,降低了算法復(fù)雜度,跟蹤速度雖然有所提升,但復(fù)雜場(chǎng)景中魯棒性略有下降。Nam 等[6]提出的TCNN(CNN in a Tree structure)算法利用多個(gè)CNN 構(gòu)成樹(shù)結(jié)構(gòu),通過(guò)共享卷積層的所有參數(shù),節(jié)省了存儲(chǔ)空間,但沒(méi)有解決部分幀中目標(biāo)被遮擋致使跟蹤失敗的問(wèn)題。Li等[7]將區(qū)域建議網(wǎng)絡(luò)加入SiamFC 框架,提出了SiamRPN(Siamese Region Proposal Network)算法,雖然增強(qiáng)了目標(biāo)的判別性,但跟蹤過(guò)程中位置預(yù)測(cè)和尺度估計(jì)存在誤差,容易出現(xiàn)漂移現(xiàn)象。Wang 等[8]在SiamFC 算法的基礎(chǔ)上進(jìn)行改進(jìn),提出了SiamMask 算法。SiamMask 將掩模特征應(yīng)用于目標(biāo)跟蹤任務(wù),實(shí)現(xiàn)了視覺(jué)目標(biāo)分割(Video Object Segmentation,VOS)與視覺(jué)目標(biāo)跟蹤(Video Object Tracking,VOT)的統(tǒng)一,但對(duì)于復(fù)雜情景中目標(biāo)遮擋、相似性干擾等問(wèn)題仍需進(jìn)一步優(yōu)化。
上述算法均不能很好地應(yīng)對(duì)尺度變化、相似性干擾、遮擋等問(wèn)題,為此,本文提出一種基于實(shí)例分割與畢達(dá)哥拉斯模糊決策的目標(biāo)跟蹤算法。針對(duì)大多數(shù)正常幀,通過(guò)選擇基于MaskIoU(Mask Intersection over Union)的匹配方式或基于外觀(guān)的匹配方式權(quán)衡運(yùn)行速度和精度;對(duì)于大范圍遮擋或目標(biāo)消失這樣的特殊幀,使用基于卡爾曼濾波的軌跡預(yù)測(cè)法預(yù)測(cè)目標(biāo)位置,有效地提高了成功率;同時(shí)采用基于畢達(dá)哥拉斯模糊決策[9]的模板更新機(jī)制DFPN(Decision Fusion of Pythagoras fuzzy Number)決定是否更新目標(biāo)模板和更換匹配方式,有效地防止了漂移問(wèn)題,提高了魯棒性。實(shí)驗(yàn)結(jié)果表明,本文算法能夠準(zhǔn)確地在存在尺度變化、相似性干擾、遮擋等問(wèn)題的視頻序列上進(jìn)行跟蹤。
在本文算法中,目標(biāo)模板用來(lái)表示目標(biāo)信息。如圖1 所示,目標(biāo)模板Tem包含目標(biāo)的邊界框Tbox、分割掩碼Tmask,根據(jù)邊界框Tbox內(nèi)裁實(shí)例圖塊Tpatch。相應(yīng)地,預(yù)測(cè)結(jié)果Pre包含了預(yù)測(cè)目標(biāo)的邊界框Pbox、分割掩碼Pmask、根據(jù)邊界框Pbox內(nèi)裁實(shí)例圖塊Ppatch。設(shè)當(dāng)前幀ft的目標(biāo)狀態(tài)為Ct,則:
圖1 目標(biāo)模板Fig.1 Object template
本文跟蹤算法屬于檢測(cè)跟蹤(tracking-by-detection),使用YOLACT++(improved You Only Look At CoefficienTs)實(shí)例分割網(wǎng)絡(luò)[10]作為檢測(cè)器,與檢測(cè)算法相比,實(shí)例分割網(wǎng)絡(luò)能夠提供更多的目標(biāo)信息,例如掩碼信息,以便跟蹤部分實(shí)現(xiàn)多種匹配方式。跟蹤框架如圖2 所示,在實(shí)例分割網(wǎng)絡(luò)的掩碼分支(mask branch)上引入基于MaskIoU 的匹配方式,在邊界框分支(box branch)上引入基于外觀(guān)的匹配方式,同時(shí)融合卡爾曼濾波器(Kalman Filter,KF)來(lái)縮小候選目標(biāo)范圍和預(yù)測(cè)特殊情景中的目標(biāo)位置?;诋呥_(dá)哥拉斯模糊決策的模板更新機(jī)制DFPN 對(duì)預(yù)測(cè)結(jié)果進(jìn)行質(zhì)量鑒定,并以此決定是否更新目標(biāo)模板和更換匹配方式。對(duì)當(dāng)前幀的處理分為4 個(gè)步驟。
圖2 本文算法的跟蹤框架Fig.2 Tracking framework of the proposed algorithm
1)采用基于MaskIoU 的匹配方式生成臨時(shí)的初步結(jié)果。首先確定目標(biāo)的搜索區(qū)域reg(見(jiàn)圖3),將它輸入YOLACT++分割網(wǎng)絡(luò),生成大量的候選預(yù)測(cè);然后采用基于MaskIoU 的快速匹配,在候選預(yù)測(cè)中找到初步預(yù)測(cè)結(jié)果。
圖3 搜索區(qū)域regFig.3 Region of search reg
2)DFPN 判斷初步預(yù)測(cè)結(jié)果的正確性和質(zhì)量,確定目標(biāo)模板是否更新。DFPN1、DFPN2 都是DFPN,只不過(guò)DFPN1、DFPN2 的輸入不同,所以在DFPN 后加1 和2 來(lái)區(qū)分。DFPN1、DFPN2 的決策結(jié)果為D0 或者D1,D0 表示預(yù)測(cè)結(jié)果質(zhì)量高,目標(biāo)模板將完全被初步結(jié)果所取代,并生成最終結(jié)果;D1 表示預(yù)測(cè)結(jié)果質(zhì)量低,初始結(jié)果將被丟棄,目標(biāo)模板保持不變,將進(jìn)一步采用其他方式預(yù)測(cè)目標(biāo)。
3)判斷當(dāng)前幀ft是否需要基于外觀(guān)的重檢測(cè)。如果遇到目標(biāo)漏檢、遮擋等特殊情景,則需要使用基于外觀(guān)的匹配方式重新檢測(cè)目標(biāo)。在進(jìn)行基于外觀(guān)的重檢測(cè)時(shí),是將整個(gè)幀而不是上述搜索區(qū)域送入YOLACT++網(wǎng)絡(luò);然后,通過(guò)基于外觀(guān)的匹配方式從所有候選預(yù)測(cè)中選擇一個(gè)新的結(jié)果,再次執(zhí)行第2)步以生成新的最終結(jié)果。
4)判斷ft是否需要軌跡預(yù)測(cè)法預(yù)測(cè)目標(biāo)位置。如果目標(biāo)消失或被大范圍遮擋,則需要使用基于卡爾曼濾波的軌跡預(yù)測(cè)法預(yù)測(cè)目標(biāo)位置;否則,不需要對(duì)ft重新檢測(cè),將對(duì)下一幀ft+1進(jìn)行處理。
對(duì)于大多數(shù)正常幀,使用MaskIoU 進(jìn)行快速匹配,以提升跟蹤速度。首先,根據(jù)歷史幀的目標(biāo)運(yùn)動(dòng)矢量信息(位置、移動(dòng)速度等)確定目標(biāo)的搜索區(qū)域reg(見(jiàn)圖3),將它輸入YOLACT++網(wǎng)絡(luò),生成大量的候選預(yù)測(cè)。然后采用基于MaskIoU 的匹配方式,在所有候選預(yù)測(cè)中找到初步預(yù)測(cè)結(jié)果。傳統(tǒng)算法采用邊界框交并比(Intersection over Union,IoU)匹配,只能從位置信息上匹配目標(biāo),容易造成模板漂移。本文使用MaskIoU,結(jié)合了目標(biāo)的輪廓信息與位置信息,以減少模板漂移現(xiàn)象。
1.2.1 搜索區(qū)域
搜索區(qū)域的大小在一定程度上影響著分割與跟蹤結(jié)果的質(zhì)量[8]。如果對(duì)出現(xiàn)在場(chǎng)景中的所有對(duì)象都進(jìn)行特征提取、匹配,將會(huì)增加系統(tǒng)的計(jì)算成本,因此有必要采用一定的方式預(yù)測(cè)運(yùn)動(dòng)目標(biāo)可能出現(xiàn)的區(qū)域以減少冗余,提高目標(biāo)跟蹤的速度。SiamRPN 和SiamMask 以上一幀目標(biāo)框?yàn)橹行?,將目?biāo)框尺寸放大2 倍作為當(dāng)前幀目標(biāo)可能出現(xiàn)的范圍[7-8]。如圖3 所示,本文搜索區(qū)域reg以上一幀目標(biāo)框Tbox為基礎(chǔ),先利用卡爾曼濾波法預(yù)測(cè)當(dāng)前幀目標(biāo)的中心點(diǎn),然后根據(jù)目標(biāo)移動(dòng)的快慢確定搜索區(qū)域的尺寸大小。
1.2.2 MaskIoU快速匹配
其中n表示候選預(yù)測(cè)個(gè)數(shù)。
在產(chǎn)生預(yù)測(cè)結(jié)果之后,保持Tmask、Pmask區(qū)域不變,將Tmask、Pmask以外區(qū)域的像素值變?yōu)?,記為:
其中函數(shù)Ω()可以將像素值變?yōu)?。
MT、MP提供了目標(biāo)在模板幀和當(dāng)前幀中的位置、外觀(guān)和分割信息。計(jì)算MT、MP的IoU 值Ipos,該值表示模板幀中的目標(biāo)與當(dāng)前幀中目標(biāo)的位置重合度,能夠進(jìn)一步從位置信息確認(rèn)預(yù)測(cè)結(jié)果的正確性。視頻序列的幀率越高,上下幀之間目標(biāo)位置越接近,Ipos值越大,則預(yù)測(cè)結(jié)果是跟蹤目標(biāo)的可能性越大。將Im、Ipos送入模板更新機(jī)制DFPN1 中,DFPN1 將對(duì)預(yù)測(cè)結(jié)果進(jìn)行質(zhì)量評(píng)估,并根據(jù)評(píng)估結(jié)果決定是否更新目標(biāo)模板以及是否進(jìn)行外觀(guān)匹配。
外觀(guān)匹配網(wǎng)絡(luò)是一個(gè)添加了空間金字塔池化(Spatial Pyramid Pooling,SPP)層的孿生網(wǎng)絡(luò)[11],如圖4 所示,它的輸入是目標(biāo)模板中的實(shí)例圖塊Tpatch和候選預(yù)測(cè)結(jié)果每個(gè)輸入將生成它們各自的嵌入向量。這兩個(gè)向量之間的歐氏距離較小,說(shuō)明兩個(gè)圖塊是相似的,反之亦然。
圖4 加入SPP的孿生網(wǎng)絡(luò)框架Fig.4 Architecture of Siamese network with SPP
標(biāo)準(zhǔn)CNN 的輸入尺寸是固定的,當(dāng)任意尺寸的圖像塊輸入這些網(wǎng)絡(luò),會(huì)導(dǎo)致識(shí)別精度降低。將SPP 層放在特征提取層和第一個(gè)全連接層中間,可以使網(wǎng)絡(luò)能夠接受任意尺寸的圖像塊作為輸入且不影響精度,避免了因縮放分割對(duì)象而造成的信息損失[11]。3 層空間金字塔的池化層結(jié)構(gòu)為{(4×4),(2×2),(1×1)},改進(jìn)后池化層結(jié)構(gòu)為{(3×3),(2×2),(1×1)},如圖5 所示。改進(jìn)后的空間金字塔能夠滿(mǎn)足本文實(shí)驗(yàn)的要求,并且進(jìn)入全連接層的特征向量由21(4×4+2×2+1×1)個(gè)減少到14(3×3+2×2+1×1)個(gè),對(duì)應(yīng)全連接層的神經(jīng)元數(shù)量減少了1/3,在一定程度上提升了跟蹤速度。
圖5 改進(jìn)后的SPPFig.5 Improved SPP
其中:Sim()表示計(jì)算相似度的孿生網(wǎng)絡(luò),n表示候選預(yù)測(cè)個(gè)數(shù)。
取預(yù)測(cè)結(jié)果對(duì)應(yīng)的分割掩碼Pmask,它充分展示了預(yù)測(cè)結(jié)果的輪廓信息。Pmask與目標(biāo)模板分割掩碼Tmask的IoU 值Spro能夠從一定程度上體現(xiàn)目標(biāo)輪廓的重合度。將Sm、Spro送入到模板更新機(jī)制DFPN2 中,與1.2.2 節(jié)一樣,DFPN2 將根據(jù)預(yù)測(cè)結(jié)果質(zhì)量評(píng)估結(jié)果決定是否更新目標(biāo)模板以及是否使用基于卡爾曼濾波的軌跡預(yù)測(cè)法進(jìn)行目標(biāo)位置預(yù)測(cè)。
在目標(biāo)消失、大范圍遮擋這類(lèi)特殊情景下,無(wú)論是基于MaskIoU 的快速匹配還是基于孿生網(wǎng)絡(luò)的外觀(guān)匹配都會(huì)跟蹤失敗。針對(duì)這類(lèi)特殊情景,本文提出了一種基于卡爾曼濾波的軌跡預(yù)測(cè)法預(yù)測(cè)目標(biāo)位置。預(yù)測(cè)過(guò)程如式(6)所示:
其中:Δt表示目標(biāo)速度系數(shù),大小根據(jù)目標(biāo)在相鄰兩幀之間Tbox的IoU 值確定,該IoU 值若小于設(shè)定閾值,表示目標(biāo)運(yùn)動(dòng)速度非常大,需要在預(yù)測(cè)時(shí)提高速度分量的比重,此時(shí)將Δt設(shè)置為1;相反,表示目標(biāo)運(yùn)動(dòng)緩慢,則將Δt設(shè)置為一個(gè)較小的數(shù)0.01。
1.5.1 畢達(dá)哥拉斯模糊決策
設(shè)X為一個(gè)論域,則該論域X中的一個(gè)畢達(dá)哥拉斯模糊集(Pythagorean Fuzzy Set,PFS)可表示為:
其中:對(duì)于集合P中的任意x∈X而言,映射μp:X→[0,1]表示它的隸屬度;映射vp:X→[0,1]表示它的非隸屬度。πp(x)表示它的不確定性,稱(chēng)之為猶豫度:
一個(gè)PFS 中的某一元素(μp(x),vp(x))稱(chēng)為畢達(dá)哥拉斯模糊數(shù)(Pythagorean Fuzzy Number,PFN),也可表示為p=p(μ,v),其中μ為隸屬度,v為非隸屬度。Peng 等[9]在考慮猶豫度的影響下提出得分函數(shù):
將猶豫度納入得分函數(shù)中,高效地利用了決策信息,在遇到隸屬度與非隸屬度相等而無(wú)法區(qū)分PFN 情形時(shí),可以通過(guò)比較它們的猶豫度進(jìn)行區(qū)分[9]。
1.5.2 模板更新機(jī)制
本文算法中將畢達(dá)哥拉斯模糊決策應(yīng)用于模板更新機(jī)制。如圖2 所示,基于MaskIoU 的快速匹配和基于孿生網(wǎng)絡(luò)的外觀(guān)匹配,產(chǎn)生的預(yù)測(cè)結(jié)果Pre都會(huì)由模板更新機(jī)制DPFN決定是否更新為模板。式(8)中μ和v為隸屬度和非隸屬度,在本文中分別表示為對(duì)當(dāng)前預(yù)測(cè)結(jié)果更新為模板的贊成度和懷疑度;猶豫度πp(x)表示對(duì)贊成度或懷疑度的偏向。模板更新機(jī)制如圖6 所示。
圖6 模板更新機(jī)制DFPNFig.6 Template update mechanism DFPN
如圖6(a),DFPN1 的輸入有兩個(gè):一是MaskIoU 匹配過(guò)程中,候選預(yù)測(cè)與目標(biāo)模板掩碼Tmask的最高IoU 值Im;二是表示模板幀與當(dāng)前幀目標(biāo)重合度的值Ipos。令
如圖6(b),DFPN2 的輸入也是兩個(gè)值:一是外觀(guān)匹配過(guò)程中,候選預(yù)測(cè)中與目標(biāo)模板圖塊Tpatch外觀(guān)相似度的最高值Sm;二是表示模板幀與當(dāng)前幀中目標(biāo)輪廓重合度的值Spro。令
DPFN 的決策過(guò)程如式(11)所示:
本文算法使用Python 語(yǔ)言調(diào)用PyTorch 深度學(xué)習(xí)框架實(shí)現(xiàn),操作系統(tǒng)為Windows 10 專(zhuān)業(yè)版,顯卡使用NVIDIA GTX1080Ti GPU(11 GB),處理器為lntel Core i7 -11700K CPU @ 4.90 GHz。
實(shí)驗(yàn)中,YOLACT++實(shí)例分割網(wǎng)絡(luò)的訓(xùn)練分為3 步進(jìn)行,首先使用ImageNet 分類(lèi)數(shù)據(jù)集對(duì)ResNet-101 進(jìn)行預(yù)訓(xùn)練,然后將訓(xùn)練好的ResNet-101 與特征金字塔網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),最后在COCO 數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)訓(xùn)練[12]。損失函數(shù)主要包含分類(lèi)損失函數(shù)Lcls、邊界框回歸損失函數(shù)Lbox和Mask 損失函數(shù)Lmask,權(quán)重分別為1、1.5、6.125。使用隨機(jī)最速下降法(Stochastic Gradient Descent,SGD)訓(xùn)練8×105次迭代,初始學(xué)習(xí)率為0.001,分別在第3×105、6×105、7×105和第75×104次迭代進(jìn)行衰減,衰減為當(dāng)前學(xué)習(xí)率的10%。
本文算法實(shí)現(xiàn)了目標(biāo)分割與目標(biāo)跟蹤的統(tǒng)一,使用YOLACT++實(shí)例分割網(wǎng)絡(luò)作為檢測(cè)器,將掩模特征應(yīng)用于目標(biāo)跟蹤,同時(shí)利用跟蹤器進(jìn)行目標(biāo)模板更新,以便準(zhǔn)確地對(duì)后續(xù)幀進(jìn)行目標(biāo)分割,因此從目標(biāo)分割與目標(biāo)跟蹤兩方面進(jìn)行實(shí)驗(yàn)。
3.1.1 數(shù)據(jù)集
在VOS實(shí)驗(yàn)中,利用DAVIS(Densely Annotation VIdeo Segmentation)數(shù)據(jù)集進(jìn)行評(píng)估,包括DAVIS 2016[12]、DAVIS 2017[13]。DAVIS 2016 數(shù)據(jù)集中有50 個(gè)高質(zhì)量的視頻序列,每個(gè)視頻序列只標(biāo)注一個(gè)目標(biāo)。DAVIS 2017 數(shù)據(jù)集在DAVIS 2016 數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了擴(kuò)展,由90 個(gè)視頻序列組成。不同于DAVIS 2016 的單目標(biāo)分割,DAVIS 2017 數(shù)據(jù)集的每個(gè)視頻序列均包含多個(gè)需要分割的對(duì)象,并且出現(xiàn)了不同于常見(jiàn)視頻目標(biāo)分割的多個(gè)挑戰(zhàn),如外觀(guān)變化、尺度方向變化、目標(biāo)遮擋、光線(xiàn)變化和運(yùn)動(dòng)模糊等。按照DAVIS 2016 中提出的方法進(jìn)行評(píng)估,采用的評(píng)估指標(biāo)包括區(qū)域相似度J和輪廓相似度F。區(qū)域相似度J為預(yù)測(cè)目標(biāo)分割掩膜RM與真實(shí)掩膜RG之間的IoU 值,如式(12)所示;而輪廓相似度F權(quán)衡了輪廓精度PC和輪廓召回率RC,如式(13)所示。J&F為區(qū)域相似度J和輪廓相似度F的平均值,表示每個(gè)算法性能的總體度量。
3.1.2 評(píng)估結(jié)果
本文在480P 分辨率(720×480)的視頻下進(jìn)行測(cè)試。表1給出了本文算法和其他對(duì)比算法在DAVIS 2016 與DAVIS 2017 數(shù)據(jù)集上的性能指標(biāo)實(shí)驗(yàn)結(jié)果,其中OnAVOS(Online Adaptive VOS)[14]、OSVOS(One-Shot VOS)[15]、OSVOSS(Semantic One-Shot VOS)[16]、MSK(即MaskTrack 算法)[17]使用掩碼進(jìn)行初始化,并使用在線(xiàn)微調(diào)的方法;FAVOS(Fast and Accurate online VOS)[18]、RGMP(Reference-Guided Mask Propagation)[19]、OSMN 算法[20]也使用掩碼進(jìn)行初始化,但不使用在線(xiàn)微調(diào)的方法;本文算法和SiamMask[8]使用邊界框進(jìn)行初始化,不使用在線(xiàn)微調(diào)的方法。從表中可以看出,本文算法在DAVIS 2016 上的J&F指標(biāo)為83.65%、區(qū)域相似度J為84.0%,輪廓相似度F為83.3%,優(yōu)于所有不使用在線(xiàn)微調(diào)的算法,僅略低于使用在線(xiàn)微調(diào)的OnAVOS 算法,相較于SiamMask,J和F分別提升了12.3 和15.5 個(gè)百分點(diǎn);在DAVIS 2017 上的J&F指標(biāo)為69.05%、區(qū)域相似度J為69.6%,優(yōu)于其他對(duì)比算法,相較于SiamMask,J和F分別提升了15.3 和10.0 個(gè)百分點(diǎn)。
表1 不同算法在DAVIS 2016與DAVIS 2017數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of different algorithms on DAVIS 2016 and DAVIS 2017 datasets
相較于DAVIS 2016 數(shù)據(jù)集,DAVIS 2017 更具有挑戰(zhàn)性,在DAVIS 2016 上性能較好的算法,在DAVIS 2017 數(shù)據(jù)集上不一定有較好的表現(xiàn),如OnAVOS 算法,而本文算法在兩個(gè)數(shù)據(jù)集上都有較高的性能指標(biāo),表明本文算法具有更好的穩(wěn)健性。
3.2.1 數(shù)據(jù)集
對(duì)于VOT 實(shí)驗(yàn),在VOT2016[21]、VOT2018[22]數(shù)據(jù)集上對(duì)本文算法進(jìn)行評(píng)估,VOT2016 和VOT2018 均包含60 個(gè)具有挑戰(zhàn)性的視頻序列,這60 個(gè)序列中包含了單目標(biāo)跟蹤領(lǐng)域中的難點(diǎn)問(wèn)題,如光照變化、尺度變化、外觀(guān)變化、相似背景干擾、運(yùn)動(dòng)模糊和遮擋等。將VOT2016 中一些易于跟蹤且準(zhǔn)確度較高的視頻序列進(jìn)行更換,形成了VOT2018 序列。VOT2018 重新標(biāo)定了序列的真值,給出了更為精細(xì)的標(biāo)注信息。根據(jù)VOT 的評(píng)估標(biāo)準(zhǔn),本文采用以下3 個(gè)指標(biāo)顯示跟蹤性能:準(zhǔn)確率(A)用于評(píng)價(jià)算法跟蹤目標(biāo)的準(zhǔn)確度,值越大準(zhǔn)確度越高;魯棒性(R)表示跟蹤算法的穩(wěn)定性,值越小穩(wěn)定性越高;預(yù)期平均重疊率(Expected Average Overlap rate,EAO)是一種綜合考慮跟蹤算法準(zhǔn)確性和魯棒性的度量指標(biāo),值越大表示跟蹤器性能越好。
3.2.2 評(píng)估結(jié)果
將本文算法與SiamMask[2]、ATOM(Accurate Tracking by Overlap Maximization)[23]、ECO[5]、ASRCF(Adaptive Spatially-Regularized Correlation Filters)[24]、C-COT[4]、TCNN[6]、SiamRPN[7]、DaSiamRPN(Distractor-aware Siamese RPN)[25]、SiamRPN++(SiamRPN with Deep Networks)[26]、LADCF(Learning Adaptive Discriminative Correlation Filters)[27]、SPM(Series-Parallel Matching)[28]、RCO(Continuous Convolution Operators with Resnet Features)[22]、UPDT(Unveiling the Power of Deep Tracking)[29]、MFT(Multi-Hierarchical Independent Correlation Filters for Visual Tracking)[30]和GFS-DCF(Group Feature Selection and DisCriminative Filter)[31]算法進(jìn)行對(duì)比分析,在不同數(shù)據(jù)集上的對(duì)比結(jié)果如表2 所示。在VOT2016 數(shù)據(jù)集上,在A(yíng) 相差不大的情況下,本文算法的R 達(dá)到了最優(yōu),EAO 為0.475,高于其他對(duì)比算法。在VOT2018 數(shù)據(jù)集上,A為0.586,僅次于SiamMask 和ATOM[23];R 為0.183,雖然沒(méi)能排在前列,但優(yōu)于SiamMask 和ATOM;EAO 為0.421,優(yōu)于其他對(duì)比算法。相較于SiamMask 算法,雖然本文算法的A略低,但R 和EAO 指標(biāo)均較好,在VOT2016 數(shù)據(jù)集分別降低和提高了7.2 個(gè)和4.2 個(gè)百分點(diǎn),在VOT2018 數(shù)據(jù)集分別降低和提高了9.3 個(gè)和4.1 個(gè)百分點(diǎn)。
在VOT 實(shí)驗(yàn)中,本文算法的A、R 和EAO 雖然沒(méi)能同時(shí)優(yōu)于其他對(duì)比算法,但各指標(biāo)均排在前列。VOT2016 和VOT2018 的測(cè)試中,EAO 值均高于其他對(duì)比算法,表明本文算法有著不錯(cuò)的跟蹤性能。同時(shí),本文算法的運(yùn)行速度為32.00 frame/s,滿(mǎn)足實(shí)時(shí)性要求。
3.2.3 與其他算法的定性對(duì)比
為驗(yàn)證本文算法的有效性,選取VOT2018 數(shù)據(jù)集中具有代表性的視頻序列做定性對(duì)比實(shí)驗(yàn),測(cè)試結(jié)果如圖7 所示,由上到下bmx、basketball、dinosaur、girl這4個(gè)視頻序列包含尺度變化、相似目標(biāo)干擾、相似背景干擾、目標(biāo)遮擋等挑戰(zhàn)場(chǎng)景。
圖7 在不同視頻序列上的定性對(duì)比Fig.7 Qualitative comparison on different video sequences
1)目標(biāo)尺度變化下的對(duì)比。目標(biāo)在運(yùn)動(dòng)過(guò)程中,尺度變化是很常見(jiàn)的,當(dāng)目標(biāo)的尺度變化過(guò)快,會(huì)對(duì)跟蹤效果產(chǎn)生影響。從bmx 序列的跟蹤效果可以看出,當(dāng)目標(biāo)的尺度發(fā)生快速變化時(shí),SiamMask 只預(yù)測(cè)到了目標(biāo)的一部分,本文算法有更準(zhǔn)確的預(yù)測(cè)結(jié)果。
2)相似目標(biāo)干擾下的對(duì)比。當(dāng)目標(biāo)與周?chē)嬖诘南嗨聘蓴_物共同進(jìn)入檢測(cè)視野時(shí),容易發(fā)生混淆導(dǎo)致跟錯(cuò)目標(biāo)。basketball 序列的第647 幀到664 幀,目標(biāo)被相似物體部分遮擋,SiamMask 將目標(biāo)與干擾物共同預(yù)測(cè)為跟蹤對(duì)象,而本文算法準(zhǔn)確地預(yù)測(cè)了結(jié)果。
3)相似背景干擾下的對(duì)比。目標(biāo)圖像與圖片背景反差不明顯,比如目標(biāo)圖像顏色與背景顏色基本相同,會(huì)干擾對(duì)目標(biāo)的辨識(shí),影響跟蹤的性能。dinosaur 序列中背景顏色與目標(biāo)顏色相差較小,從結(jié)果來(lái)看,本文算法準(zhǔn)確地完成了對(duì)目標(biāo)的跟蹤。
4)目標(biāo)遮擋情況下的對(duì)比。由于周?chē)h(huán)境的復(fù)雜性和其他物體的干擾,目標(biāo)在運(yùn)動(dòng)過(guò)程中會(huì)被部分遮擋或者完全遮擋(目標(biāo)消失)。在girl 序列中當(dāng)目標(biāo)被遮擋時(shí),SiamMask將遮擋物預(yù)測(cè)為跟蹤對(duì)象,而本文算法沒(méi)有丟失目標(biāo),完成了對(duì)目標(biāo)的跟蹤。
為驗(yàn)證不同模塊對(duì)目標(biāo)跟蹤性能的影響,本文在VOT2018 和DAVIS 2017 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。首先,移除模板更新機(jī)制DFPN,采用單一的MaskIoU 匹配或外觀(guān)匹配(Appearance),此時(shí)目標(biāo)模板一直更新。然后,同時(shí)采用MaskIoU 匹配和外觀(guān)匹配,并增加基于畢達(dá)哥拉斯模糊決策的模板更新機(jī)制DFPN 進(jìn)行目標(biāo)模板更新和匹配方式選擇。從表3 可以看出,僅采用MaskIoU 匹配,跟蹤速度是可觀(guān)的,但是模板漂移問(wèn)題導(dǎo)致跟蹤性能不佳;僅采用外觀(guān)匹配,跟蹤性能有所提升,但復(fù)雜的深度網(wǎng)絡(luò)導(dǎo)致跟蹤速度僅19 frame/s。增加模板更新機(jī)制DFPN 進(jìn)行目標(biāo)模板更新和匹配方式選擇(MaskIoU 或外觀(guān)),EAO 指標(biāo)達(dá)到了0.403,速度滿(mǎn)足實(shí)時(shí)性要求。在此基礎(chǔ)上,增加卡爾曼濾波器,跟蹤性能有所提升,EAO 達(dá)到了0.421。
表3 消融實(shí)驗(yàn)對(duì)比結(jié)果Tab.3 Comparative results of ablation experiments
單一的匹配方式中,目標(biāo)模板無(wú)論正確與否,總是被更新,因此跟蹤性能不均衡。從表3的消融實(shí)驗(yàn)結(jié)果可以觀(guān)察到,增加DFPN,跟蹤性能有所提升。DFPN1用來(lái)鑒定MaskIoU 匹配過(guò)程中目標(biāo)模板的質(zhì)量,DFPN2 用來(lái)鑒定外觀(guān)匹配過(guò)程中目標(biāo)模板的質(zhì)量,整個(gè)DFPN 所起到的作用是將3種匹配方式的優(yōu)勢(shì)結(jié)合在一起,進(jìn)而均衡跟蹤的速度與精度。
本文算法在DAVIS 和VOT 序列上的分割跟蹤定性結(jié)果如圖8 所示,其中,第1 行為DAVIS 2016 上的單對(duì)象分割效果,掩膜輪廓展示了像素級(jí)的分割結(jié)果;第2~3 行為DAVIS 2017 上的多對(duì)象分割效果,圖像中多個(gè)目標(biāo)以不同的輪廓突出顯示。第4 行圖像序列同時(shí)存在于VOT2016 和VOT2018 中,第5 行只存在于VOT2016 中,第6 行只存在于VOT2018 中,從這3 行視頻序列的分割跟蹤結(jié)果可以清晰觀(guān)察到,不論在簡(jiǎn)單場(chǎng)景,還是復(fù)雜場(chǎng)景,本文算法都能產(chǎn)生準(zhǔn)確地分割掩碼和目標(biāo)邊界框。這6 個(gè)視頻序列,包含了目標(biāo)形變、光照變化、尺度方向變化、目標(biāo)遮擋、相似性干擾等挑戰(zhàn)場(chǎng)景。不難看出,即使存在干擾,本文算法仍能夠產(chǎn)生準(zhǔn)確的分割掩碼和匹配到正確的目標(biāo),實(shí)現(xiàn)持續(xù)穩(wěn)定的跟蹤。
圖8 本文算法在VOT和DAVIS數(shù)據(jù)集上的定性分析結(jié)果Fig.8 Qualitative analysis results of the proposed algorithm on VOT and DAVIS datasets
本文提出了一種基于實(shí)例分割與畢達(dá)哥拉斯模糊決策的目標(biāo)跟蹤算法,在深度學(xué)習(xí)實(shí)例分割網(wǎng)絡(luò)YOLACT++的mask 分支上引入MaskIoU 匹配,以提升速度;在box 分支上引入外觀(guān)匹配,以提升精度;同時(shí)融合卡爾曼濾波算法縮小候選目標(biāo)范圍和預(yù)測(cè)特殊情景中的目標(biāo)位置。提出的基于畢達(dá)哥拉斯模糊決策的模板更新機(jī)制決定是否更新目標(biāo)模板和更換匹配方式,以應(yīng)對(duì)不同場(chǎng)景中的目標(biāo)跟蹤問(wèn)題。在DAVIS 和VOT 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,即使在尺度變化、相似性干擾、遮擋等復(fù)雜場(chǎng)景下,本文算法仍能夠?qū)崿F(xiàn)準(zhǔn)確穩(wěn)定的跟蹤。在后續(xù)的研究中,將考慮改進(jìn)YOLACT++網(wǎng)絡(luò)結(jié)構(gòu)以提高分割精度和設(shè)計(jì)新的目標(biāo)模板更新機(jī)制,進(jìn)一步提高算法的性能。