亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于實(shí)例分割與畢達(dá)哥拉斯模糊決策的目標(biāo)跟蹤

2023-07-03 14:12:28趙元龍單玉剛趙康迪

計(jì)算機(jī)應(yīng)用 2023年6期

趙元龍，單玉剛，袁杰，趙康迪

（1.新疆大學(xué) 電氣工程學(xué)院，烏魯木齊 830017；2.湖北文理學(xué)院教育學(xué)院，湖北襄陽(yáng) 441053）

0 引言

視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方向，普遍地運(yùn)用在智能監(jiān)控、移動(dòng)終端、無(wú)人駕駛以及軍事勘測(cè)等領(lǐng)域［1］。在實(shí)際場(chǎng)景目標(biāo)跟蹤中，如何解決尺度變化、相似性干擾、遮擋等問(wèn)題成為研究熱點(diǎn)。

近年來(lái)，隨著深度學(xué)習(xí)在目標(biāo)識(shí)別、檢測(cè)等領(lǐng)域的廣泛應(yīng)用，越來(lái)越多的研究人員投入到基于深度學(xué)習(xí)的目標(biāo)跟蹤算法研究中。Danelljan 等［2］將卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）與空間正則化判別相關(guān)濾波器（Spatially Regularized Discriminative Correlation Filter，SRDCF）結(jié)合，提出了DeepSRDCF 算法，利用深度學(xué)習(xí)網(wǎng)絡(luò)增強(qiáng)了特征的外觀(guān)表征能力，但網(wǎng)絡(luò)參數(shù)過(guò)多導(dǎo)致跟蹤速度不滿(mǎn)足實(shí)時(shí)性要求。為了進(jìn)一步提高跟蹤速度，Bertinetto 等［3］將全卷積網(wǎng)絡(luò)融入孿生網(wǎng)絡(luò)結(jié)構(gòu)中提出了SiamFC（Siamese Fully-Convolutional）算法，通過(guò)卷積網(wǎng)絡(luò)計(jì)算兩條分支中圖像的相關(guān)性，提高了算法的實(shí)時(shí)性，但復(fù)雜環(huán)境下的目標(biāo)跟蹤效果欠佳。Danelljan 等［4］提出的連續(xù)卷積算子跟蹤器（Continuous Convolution Operator Tracker，C-COT）算法采用多分辨率高維特征圖，將不同分辨率的特征圖通過(guò)隱式插值的方式插入連續(xù)空間域，有效地提高了跟蹤精度，然而深度特征的使用需要訓(xùn)練大量濾波器，導(dǎo)致算法復(fù)雜度較高。Danelljan 等［5］在C-COT 算法的基礎(chǔ)上對(duì)濾波器降維，提出了高效卷積算子（Efficient Convolution Operators，ECO）算法，該算法利用混合高斯模型表征樣本，降低了算法復(fù)雜度，跟蹤速度雖然有所提升，但復(fù)雜場(chǎng)景中魯棒性略有下降。Nam 等［6］提出的TCNN（CNN in a Tree structure）算法利用多個(gè)CNN 構(gòu)成樹(shù)結(jié)構(gòu)，通過(guò)共享卷積層的所有參數(shù)，節(jié)省了存儲(chǔ)空間，但沒(méi)有解決部分幀中目標(biāo)被遮擋致使跟蹤失敗的問(wèn)題。Li等［7］將區(qū)域建議網(wǎng)絡(luò)加入SiamFC 框架，提出了SiamRPN（Siamese Region Proposal Network）算法，雖然增強(qiáng)了目標(biāo)的判別性，但跟蹤過(guò)程中位置預(yù)測(cè)和尺度估計(jì)存在誤差，容易出現(xiàn)漂移現(xiàn)象。Wang 等［8］在SiamFC 算法的基礎(chǔ)上進(jìn)行改進(jìn)，提出了SiamMask 算法。SiamMask 將掩模特征應(yīng)用于目標(biāo)跟蹤任務(wù)，實(shí)現(xiàn)了視覺(jué)目標(biāo)分割（Video Object Segmentation，VOS）與視覺(jué)目標(biāo)跟蹤（Video Object Tracking，VOT）的統(tǒng)一，但對(duì)于復(fù)雜情景中目標(biāo)遮擋、相似性干擾等問(wèn)題仍需進(jìn)一步優(yōu)化。

上述算法均不能很好地應(yīng)對(duì)尺度變化、相似性干擾、遮擋等問(wèn)題，為此，本文提出一種基于實(shí)例分割與畢達(dá)哥拉斯模糊決策的目標(biāo)跟蹤算法。針對(duì)大多數(shù)正常幀，通過(guò)選擇基于MaskIoU（Mask Intersection over Union）的匹配方式或基于外觀(guān)的匹配方式權(quán)衡運(yùn)行速度和精度；對(duì)于大范圍遮擋或目標(biāo)消失這樣的特殊幀，使用基于卡爾曼濾波的軌跡預(yù)測(cè)法預(yù)測(cè)目標(biāo)位置，有效地提高了成功率；同時(shí)采用基于畢達(dá)哥拉斯模糊決策［9］的模板更新機(jī)制DFPN（Decision Fusion of Pythagoras fuzzy Number）決定是否更新目標(biāo)模板和更換匹配方式，有效地防止了漂移問(wèn)題，提高了魯棒性。實(shí)驗(yàn)結(jié)果表明，本文算法能夠準(zhǔn)確地在存在尺度變化、相似性干擾、遮擋等問(wèn)題的視頻序列上進(jìn)行跟蹤。

1 本文跟蹤算法

在本文算法中，目標(biāo)模板用來(lái)表示目標(biāo)信息。如圖1 所示，目標(biāo)模板Tem包含目標(biāo)的邊界框Tbox、分割掩碼Tmask，根據(jù)邊界框Tbox內(nèi)裁實(shí)例圖塊Tpatch。相應(yīng)地，預(yù)測(cè)結(jié)果Pre包含了預(yù)測(cè)目標(biāo)的邊界框Pbox、分割掩碼Pmask、根據(jù)邊界框Pbox內(nèi)裁實(shí)例圖塊Ppatch。設(shè)當(dāng)前幀ft的目標(biāo)狀態(tài)為Ct，則：

圖1 目標(biāo)模板Fig.1 Object template

1.1 跟蹤框架

本文跟蹤算法屬于檢測(cè)跟蹤（tracking-by-detection），使用YOLACT++（improved You Only Look At CoefficienTs）實(shí)例分割網(wǎng)絡(luò)［10］作為檢測(cè)器，與檢測(cè)算法相比，實(shí)例分割網(wǎng)絡(luò)能夠提供更多的目標(biāo)信息，例如掩碼信息，以便跟蹤部分實(shí)現(xiàn)多種匹配方式。跟蹤框架如圖2 所示，在實(shí)例分割網(wǎng)絡(luò)的掩碼分支（mask branch）上引入基于MaskIoU 的匹配方式，在邊界框分支（box branch）上引入基于外觀(guān)的匹配方式，同時(shí)融合卡爾曼濾波器（Kalman Filter，KF）來(lái)縮小候選目標(biāo)范圍和預(yù)測(cè)特殊情景中的目標(biāo)位置?；诋呥_(dá)哥拉斯模糊決策的模板更新機(jī)制DFPN 對(duì)預(yù)測(cè)結(jié)果進(jìn)行質(zhì)量鑒定，并以此決定是否更新目標(biāo)模板和更換匹配方式。對(duì)當(dāng)前幀的處理分為4 個(gè)步驟。

圖2 本文算法的跟蹤框架Fig.2 Tracking framework of the proposed algorithm

1）采用基于MaskIoU 的匹配方式生成臨時(shí)的初步結(jié)果。首先確定目標(biāo)的搜索區(qū)域reg（見(jiàn)圖3），將它輸入YOLACT++分割網(wǎng)絡(luò)，生成大量的候選預(yù)測(cè)；然后采用基于MaskIoU 的快速匹配，在候選預(yù)測(cè)中找到初步預(yù)測(cè)結(jié)果。

圖3 搜索區(qū)域regFig.3 Region of search reg

2）DFPN 判斷初步預(yù)測(cè)結(jié)果的正確性和質(zhì)量，確定目標(biāo)模板是否更新。DFPN1、DFPN2 都是DFPN，只不過(guò)DFPN1、DFPN2 的輸入不同，所以在DFPN 后加1 和2 來(lái)區(qū)分。DFPN1、DFPN2 的決策結(jié)果為D0 或者D1，D0 表示預(yù)測(cè)結(jié)果質(zhì)量高，目標(biāo)模板將完全被初步結(jié)果所取代，并生成最終結(jié)果；D1 表示預(yù)測(cè)結(jié)果質(zhì)量低，初始結(jié)果將被丟棄，目標(biāo)模板保持不變，將進(jìn)一步采用其他方式預(yù)測(cè)目標(biāo)。

3）判斷當(dāng)前幀ft是否需要基于外觀(guān)的重檢測(cè)。如果遇到目標(biāo)漏檢、遮擋等特殊情景，則需要使用基于外觀(guān)的匹配方式重新檢測(cè)目標(biāo)。在進(jìn)行基于外觀(guān)的重檢測(cè)時(shí)，是將整個(gè)幀而不是上述搜索區(qū)域送入YOLACT++網(wǎng)絡(luò)；然后，通過(guò)基于外觀(guān)的匹配方式從所有候選預(yù)測(cè)中選擇一個(gè)新的結(jié)果，再次執(zhí)行第2）步以生成新的最終結(jié)果。

4）判斷ft是否需要軌跡預(yù)測(cè)法預(yù)測(cè)目標(biāo)位置。如果目標(biāo)消失或被大范圍遮擋，則需要使用基于卡爾曼濾波的軌跡預(yù)測(cè)法預(yù)測(cè)目標(biāo)位置；否則，不需要對(duì)ft重新檢測(cè)，將對(duì)下一幀ft+1進(jìn)行處理。

1.2 基于MaskIoU的快速匹配過(guò)程

對(duì)于大多數(shù)正常幀，使用MaskIoU 進(jìn)行快速匹配，以提升跟蹤速度。首先，根據(jù)歷史幀的目標(biāo)運(yùn)動(dòng)矢量信息（位置、移動(dòng)速度等）確定目標(biāo)的搜索區(qū)域reg（見(jiàn)圖3），將它輸入YOLACT++網(wǎng)絡(luò)，生成大量的候選預(yù)測(cè)。然后采用基于MaskIoU 的匹配方式，在所有候選預(yù)測(cè)中找到初步預(yù)測(cè)結(jié)果。傳統(tǒng)算法采用邊界框交并比（Intersection over Union，IoU）匹配，只能從位置信息上匹配目標(biāo)，容易造成模板漂移。本文使用MaskIoU，結(jié)合了目標(biāo)的輪廓信息與位置信息，以減少模板漂移現(xiàn)象。

1.2.1 搜索區(qū)域

搜索區(qū)域的大小在一定程度上影響著分割與跟蹤結(jié)果的質(zhì)量［8］。如果對(duì)出現(xiàn)在場(chǎng)景中的所有對(duì)象都進(jìn)行特征提取、匹配，將會(huì)增加系統(tǒng)的計(jì)算成本，因此有必要采用一定的方式預(yù)測(cè)運(yùn)動(dòng)目標(biāo)可能出現(xiàn)的區(qū)域以減少冗余，提高目標(biāo)跟蹤的速度。SiamRPN 和SiamMask 以上一幀目標(biāo)框?yàn)橹行?，將目?biāo)框尺寸放大2 倍作為當(dāng)前幀目標(biāo)可能出現(xiàn)的范圍［7-8］。如圖3 所示，本文搜索區(qū)域reg以上一幀目標(biāo)框Tbox為基礎(chǔ)，先利用卡爾曼濾波法預(yù)測(cè)當(dāng)前幀目標(biāo)的中心點(diǎn)，然后根據(jù)目標(biāo)移動(dòng)的快慢確定搜索區(qū)域的尺寸大小。

1.2.2 MaskIoU快速匹配

其中n表示候選預(yù)測(cè)個(gè)數(shù)。

在產(chǎn)生預(yù)測(cè)結(jié)果之后，保持Tmask、Pmask區(qū)域不變，將Tmask、Pmask以外區(qū)域的像素值變?yōu)?，記為：

其中函數(shù)Ω（）可以將像素值變?yōu)?。

MT、MP提供了目標(biāo)在模板幀和當(dāng)前幀中的位置、外觀(guān)和分割信息。計(jì)算MT、MP的IoU 值Ipos，該值表示模板幀中的目標(biāo)與當(dāng)前幀中目標(biāo)的位置重合度，能夠進(jìn)一步從位置信息確認(rèn)預(yù)測(cè)結(jié)果的正確性。視頻序列的幀率越高，上下幀之間目標(biāo)位置越接近，Ipos值越大，則預(yù)測(cè)結(jié)果是跟蹤目標(biāo)的可能性越大。將Im、Ipos送入模板更新機(jī)制DFPN1 中，DFPN1 將對(duì)預(yù)測(cè)結(jié)果進(jìn)行質(zhì)量評(píng)估，并根據(jù)評(píng)估結(jié)果決定是否更新目標(biāo)模板以及是否進(jìn)行外觀(guān)匹配。

1.3 基于孿生網(wǎng)絡(luò)的外觀(guān)匹配過(guò)程

外觀(guān)匹配網(wǎng)絡(luò)是一個(gè)添加了空間金字塔池化（Spatial Pyramid Pooling，SPP）層的孿生網(wǎng)絡(luò)［11］，如圖4 所示，它的輸入是目標(biāo)模板中的實(shí)例圖塊Tpatch和候選預(yù)測(cè)結(jié)果每個(gè)輸入將生成它們各自的嵌入向量。這兩個(gè)向量之間的歐氏距離較小，說(shuō)明兩個(gè)圖塊是相似的，反之亦然。

圖4 加入SPP的孿生網(wǎng)絡(luò)框架Fig.4 Architecture of Siamese network with SPP

標(biāo)準(zhǔn)CNN 的輸入尺寸是固定的，當(dāng)任意尺寸的圖像塊輸入這些網(wǎng)絡(luò)，會(huì)導(dǎo)致識(shí)別精度降低。將SPP 層放在特征提取層和第一個(gè)全連接層中間，可以使網(wǎng)絡(luò)能夠接受任意尺寸的圖像塊作為輸入且不影響精度，避免了因縮放分割對(duì)象而造成的信息損失［11］。3 層空間金字塔的池化層結(jié)構(gòu)為｛（4×4），（2×2），（1×1）｝，改進(jìn)后池化層結(jié)構(gòu)為｛（3×3），（2×2），（1×1）｝，如圖5 所示。改進(jìn)后的空間金字塔能夠滿(mǎn)足本文實(shí)驗(yàn)的要求，并且進(jìn)入全連接層的特征向量由21（4×4+2×2+1×1）個(gè)減少到14（3×3+2×2+1×1）個(gè)，對(duì)應(yīng)全連接層的神經(jīng)元數(shù)量減少了1/3，在一定程度上提升了跟蹤速度。

圖5 改進(jìn)后的SPPFig.5 Improved SPP

其中：Sim（）表示計(jì)算相似度的孿生網(wǎng)絡(luò)，n表示候選預(yù)測(cè)個(gè)數(shù)。

取預(yù)測(cè)結(jié)果對(duì)應(yīng)的分割掩碼Pmask，它充分展示了預(yù)測(cè)結(jié)果的輪廓信息。Pmask與目標(biāo)模板分割掩碼Tmask的IoU 值Spro能夠從一定程度上體現(xiàn)目標(biāo)輪廓的重合度。將Sm、Spro送入到模板更新機(jī)制DFPN2 中，與1.2.2 節(jié)一樣，DFPN2 將根據(jù)預(yù)測(cè)結(jié)果質(zhì)量評(píng)估結(jié)果決定是否更新目標(biāo)模板以及是否使用基于卡爾曼濾波的軌跡預(yù)測(cè)法進(jìn)行目標(biāo)位置預(yù)測(cè)。

1.4 基于卡爾曼濾波的目標(biāo)位置預(yù)測(cè)

在目標(biāo)消失、大范圍遮擋這類(lèi)特殊情景下，無(wú)論是基于MaskIoU 的快速匹配還是基于孿生網(wǎng)絡(luò)的外觀(guān)匹配都會(huì)跟蹤失敗。針對(duì)這類(lèi)特殊情景，本文提出了一種基于卡爾曼濾波的軌跡預(yù)測(cè)法預(yù)測(cè)目標(biāo)位置。預(yù)測(cè)過(guò)程如式（6）所示：

其中：Δt表示目標(biāo)速度系數(shù)，大小根據(jù)目標(biāo)在相鄰兩幀之間Tbox的IoU 值確定，該IoU 值若小于設(shè)定閾值，表示目標(biāo)運(yùn)動(dòng)速度非常大，需要在預(yù)測(cè)時(shí)提高速度分量的比重，此時(shí)將Δt設(shè)置為1；相反，表示目標(biāo)運(yùn)動(dòng)緩慢，則將Δt設(shè)置為一個(gè)較小的數(shù)0.01。

1.5 基于畢達(dá)哥拉斯模糊決策的模板更新機(jī)制

1.5.1 畢達(dá)哥拉斯模糊決策

設(shè)X為一個(gè)論域，則該論域X中的一個(gè)畢達(dá)哥拉斯模糊集（Pythagorean Fuzzy Set，PFS）可表示為：

其中：對(duì)于集合P中的任意x∈X而言，映射μp：X→［0，1］表示它的隸屬度；映射vp：X→［0，1］表示它的非隸屬度。πp（x）表示它的不確定性，稱(chēng)之為猶豫度：

一個(gè)PFS 中的某一元素（μp（x），vp（x））稱(chēng)為畢達(dá)哥拉斯模糊數(shù)（Pythagorean Fuzzy Number，PFN），也可表示為p=p（μ，v），其中μ為隸屬度，v為非隸屬度。Peng 等［9］在考慮猶豫度的影響下提出得分函數(shù)：

將猶豫度納入得分函數(shù)中，高效地利用了決策信息，在遇到隸屬度與非隸屬度相等而無(wú)法區(qū)分PFN 情形時(shí)，可以通過(guò)比較它們的猶豫度進(jìn)行區(qū)分［9］。

1.5.2 模板更新機(jī)制

本文算法中將畢達(dá)哥拉斯模糊決策應(yīng)用于模板更新機(jī)制。如圖2 所示，基于MaskIoU 的快速匹配和基于孿生網(wǎng)絡(luò)的外觀(guān)匹配，產(chǎn)生的預(yù)測(cè)結(jié)果Pre都會(huì)由模板更新機(jī)制DPFN決定是否更新為模板。式（8）中μ和v為隸屬度和非隸屬度，在本文中分別表示為對(duì)當(dāng)前預(yù)測(cè)結(jié)果更新為模板的贊成度和懷疑度；猶豫度πp（x）表示對(duì)贊成度或懷疑度的偏向。模板更新機(jī)制如圖6 所示。

圖6 模板更新機(jī)制DFPNFig.6 Template update mechanism DFPN

如圖6（a），DFPN1 的輸入有兩個(gè)：一是MaskIoU 匹配過(guò)程中，候選預(yù)測(cè)與目標(biāo)模板掩碼Tmask的最高IoU 值Im；二是表示模板幀與當(dāng)前幀目標(biāo)重合度的值Ipos。令

如圖6（b），DFPN2 的輸入也是兩個(gè)值：一是外觀(guān)匹配過(guò)程中，候選預(yù)測(cè)中與目標(biāo)模板圖塊Tpatch外觀(guān)相似度的最高值Sm；二是表示模板幀與當(dāng)前幀中目標(biāo)輪廓重合度的值Spro。令

DPFN 的決策過(guò)程如式（11）所示：

2 實(shí)驗(yàn)平臺(tái)與參數(shù)設(shè)置

本文算法使用Python 語(yǔ)言調(diào)用PyTorch 深度學(xué)習(xí)框架實(shí)現(xiàn)，操作系統(tǒng)為Windows 10 專(zhuān)業(yè)版，顯卡使用NVIDIA GTX1080Ti GPU（11 GB），處理器為lntel Core i7 -11700K CPU @ 4.90 GHz。

實(shí)驗(yàn)中，YOLACT++實(shí)例分割網(wǎng)絡(luò)的訓(xùn)練分為3 步進(jìn)行，首先使用ImageNet 分類(lèi)數(shù)據(jù)集對(duì)ResNet-101 進(jìn)行預(yù)訓(xùn)練，然后將訓(xùn)練好的ResNet-101 與特征金字塔網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)，最后在COCO 數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)訓(xùn)練［12］。損失函數(shù)主要包含分類(lèi)損失函數(shù)Lcls、邊界框回歸損失函數(shù)Lbox和Mask 損失函數(shù)Lmask，權(quán)重分別為1、1.5、6.125。使用隨機(jī)最速下降法（Stochastic Gradient Descent，SGD）訓(xùn)練8×105次迭代，初始學(xué)習(xí)率為0.001，分別在第3×105、6×105、7×105和第75×104次迭代進(jìn)行衰減，衰減為當(dāng)前學(xué)習(xí)率的10%。

3 實(shí)驗(yàn)與結(jié)果分析

本文算法實(shí)現(xiàn)了目標(biāo)分割與目標(biāo)跟蹤的統(tǒng)一，使用YOLACT++實(shí)例分割網(wǎng)絡(luò)作為檢測(cè)器，將掩模特征應(yīng)用于目標(biāo)跟蹤，同時(shí)利用跟蹤器進(jìn)行目標(biāo)模板更新，以便準(zhǔn)確地對(duì)后續(xù)幀進(jìn)行目標(biāo)分割，因此從目標(biāo)分割與目標(biāo)跟蹤兩方面進(jìn)行實(shí)驗(yàn)。

3.1 VOS評(píng)估

3.1.1 數(shù)據(jù)集

在VOS實(shí)驗(yàn)中，利用DAVIS（Densely Annotation VIdeo Segmentation）數(shù)據(jù)集進(jìn)行評(píng)估，包括DAVIS 2016［12］、DAVIS 2017［13］。DAVIS 2016 數(shù)據(jù)集中有50 個(gè)高質(zhì)量的視頻序列，每個(gè)視頻序列只標(biāo)注一個(gè)目標(biāo)。DAVIS 2017 數(shù)據(jù)集在DAVIS 2016 數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了擴(kuò)展，由90 個(gè)視頻序列組成。不同于DAVIS 2016 的單目標(biāo)分割，DAVIS 2017 數(shù)據(jù)集的每個(gè)視頻序列均包含多個(gè)需要分割的對(duì)象，并且出現(xiàn)了不同于常見(jiàn)視頻目標(biāo)分割的多個(gè)挑戰(zhàn)，如外觀(guān)變化、尺度方向變化、目標(biāo)遮擋、光線(xiàn)變化和運(yùn)動(dòng)模糊等。按照DAVIS 2016 中提出的方法進(jìn)行評(píng)估，采用的評(píng)估指標(biāo)包括區(qū)域相似度J和輪廓相似度F。區(qū)域相似度J為預(yù)測(cè)目標(biāo)分割掩膜RM與真實(shí)掩膜RG之間的IoU 值，如式（12）所示；而輪廓相似度F權(quán)衡了輪廓精度PC和輪廓召回率RC，如式（13）所示。J&F為區(qū)域相似度J和輪廓相似度F的平均值，表示每個(gè)算法性能的總體度量。

3.1.2 評(píng)估結(jié)果

本文在480P 分辨率（720×480）的視頻下進(jìn)行測(cè)試。表1給出了本文算法和其他對(duì)比算法在DAVIS 2016 與DAVIS 2017 數(shù)據(jù)集上的性能指標(biāo)實(shí)驗(yàn)結(jié)果，其中OnAVOS（Online Adaptive VOS）［14］、OSVOS（One-Shot VOS）［15］、OSVOSS（Semantic One-Shot VOS）［16］、MSK（即MaskTrack 算法）［17］使用掩碼進(jìn)行初始化，并使用在線(xiàn)微調(diào)的方法；FAVOS（Fast and Accurate online VOS）［18］、RGMP（Reference-Guided Mask Propagation）［19］、OSMN 算法［20］也使用掩碼進(jìn)行初始化，但不使用在線(xiàn)微調(diào)的方法；本文算法和SiamMask［8］使用邊界框進(jìn)行初始化，不使用在線(xiàn)微調(diào)的方法。從表中可以看出，本文算法在DAVIS 2016 上的J&F指標(biāo)為83.65%、區(qū)域相似度J為84.0%，輪廓相似度F為83.3%，優(yōu)于所有不使用在線(xiàn)微調(diào)的算法，僅略低于使用在線(xiàn)微調(diào)的OnAVOS 算法，相較于SiamMask，J和F分別提升了12.3 和15.5 個(gè)百分點(diǎn)；在DAVIS 2017 上的J&F指標(biāo)為69.05%、區(qū)域相似度J為69.6%，優(yōu)于其他對(duì)比算法，相較于SiamMask，J和F分別提升了15.3 和10.0 個(gè)百分點(diǎn)。

表1 不同算法在DAVIS 2016與DAVIS 2017數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of different algorithms on DAVIS 2016 and DAVIS 2017 datasets

相較于DAVIS 2016 數(shù)據(jù)集，DAVIS 2017 更具有挑戰(zhàn)性，在DAVIS 2016 上性能較好的算法，在DAVIS 2017 數(shù)據(jù)集上不一定有較好的表現(xiàn)，如OnAVOS 算法，而本文算法在兩個(gè)數(shù)據(jù)集上都有較高的性能指標(biāo)，表明本文算法具有更好的穩(wěn)健性。

3.2 VOT評(píng)估

3.2.1 數(shù)據(jù)集

對(duì)于VOT 實(shí)驗(yàn)，在VOT2016［21］、VOT2018［22］數(shù)據(jù)集上對(duì)本文算法進(jìn)行評(píng)估，VOT2016 和VOT2018 均包含60 個(gè)具有挑戰(zhàn)性的視頻序列，這60 個(gè)序列中包含了單目標(biāo)跟蹤領(lǐng)域中的難點(diǎn)問(wèn)題，如光照變化、尺度變化、外觀(guān)變化、相似背景干擾、運(yùn)動(dòng)模糊和遮擋等。將VOT2016 中一些易于跟蹤且準(zhǔn)確度較高的視頻序列進(jìn)行更換，形成了VOT2018 序列。VOT2018 重新標(biāo)定了序列的真值，給出了更為精細(xì)的標(biāo)注信息。根據(jù)VOT 的評(píng)估標(biāo)準(zhǔn)，本文采用以下3 個(gè)指標(biāo)顯示跟蹤性能：準(zhǔn)確率（A）用于評(píng)價(jià)算法跟蹤目標(biāo)的準(zhǔn)確度，值越大準(zhǔn)確度越高；魯棒性（R）表示跟蹤算法的穩(wěn)定性，值越小穩(wěn)定性越高；預(yù)期平均重疊率（Expected Average Overlap rate，EAO）是一種綜合考慮跟蹤算法準(zhǔn)確性和魯棒性的度量指標(biāo)，值越大表示跟蹤器性能越好。

3.2.2 評(píng)估結(jié)果

將本文算法與SiamMask［2］、ATOM（Accurate Tracking by Overlap Maximization）［23］、ECO［5］、ASRCF（Adaptive Spatially-Regularized Correlation Filters）［24］、C-COT［4］、TCNN［6］、SiamRPN［7］、DaSiamRPN（Distractor-aware Siamese RPN）［25］、SiamRPN++（SiamRPN with Deep Networks）［26］、LADCF（Learning Adaptive Discriminative Correlation Filters）［27］、SPM（Series-Parallel Matching）［28］、RCO（Continuous Convolution Operators with Resnet Features）［22］、UPDT（Unveiling the Power of Deep Tracking）［29］、MFT（Multi-Hierarchical Independent Correlation Filters for Visual Tracking）［30］和GFS-DCF（Group Feature Selection and DisCriminative Filter）［31］算法進(jìn)行對(duì)比分析，在不同數(shù)據(jù)集上的對(duì)比結(jié)果如表2 所示。在VOT2016 數(shù)據(jù)集上，在A(yíng) 相差不大的情況下，本文算法的R 達(dá)到了最優(yōu)，EAO 為0.475，高于其他對(duì)比算法。在VOT2018 數(shù)據(jù)集上，A為0.586，僅次于SiamMask 和ATOM［23］；R 為0.183，雖然沒(méi)能排在前列，但優(yōu)于SiamMask 和ATOM；EAO 為0.421，優(yōu)于其他對(duì)比算法。相較于SiamMask 算法，雖然本文算法的A略低，但R 和EAO 指標(biāo)均較好，在VOT2016 數(shù)據(jù)集分別降低和提高了7.2 個(gè)和4.2 個(gè)百分點(diǎn)，在VOT2018 數(shù)據(jù)集分別降低和提高了9.3 個(gè)和4.1 個(gè)百分點(diǎn)。

在VOT 實(shí)驗(yàn)中，本文算法的A、R 和EAO 雖然沒(méi)能同時(shí)優(yōu)于其他對(duì)比算法，但各指標(biāo)均排在前列。VOT2016 和VOT2018 的測(cè)試中，EAO 值均高于其他對(duì)比算法，表明本文算法有著不錯(cuò)的跟蹤性能。同時(shí)，本文算法的運(yùn)行速度為32.00 frame/s，滿(mǎn)足實(shí)時(shí)性要求。

3.2.3 與其他算法的定性對(duì)比

為驗(yàn)證本文算法的有效性，選取VOT2018 數(shù)據(jù)集中具有代表性的視頻序列做定性對(duì)比實(shí)驗(yàn)，測(cè)試結(jié)果如圖7 所示，由上到下bmx、basketball、dinosaur、girl這4個(gè)視頻序列包含尺度變化、相似目標(biāo)干擾、相似背景干擾、目標(biāo)遮擋等挑戰(zhàn)場(chǎng)景。

圖7 在不同視頻序列上的定性對(duì)比Fig.7 Qualitative comparison on different video sequences

1）目標(biāo)尺度變化下的對(duì)比。目標(biāo)在運(yùn)動(dòng)過(guò)程中，尺度變化是很常見(jiàn)的，當(dāng)目標(biāo)的尺度變化過(guò)快，會(huì)對(duì)跟蹤效果產(chǎn)生影響。從bmx 序列的跟蹤效果可以看出，當(dāng)目標(biāo)的尺度發(fā)生快速變化時(shí)，SiamMask 只預(yù)測(cè)到了目標(biāo)的一部分，本文算法有更準(zhǔn)確的預(yù)測(cè)結(jié)果。

2）相似目標(biāo)干擾下的對(duì)比。當(dāng)目標(biāo)與周?chē)嬖诘南嗨聘蓴_物共同進(jìn)入檢測(cè)視野時(shí)，容易發(fā)生混淆導(dǎo)致跟錯(cuò)目標(biāo)。basketball 序列的第647 幀到664 幀，目標(biāo)被相似物體部分遮擋，SiamMask 將目標(biāo)與干擾物共同預(yù)測(cè)為跟蹤對(duì)象，而本文算法準(zhǔn)確地預(yù)測(cè)了結(jié)果。

3）相似背景干擾下的對(duì)比。目標(biāo)圖像與圖片背景反差不明顯，比如目標(biāo)圖像顏色與背景顏色基本相同，會(huì)干擾對(duì)目標(biāo)的辨識(shí)，影響跟蹤的性能。dinosaur 序列中背景顏色與目標(biāo)顏色相差較小，從結(jié)果來(lái)看，本文算法準(zhǔn)確地完成了對(duì)目標(biāo)的跟蹤。

4）目標(biāo)遮擋情況下的對(duì)比。由于周?chē)h(huán)境的復(fù)雜性和其他物體的干擾，目標(biāo)在運(yùn)動(dòng)過(guò)程中會(huì)被部分遮擋或者完全遮擋（目標(biāo)消失）。在girl 序列中當(dāng)目標(biāo)被遮擋時(shí)，SiamMask將遮擋物預(yù)測(cè)為跟蹤對(duì)象，而本文算法沒(méi)有丟失目標(biāo)，完成了對(duì)目標(biāo)的跟蹤。

3.3 消融實(shí)驗(yàn)

為驗(yàn)證不同模塊對(duì)目標(biāo)跟蹤性能的影響，本文在VOT2018 和DAVIS 2017 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。首先，移除模板更新機(jī)制DFPN，采用單一的MaskIoU 匹配或外觀(guān)匹配（Appearance），此時(shí)目標(biāo)模板一直更新。然后，同時(shí)采用MaskIoU 匹配和外觀(guān)匹配，并增加基于畢達(dá)哥拉斯模糊決策的模板更新機(jī)制DFPN 進(jìn)行目標(biāo)模板更新和匹配方式選擇。從表3 可以看出，僅采用MaskIoU 匹配，跟蹤速度是可觀(guān)的，但是模板漂移問(wèn)題導(dǎo)致跟蹤性能不佳；僅采用外觀(guān)匹配，跟蹤性能有所提升，但復(fù)雜的深度網(wǎng)絡(luò)導(dǎo)致跟蹤速度僅19 frame/s。增加模板更新機(jī)制DFPN 進(jìn)行目標(biāo)模板更新和匹配方式選擇（MaskIoU 或外觀(guān)），EAO 指標(biāo)達(dá)到了0.403，速度滿(mǎn)足實(shí)時(shí)性要求。在此基礎(chǔ)上，增加卡爾曼濾波器，跟蹤性能有所提升，EAO 達(dá)到了0.421。

表3 消融實(shí)驗(yàn)對(duì)比結(jié)果Tab.3 Comparative results of ablation experiments

單一的匹配方式中，目標(biāo)模板無(wú)論正確與否，總是被更新，因此跟蹤性能不均衡。從表3的消融實(shí)驗(yàn)結(jié)果可以觀(guān)察到，增加DFPN，跟蹤性能有所提升。DFPN1用來(lái)鑒定MaskIoU 匹配過(guò)程中目標(biāo)模板的質(zhì)量，DFPN2 用來(lái)鑒定外觀(guān)匹配過(guò)程中目標(biāo)模板的質(zhì)量，整個(gè)DFPN 所起到的作用是將3種匹配方式的優(yōu)勢(shì)結(jié)合在一起，進(jìn)而均衡跟蹤的速度與精度。

3.4 分割跟蹤定性分析

本文算法在DAVIS 和VOT 序列上的分割跟蹤定性結(jié)果如圖8 所示，其中，第1 行為DAVIS 2016 上的單對(duì)象分割效果，掩膜輪廓展示了像素級(jí)的分割結(jié)果；第2～3 行為DAVIS 2017 上的多對(duì)象分割效果，圖像中多個(gè)目標(biāo)以不同的輪廓突出顯示。第4 行圖像序列同時(shí)存在于VOT2016 和VOT2018 中，第5 行只存在于VOT2016 中，第6 行只存在于VOT2018 中，從這3 行視頻序列的分割跟蹤結(jié)果可以清晰觀(guān)察到，不論在簡(jiǎn)單場(chǎng)景，還是復(fù)雜場(chǎng)景，本文算法都能產(chǎn)生準(zhǔn)確地分割掩碼和目標(biāo)邊界框。這6 個(gè)視頻序列，包含了目標(biāo)形變、光照變化、尺度方向變化、目標(biāo)遮擋、相似性干擾等挑戰(zhàn)場(chǎng)景。不難看出，即使存在干擾，本文算法仍能夠產(chǎn)生準(zhǔn)確的分割掩碼和匹配到正確的目標(biāo)，實(shí)現(xiàn)持續(xù)穩(wěn)定的跟蹤。

圖8 本文算法在VOT和DAVIS數(shù)據(jù)集上的定性分析結(jié)果Fig.8 Qualitative analysis results of the proposed algorithm on VOT and DAVIS datasets

4 結(jié)語(yǔ)

本文提出了一種基于實(shí)例分割與畢達(dá)哥拉斯模糊決策的目標(biāo)跟蹤算法，在深度學(xué)習(xí)實(shí)例分割網(wǎng)絡(luò)YOLACT++的mask 分支上引入MaskIoU 匹配，以提升速度；在box 分支上引入外觀(guān)匹配，以提升精度；同時(shí)融合卡爾曼濾波算法縮小候選目標(biāo)范圍和預(yù)測(cè)特殊情景中的目標(biāo)位置。提出的基于畢達(dá)哥拉斯模糊決策的模板更新機(jī)制決定是否更新目標(biāo)模板和更換匹配方式，以應(yīng)對(duì)不同場(chǎng)景中的目標(biāo)跟蹤問(wèn)題。在DAVIS 和VOT 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，即使在尺度變化、相似性干擾、遮擋等復(fù)雜場(chǎng)景下，本文算法仍能夠?qū)崿F(xiàn)準(zhǔn)確穩(wěn)定的跟蹤。在后續(xù)的研究中，將考慮改進(jìn)YOLACT++網(wǎng)絡(luò)結(jié)構(gòu)以提高分割精度和設(shè)計(jì)新的目標(biāo)模板更新機(jī)制，進(jìn)一步提高算法的性能。

計(jì)算機(jī)應(yīng)用2023年6期

計(jì)算機(jī)應(yīng)用的其它文章: “跨媒體表征學(xué)習(xí)及認(rèn)知推理”專(zhuān)欄征文通知; 圖自動(dòng)編碼器上二階段融合實(shí)現(xiàn)的環(huán)狀RNA-疾病關(guān)聯(lián)預(yù)測(cè); 基于TrustZone的區(qū)塊鏈智能合約隱私授權(quán)方法; 深度學(xué)習(xí)在天氣預(yù)報(bào)領(lǐng)域的應(yīng)用分析及研究進(jìn)展綜述; 基于殘差編解碼-生成對(duì)抗網(wǎng)絡(luò)的正弦圖修復(fù)的稀疏角度錐束CT圖像重建; 面向小目標(biāo)的YOLOv5安全帽檢測(cè)算法