亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聯(lián)合優(yōu)化的強(qiáng)耦合孿生區(qū)域推薦網(wǎng)絡(luò)的目標(biāo)跟蹤算法

        2020-10-18 12:57:02石國(guó)強(qiáng)
        計(jì)算機(jī)應(yīng)用 2020年10期
        關(guān)鍵詞:分類

        石國(guó)強(qiáng),趙 霞

        (同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804)

        (*通信作者電子郵箱xiazhao@#edu.cn)

        0 引言

        目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)非常重要且具有挑戰(zhàn)性的研究課題,被廣泛應(yīng)用于自動(dòng)駕駛、人機(jī)交互等領(lǐng)域[1]。盡管目標(biāo)跟蹤技術(shù)已經(jīng)發(fā)展了幾十年,由于被跟蹤目標(biāo)在運(yùn)動(dòng)過(guò)程中會(huì)出現(xiàn)形變、遮擋、快速移動(dòng)、光照變化等情況,精準(zhǔn)定位目標(biāo)仍存在很大挑戰(zhàn)。

        相關(guān)學(xué)者將機(jī)器學(xué)習(xí)中的分類學(xué)習(xí)思想應(yīng)用到跟蹤領(lǐng)域,極大地促進(jìn)了目標(biāo)跟蹤算法的發(fā)展。分類學(xué)習(xí)方法將目標(biāo)跟蹤任務(wù)看作一個(gè)區(qū)分前景和背景的二分類問(wèn)題,通過(guò)在線或離線訓(xùn)練分類器,尋找分類值最大的區(qū)域,從而實(shí)現(xiàn)目標(biāo)的跟蹤。因此,設(shè)計(jì)一個(gè)高精度且速度快的分類器,有助于提升跟蹤算法的魯棒性以及實(shí)時(shí)性。在信號(hào)處理領(lǐng)域中,相關(guān)性用來(lái)描述兩個(gè)信號(hào)之間的聯(lián)系。Bolme 等[2]首次將相關(guān)操作用于跟蹤任務(wù),提出相關(guān)濾波器跟蹤算法,并用快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)在頻域內(nèi)完成多個(gè)信號(hào)的相關(guān)操作,大幅提升了算法的計(jì)算效率。由于相關(guān)濾波器具有高效的計(jì)算性能,近年來(lái)許多研究者將其用于目標(biāo)跟蹤[3-5]。基于相關(guān)濾波器的算法屬于分類學(xué)習(xí)方法,核心是訓(xùn)練一個(gè)濾波模板,即分類器,用于將目標(biāo)從背景信息中分離出來(lái)。但基于相關(guān)濾波器的算法也存在不足,如在遇到目標(biāo)發(fā)生較大形變或背景與目標(biāo)高度相似等情況下不能很好地定位目標(biāo)。此外,該算法需要頻繁更新濾波模板,導(dǎo)致跟蹤算法的速度變慢。

        深度卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)秀特征提取能力,以及近幾年硬件性能不斷提升和可用于訓(xùn)練的標(biāo)記數(shù)據(jù)逐漸增多,使得該類網(wǎng)絡(luò)大量應(yīng)用于計(jì)算機(jī)視覺(jué)處理任務(wù)中[6-8]。部分學(xué)者使用深度卷積特征替換傳統(tǒng)手工特征,極大提高了基于相關(guān)濾波跟蹤器的跟蹤精度。但也存在不足,因?yàn)樯疃染矸e特征的使用會(huì)進(jìn)一步降低算法的運(yùn)行效率。算法運(yùn)行效率降低的原因有兩方面:一是相較于傳統(tǒng)手工特征,深度卷積特征的提取過(guò)程更加耗時(shí);二是網(wǎng)絡(luò)模型采用預(yù)訓(xùn)練模型參數(shù),在線跟蹤目標(biāo)時(shí),需要針對(duì)跟蹤目標(biāo)在線更新模型系數(shù),造成跟蹤速度慢這一問(wèn)題。

        由于孿生網(wǎng)絡(luò)具有共享權(quán)值的特征,因此特別適用于處理輸入“比較類似”的情況,這和目標(biāo)跟蹤的機(jī)制相吻合。通過(guò)離線訓(xùn)練的孿生網(wǎng)絡(luò)模型便可進(jìn)行很好的特征提取,因而無(wú)需在線更新模型參數(shù),有效提升跟蹤速度。目前,基于孿生網(wǎng)絡(luò)的深度卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于目標(biāo)跟蹤任務(wù)中。SINT(Siamese INstance search for Tracking)[9]最先使用孿生網(wǎng)絡(luò)作為跟蹤算法的主體框架,將跟蹤問(wèn)題轉(zhuǎn)化為一個(gè)圖像塊匹配問(wèn)題。該算法根據(jù)高斯分布采集多個(gè)不同大小及形狀的圖像塊,并與目標(biāo)模板圖像塊進(jìn)行匹配,選擇最佳匹配圖像塊作為跟蹤結(jié)果。SiamFC(Fully-Convolutional Siamese networks for object tracking)[10]使用全卷積網(wǎng)絡(luò)作為特征提取部分,將跟蹤問(wèn)題看成一個(gè)相似性學(xué)習(xí)問(wèn)題,利用全卷積特征平移不變性來(lái)避免圖像特征重復(fù)提取,提高了算法的運(yùn)行效率。在線跟蹤時(shí),該算法直接對(duì)目標(biāo)中心位置進(jìn)行定位,目標(biāo)形狀大小由初始幀圖像塊形狀和當(dāng)前最大響應(yīng)圖像塊尺度進(jìn)行線性估計(jì)?;趯\生區(qū)域推薦候選網(wǎng)絡(luò)的高性能單目標(biāo)跟蹤(SiamRPN)算法[11]將跟蹤問(wèn)題看成一個(gè)全局單步檢測(cè)問(wèn)題,在SiamFC 基礎(chǔ)上,使用SSD(Single Shot multibox Detector)[12]中區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network,RPN),根據(jù)得到的孿生網(wǎng)絡(luò)特征,不需要進(jìn)行尺度估計(jì),直接預(yù)測(cè)目標(biāo)中心位置及尺度。雖然SiamRPN 具有很好的跟蹤能力,但其分類任務(wù)和邊框回歸任務(wù)沒(méi)有聯(lián)系,導(dǎo)致模型預(yù)測(cè)的最高分類分?jǐn)?shù)與最佳預(yù)測(cè)邊框結(jié)果不匹配,僅得到次優(yōu)跟蹤結(jié)果。

        針對(duì)上述問(wèn)題,本文在SiamRPN 算法基礎(chǔ)上,提出一種基于聯(lián)合優(yōu)化的強(qiáng)耦合孿生區(qū)域推薦跟蹤算法——SCSiamRPN(object tracking algorithm based on Strong-Coupled Siamese Region Proposal Network)。首先提出聯(lián)合分類任務(wù)和邊框回歸任務(wù)的優(yōu)化策略,設(shè)計(jì)了以交并比(Intersection-over-Union,IoU)為紐帶的聯(lián)合優(yōu)化分類損失函數(shù)。該分類損失函數(shù)針對(duì)預(yù)測(cè)精度高的正樣本,即IoU 高的正樣本,提升其對(duì)總分類損失的貢獻(xiàn);針對(duì)低IoU 的正樣本,降低其對(duì)總分類損失的貢獻(xiàn),使得最高分類分?jǐn)?shù)與最佳預(yù)測(cè)邊框結(jié)果相匹配。其次,將IoU 作為邊框損失函數(shù)的權(quán)重,提升目標(biāo)中心樣本的比重,抑制邊緣樣本的比重,從而提高邊框回歸子網(wǎng)絡(luò)的定位精度。最后,由于邊框回歸網(wǎng)絡(luò)輸出的是正則化值,在計(jì)算IoU 值時(shí),傳統(tǒng)方法需進(jìn)行數(shù)值轉(zhuǎn)換,過(guò)程繁瑣,且計(jì)算量大。針對(duì)這一問(wèn)題,本文采用改進(jìn)的BoundedIoU 方法[13]進(jìn)行計(jì)算,這種方法僅估計(jì)IoU 的上界,并直接采用正則化值作為輸入,可以在不損失計(jì)算精度的同時(shí),大大簡(jiǎn)化計(jì)算過(guò)程。

        在OTB50[14]、OTB100[15]和VOT2016[16]等測(cè)試數(shù)據(jù)集上,本文算法SCSiamRPN 均取得了滿意的實(shí)驗(yàn)結(jié)果。相較于SiamRPN 算法,本文算法在OTB 系列測(cè)試集上的距離精度(Distance Precision,DP)和成功率曲線圖面積(Area Under the Curve,AUC)均有3%的提升,在VOT 等測(cè)試集上的DP 和AUC 提升了3%~7%;而且,本文算法的最高分類分?jǐn)?shù)均與最佳邊框相匹配。以上實(shí)驗(yàn)結(jié)果表明:以IoU 為紐帶的聯(lián)合優(yōu)化方法有效提升了分類任務(wù)與邊框回歸任務(wù)間的耦合性,進(jìn)而提高了目標(biāo)跟蹤任務(wù)的性能。

        1 基于孿生網(wǎng)絡(luò)的跟蹤器

        孿生網(wǎng)絡(luò)是指具有兩個(gè)共享權(quán)值分支網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò),基于孿生網(wǎng)絡(luò)的跟蹤算法使用兩個(gè)共享權(quán)值分支網(wǎng)絡(luò)分別提取目標(biāo)和搜索圖像的特征。該類算法一般分為離線訓(xùn)練和在線跟蹤兩個(gè)階段。離線訓(xùn)練階段利用帶標(biāo)簽的視頻數(shù)據(jù)集作為訓(xùn)練樣本,采用梯度下降策略優(yōu)化算法模型,通過(guò)訓(xùn)練學(xué)習(xí)得到通用的特征提取深度卷積網(wǎng)絡(luò)模型。在線跟蹤階段,首先初始化孿生網(wǎng)絡(luò)的一個(gè)分支,將被跟蹤目標(biāo)圖像塊作為其輸入;然后逐幀提取搜索圖像塊作為孿生網(wǎng)路另一分支的輸入,對(duì)兩分支的輸出特征進(jìn)行相關(guān)操作,通過(guò)尋找相似性最大的匹配圖像塊完成對(duì)目標(biāo)的跟蹤。

        本章首先介紹經(jīng)典的基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法SiamFC,用來(lái)預(yù)測(cè)目標(biāo)的中心位置;其次介紹經(jīng)典的采用RPN 的目標(biāo)跟蹤算法SiamRPN,該算法通過(guò)區(qū)域推薦網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的中心位置及大小。

        1.1 SiamFC算法

        SiamFC 算法的整體框架如圖1 所示,圖中孿生網(wǎng)絡(luò)虛線框中上方支路表示目標(biāo)分支,輸入為z,下方支路表示搜索分支,輸入為x,兩條支路采用共享權(quán)值的全卷積網(wǎng)絡(luò)AlexNet[17]作為特征提取網(wǎng)絡(luò)(圖1中“φ”)。

        圖1 SiamFC框架Fig.1 Architecture of SiamFC

        由于全卷積網(wǎng)絡(luò)對(duì)輸入圖像塊沒(méi)有大小要求,該算法采用127×127的圖像塊作為目標(biāo)圖像輸入、255×255的圖像塊為搜索圖像輸入。將兩條分支網(wǎng)絡(luò)的輸出“6×6×128 目標(biāo)圖像特征和22×22×128 搜索圖像特征”用相關(guān)操作處理(圖中“*”),由于相關(guān)操作要求兩圖像大小相同,這里通過(guò)288 次平移,得到17×17 的相似性置信分?jǐn)?shù)圖。最后,通過(guò)二次差值法進(jìn)行上采樣,提升置信分?jǐn)?shù)圖的分辨率,得到大小為272×272的響應(yīng)圖,響應(yīng)圖中最大值的位置即為當(dāng)前幀目標(biāo)的中心位置。

        在跟蹤過(guò)程中,模型的輸入為3 個(gè)不同大小的搜索圖片(圖1 中“x”處),根據(jù)響應(yīng)值最大的輸入圖片確定當(dāng)前目標(biāo)的大小。

        1.2 SiamRPN算法

        從圖1可以看出,SiamFC算法假設(shè)當(dāng)前幀目標(biāo)尺度不變,直接預(yù)測(cè)目標(biāo)中心位置,當(dāng)目標(biāo)尺度有較大改變時(shí),性能欠佳。SiamRPN 算法框架如圖2 所示,該算法采用區(qū)域推薦網(wǎng)絡(luò)(圖2(b)部分)代替SiamFC 位置預(yù)測(cè)網(wǎng)絡(luò)中的相關(guān)操作(圖1 中“相關(guān)”模塊),同時(shí)預(yù)測(cè)出目標(biāo)的中心位置和尺度大小,相較于SiamFC,SiamRPN 的定位結(jié)果更準(zhǔn)確。該算法同樣也用孿生網(wǎng)絡(luò)提取目標(biāo)圖像和搜索圖像的特征,對(duì)提取的特征用k個(gè)不同尺度的預(yù)選框,通過(guò)區(qū)域推薦網(wǎng)絡(luò)對(duì)預(yù)選框進(jìn)行分類與回歸,最終定位出目標(biāo)。

        圖2 SiamRPN框架Fig.2 Architecture of SiamRPN

        由圖1 可知,該算法包括孿生網(wǎng)絡(luò)、區(qū)域推薦網(wǎng)絡(luò)和優(yōu)化模塊三部分,其中優(yōu)化模塊僅在訓(xùn)練階段有效。該模塊根據(jù)各樣本真實(shí)值與預(yù)測(cè)值,分別完成分類任務(wù)和邊框回歸任務(wù)的損失計(jì)算,最后根據(jù)損失值進(jìn)行反向傳播。

        分類任務(wù)損失函數(shù)為:

        其中:CE(pi,gi)為交叉熵?fù)p失函數(shù),即單樣本分類損失。對(duì)于真實(shí)標(biāo)簽為gi,預(yù)測(cè)值為pi的樣本i,其交叉熵?fù)p失函數(shù)為:

        邊框回歸任務(wù)損失函數(shù)如下:

        其中:smoothL1(di[j])為損失函數(shù);d為樣本i的某一邊框預(yù)測(cè)值與正則化真實(shí)值之差(d包括邊框的中心橫縱坐標(biāo)x和y、邊框的寬w和高h(yuǎn),共四個(gè)元素,詳細(xì)公式在2.3 節(jié)中給出);pos表示正樣本。

        損失函數(shù)smoothL1(di[j])如下:

        圖2中T、S分別為目標(biāo)圖像和搜索圖像;φ(T)、φ(S)表示孿生網(wǎng)絡(luò)提取的目標(biāo)圖像特征和搜索圖像特征。SiamRPN 假設(shè)有k個(gè)預(yù)選框(該算法的k為5),區(qū)域推薦網(wǎng)絡(luò)通過(guò)兩個(gè)單獨(dú)的卷積,將φ(T)的通道數(shù)分別提升至2k和4k倍,得到用于分類任務(wù)的[φ(T)]c和用于邊框回歸任務(wù)的[φ(T)]b。φ(S)也通過(guò)兩個(gè)卷積分成兩個(gè)特征[φ(S)]c和[φ(S)]b,其輸出特征通道數(shù)保持不變。最后通過(guò)式(5)得到分類結(jié)果和目標(biāo)位置。

        其中:Rc2k表示目標(biāo)圖像T和搜索圖像S卷積操作后得到的分類結(jié)果;Rb4k表示搜索圖像S預(yù)測(cè)的目標(biāo)位置相較于k個(gè)預(yù)選框的正則化距離。在跟蹤階段,從Rc2k中選取前景分類分?jǐn)?shù)最大的預(yù)選框作為此幀預(yù)測(cè)結(jié)果,則該預(yù)選框?qū)?yīng)的邊框預(yù)測(cè)值(ρx,ρy,ρw,ρh),為此幀目標(biāo)的正則化值距離。假設(shè)x、y表示分類分?jǐn)?shù)最大的預(yù)選框中心坐標(biāo);aw、ah表示該預(yù)選框的寬和高,則最后預(yù)測(cè)的目標(biāo)位置如下:

        以xpred、ypred為中心,裁剪大小為A的搜索圖像,A的計(jì)算方式如式(7)所示:

        其中:p=(w+h)/2;w、h分別為預(yù)測(cè)的寬wpred和高h(yuǎn)pred。然后將搜索圖像縮放到255×255。

        不斷重復(fù)上述操作,即通過(guò)式(7)計(jì)算搜索圖像的大小,并在下一幀中裁剪搜索圖像,輸入圖2 所示Search 分支,通過(guò)式(5)和式(6)得到新一幀的預(yù)測(cè)結(jié)果。

        2 基于聯(lián)合優(yōu)化的強(qiáng)耦合孿生區(qū)域推薦跟蹤算法

        為了提升跟蹤器的跟蹤精度,同時(shí)不影響在線跟蹤的速度,本文提出一種基于聯(lián)合優(yōu)化的強(qiáng)耦合孿生區(qū)域推薦跟蹤算法,在訓(xùn)練階段對(duì)分類任務(wù)與邊框回歸任務(wù)施加約束,以增強(qiáng)分類任務(wù)和邊框回歸任務(wù)的耦合性,使得分類置信分?jǐn)?shù)能夠反映邊框回歸任務(wù)的精度,算法的整體框架如圖3所示。

        圖3 SCSiamRPN框架Fig.3 Architecture of SCSiamRPN

        由圖3 可知,本文算法在SiamRPN 的基礎(chǔ)上用聯(lián)合優(yōu)化模塊替換原有的優(yōu)化模塊。

        考慮到SiamRPN 中樣本的正負(fù)標(biāo)簽是根據(jù)預(yù)選框與真實(shí)邊框的IoU 確定的,本文以IoU 為紐帶,重新設(shè)計(jì)SiamRPN的分類損失函數(shù),增強(qiáng)分類任務(wù)和邊框回歸任務(wù)的耦合性,2.1 節(jié)介紹本文提出的聯(lián)合優(yōu)化分類損失函數(shù);此外,本文也利用IoU 對(duì)邊框損失函數(shù)進(jìn)行改進(jìn),增加接近目標(biāo)部分的權(quán)重,減小遠(yuǎn)離目標(biāo)部分的權(quán)重,以提升邊框回歸網(wǎng)絡(luò)的定位精度,改進(jìn)的損失函數(shù)在2.2 節(jié)中介紹;最后,由于邊框回歸網(wǎng)絡(luò)預(yù)測(cè)結(jié)果為正則化值,用傳統(tǒng)IoU 函數(shù)計(jì)算時(shí),正則化值需要先轉(zhuǎn)換成平面坐標(biāo)值再計(jì)算,將增大計(jì)算誤差,導(dǎo)致模型訓(xùn)練不收斂,因此2.3 節(jié)介紹本文采用的IoU 計(jì)算方法,以提升網(wǎng)絡(luò)的訓(xùn)練效率和保證網(wǎng)絡(luò)的收斂性。

        2.1 聯(lián)合優(yōu)化分類損失函數(shù)

        采用RPN 的目標(biāo)檢測(cè)算法和目標(biāo)跟蹤算法,其分類任務(wù)都獨(dú)立于邊框回歸任務(wù)。在測(cè)試階段對(duì)所有正樣本都會(huì)盡可能預(yù)測(cè)高的分類分?jǐn)?shù),而忽略該樣本的邊框定位精度,最終導(dǎo)致分類分?jǐn)?shù)獨(dú)立于邊框定位精度。在線跟蹤時(shí),這一問(wèn)題會(huì)對(duì)模型的跟蹤性能產(chǎn)生影響。跟蹤算法在預(yù)測(cè)目標(biāo)位置時(shí),根據(jù)最高分類分?jǐn)?shù)確定目標(biāo)的位置信息,而此時(shí)模型的最高分類分?jǐn)?shù)可能對(duì)應(yīng)著低精度的預(yù)測(cè)邊框,從而對(duì)模型的定位產(chǎn)生影響,因此增強(qiáng)分類任務(wù)和邊框回歸任務(wù)的聯(lián)系有益于提高定位精度。

        由于跟蹤算法的最終定位結(jié)果只與分類網(wǎng)絡(luò)預(yù)測(cè)的前景(正樣本)有關(guān),故本文將通過(guò)正樣本來(lái)增強(qiáng)分類任務(wù)與邊框回歸任務(wù)的耦合性。對(duì)于正樣本,在SiamRPN 原有分類損失函數(shù)(式(1))的基礎(chǔ)上添加與該樣本IoU 有關(guān)的耦合因子,最終的分類損失函數(shù)為正樣本分類損失與負(fù)樣本分類損失之和,如式(8)所示:

        其中:pos表示正樣本集合;neg表示負(fù)樣本集合;ioui為第i個(gè)樣本的預(yù)測(cè)邊框和真實(shí)邊框之間的IoU 值;wi(ioui)為以第i個(gè)樣本IoU值為自變量的耦合因子。wi(ioui)的計(jì)算公式為:

        其中:α表示超參;n表示正樣本數(shù)量。為了保證總的正樣本分類損失不變,對(duì)耦合因子進(jìn)行了歸一化處理。耦合因子表示為該樣本IoU 值的α次冪,乘以正樣本分類損失之和與以耦合因子為權(quán)重的正樣本分類損失之和的比值。由式(9)可知,耦合因子與IoU 值成正比,在訓(xùn)練過(guò)程中,通過(guò)耦合因子改變各正樣本的分類損失值,對(duì)于邊框精度高的樣本,即IoU 值大的正樣本,增加其分類損失值;對(duì)于邊框精度低的樣本,即IoU 值小的正樣本,降低其分類損失值,從而增強(qiáng)分類任務(wù)和邊框回歸任務(wù)的耦合性,使得分類分?jǐn)?shù)與邊框精度相匹配,達(dá)到聯(lián)合優(yōu)化的效果。

        2.2 基于IoU的邊框損失函數(shù)

        文獻(xiàn)[18]指出,即使模型在訓(xùn)練過(guò)程中是收斂的,當(dāng)邊緣樣本的梯度較大時(shí),邊框回歸網(wǎng)絡(luò)損失的梯度主要由邊緣樣本主導(dǎo),導(dǎo)致模型在訓(xùn)練過(guò)程中更多注重對(duì)邊緣樣本的優(yōu)化,而忽略對(duì)小梯度中心樣本的優(yōu)化。由于目標(biāo)跟蹤任務(wù)每次只需得到一個(gè)最佳定位結(jié)果,該結(jié)果越精準(zhǔn)越好,但上述問(wèn)題的存在限制了模型精度的提升。

        針對(duì)這一問(wèn)題,文獻(xiàn)[18]指出,減小邊緣樣本的梯度,可以提升對(duì)中心樣本的優(yōu)化。基于上述思想,本文提出基于IoU值的邊框損失函數(shù),提升目標(biāo)中心附近樣本對(duì)邊框回歸網(wǎng)絡(luò)損失的貢獻(xiàn)。IoU值可以反映邊框預(yù)測(cè)的精度,對(duì)于僅含有部分目標(biāo)的預(yù)選框區(qū)域,其預(yù)測(cè)精度劣于含有全部目標(biāo)的預(yù)設(shè)區(qū)域,本文根據(jù)區(qū)域推薦網(wǎng)絡(luò)中預(yù)測(cè)邊框的IoU 值微調(diào)其邊框損失值。

        在SiamRPN 的邊框回歸損失函數(shù)(式(3))的基礎(chǔ)上,為所有正樣本的邊框損失添加與該樣本IoU 有關(guān)的權(quán)重因子,最終邊框損失函數(shù)如式(10)所示:

        其中:β為超參。同理也對(duì)權(quán)重因子進(jìn)行了歸一化處理。權(quán)重因子為該樣本IoU 值的β次冪,乘以正樣本邊框損失之和與以權(quán)重因子為權(quán)重的正樣本邊框損失之和的比值。由式(11)可知權(quán)重因子與IoU 值成正比,因此在訓(xùn)練階段,可通過(guò)權(quán)重因子改變各樣本的邊框損失值。如圖4 所示,對(duì)于邊框精度低的樣本,即邊緣樣本,降低其邊框損失值,從而降低其對(duì)整個(gè)網(wǎng)絡(luò)的梯度貢獻(xiàn);對(duì)于邊框精度高的樣本,即目標(biāo)中心附近的樣本,提升其邊框損失值及對(duì)整個(gè)網(wǎng)絡(luò)的梯度貢獻(xiàn)。

        圖4 梯度范數(shù)可視化Fig.4 Visualization of gradient norm

        聯(lián)合式(8)與式(10)后,即增強(qiáng)分類任務(wù)與邊框回歸任務(wù)的耦合性后,提升邊框回歸精度與提升邊框的分類分?jǐn)?shù)形成正反饋迭代關(guān)系,最終提升跟蹤算法的跟蹤性能。

        2.3 IoU計(jì)算函數(shù)

        在本文算法中,IoU作為增強(qiáng)分類任務(wù)與邊框回歸任務(wù)耦合性的紐帶,其計(jì)算的高效性和收斂性是關(guān)鍵因素。傳統(tǒng)的IoU 函數(shù)只能針對(duì)平面坐標(biāo)值計(jì)算相應(yīng)的IoU,而本文算法邊框回歸網(wǎng)絡(luò)的邊框輸出值為正則化后的值。此時(shí)如按傳統(tǒng)方法計(jì)算,需要將正則化值先轉(zhuǎn)化為平面坐標(biāo)值后,再計(jì)算預(yù)測(cè)邊框與真實(shí)邊框的交集與并集的比值。

        針對(duì)這一問(wèn)題,本文采用文獻(xiàn)[13]中提出的Bounded IoU方法,并添加近似約束,通過(guò)計(jì)算IoU 值的上界,無(wú)需將正則化值先轉(zhuǎn)化為平面坐標(biāo)值,大幅大簡(jiǎn)化了IoU值的計(jì)算過(guò)程。

        下面給出一些變量及正則化的定義,假設(shè)第i個(gè)樣本的預(yù)選框ai=(ax,ay,aw,ah),真實(shí)邊框gi=(gx,gy,gw,gh)和預(yù)測(cè)邊框pi=(px,py,pw,ph),以上變量均為平面坐標(biāo)值;網(wǎng)絡(luò)輸出的預(yù)測(cè)值ρi=(ρx,ρy,ρw,ρh)為正則化值,真實(shí)邊框進(jìn)行正則化后為δi=(δx,δy,δw,δh),樣本i的預(yù)測(cè)值與真實(shí)值正則化差值為di=(dx,dy,dw,dh),即dx=ρx-σx,其他變量同理,其中:x、y表示邊框中心坐標(biāo);w、h表示邊框的寬和高。

        模型的預(yù)測(cè)值均為正則化距離,因而需要對(duì)真實(shí)邊框進(jìn)行正則化處理,具體如下:

        Bounded IoU 的計(jì)算方法將IoU 分解為如下4 個(gè)獨(dú)立的部分:

        其中:Δx=px-gx,Δy=py-gy。計(jì)算iouB(px,gx,gw)值時(shí),假設(shè)py=gy,pw=gw,ph=gh,其他部分IoU 值計(jì)算類似。根據(jù)式(12)和dx、dw差值關(guān)系,可得dx=Δx/aw,dw=ln(pw/gw),對(duì)于dy、dh也有相似關(guān)系。將其代入式(13):

        此時(shí),可以直接采用正則化值計(jì)算IoU。由于僅計(jì)算正樣本的IoU 值,而正樣本的IoU>0.7,意味著gw和aw、gh和ah的值比較相近,可以假設(shè)gw≈aw,gh≈ah,進(jìn)一步簡(jiǎn)化式(14)中的前兩式,簡(jiǎn)化后如式(15)所示:

        最終的IoU計(jì)算公式為:

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

        實(shí)驗(yàn)的硬件環(huán)境為英特爾CPU i7,NVIDIA 1080Ti GPU,32 GB 內(nèi)存,操作系統(tǒng)為Ubuntu 16.04,深度學(xué)習(xí)框架為Pytorch 1.0.0[19],編程語(yǔ)言及版本為Python 3.6.5。

        本文算法在ILSVRC(the ImageNet Large Scale Visual Recognition Challenge)[20]和Youtube-BoundingBoxes[21]數(shù)據(jù)集上進(jìn)行離線訓(xùn)練。其中ILSVRC 是用于目標(biāo)檢測(cè)的視頻序列,包含了超過(guò)4 000 個(gè)視頻序列;Youtube-BoundingBoxes 是谷歌開(kāi)源的最大手工注釋的視頻數(shù)據(jù)集,包含了超過(guò)17 萬(wàn)個(gè)視頻序列。模型的訓(xùn)練共進(jìn)行了30 次迭代,對(duì)于聯(lián)合優(yōu)化損失函數(shù)中的超參設(shè)為α=1.2,β=1。測(cè)試視頻使用當(dāng)前目標(biāo)跟蹤領(lǐng)域常用的OTB50 和OTB100 數(shù)據(jù)集,OTB 系列數(shù)據(jù)集包含現(xiàn)實(shí)場(chǎng)景中常見(jiàn)的挑戰(zhàn),如快速運(yùn)動(dòng)、光照變化、尺度變化、遮擋變化、運(yùn)動(dòng)模糊等,可以很好地模擬現(xiàn)實(shí)場(chǎng)景中的跟蹤;為衡量聯(lián)合優(yōu)化對(duì)SiamRPN 算法性能的提升,在VOT2016、VOT2018[22]、TC128[23]等數(shù)據(jù)集進(jìn)行更全面的實(shí)驗(yàn)對(duì)比,其中VOT2016 視頻集包含60 個(gè)測(cè)試視頻,以短時(shí)間視頻為主;VOT2018視頻集在VOT2016的基礎(chǔ)上,更換10個(gè)難度更大的測(cè)試視頻,同時(shí)還對(duì)所有視頻進(jìn)行重新標(biāo)注,使得標(biāo)注邊框更加精確;TC128包含128個(gè)測(cè)試視頻,且所有視頻均為彩色,更接近人類觀察的現(xiàn)實(shí)場(chǎng)景。

        3.2 定量實(shí)驗(yàn)結(jié)果對(duì)比

        性能評(píng)估本文采用文獻(xiàn)[14]中提出的一次性評(píng)估(One-Pass Evaluation,OPE)策略,利用距離精度(DP)、成功率曲線圖面積(AUC)兩個(gè)評(píng)價(jià)指標(biāo)。OPE 是指僅用真實(shí)邊框中目標(biāo)的位置初始化第一幀,然后運(yùn)行跟蹤算法,根據(jù)預(yù)測(cè)結(jié)果計(jì)算平均精度和成功率的評(píng)價(jià)方法,這種方法廣泛用于跟蹤器的性能評(píng)估;DP為預(yù)測(cè)目標(biāo)邊框中心與真實(shí)目標(biāo)邊框中心誤差小于某一閾值的幀數(shù)占該視頻總幀數(shù)的比例,其中閾值一般取20 個(gè)像素;AUC 為成功率曲線與坐標(biāo)軸圍成的面積,成功率是指真實(shí)邊框與預(yù)測(cè)邊框的IoU 在不同閾值下視頻幀數(shù)的總占比。

        3.2.1 OTB測(cè)試集實(shí)驗(yàn)結(jié)果

        本文選取5個(gè)具有代表性的跟蹤算法在OTB 系列數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),包括高效卷積操作跟蹤算法ECO(Efficient Convolution Operators for tracking)[24]、多特征融合目標(biāo)跟蹤算法Staple(Sum of Template And Pixel-wise LEarners)[25]、空間正則判別相關(guān)濾波器(Spatially Regularized Discriminative Correlation Filters,SRDCF)跟蹤算法[26]、基于全卷積孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法(SiamFC)和基于孿生區(qū)域推薦網(wǎng)絡(luò)的高性能單目標(biāo)跟蹤算法(SiamRPN)。其中ECO 是目前基于相關(guān)濾波的最優(yōu)秀跟蹤算法。由于SiamFC 算法和SiamRPN 算法都需要進(jìn)行離線訓(xùn)練,為了保證對(duì)比的公平性,SiamFC、SiamRPN算法以及本文算法都在相同實(shí)驗(yàn)環(huán)境下進(jìn)行離線訓(xùn)練;在測(cè)試階段,所有算法的超參設(shè)置均采用原文獻(xiàn)中提供的默認(rèn)參數(shù),最大化還原算法的性能。

        OTB50 測(cè)試集上的距離精度和成功率實(shí)驗(yàn)結(jié)果如圖5 所示,結(jié)果表明本文算法在DP 和AUC 性能指標(biāo)上均優(yōu)于SiamRPN 算法,分別提升了3%,也優(yōu)于現(xiàn)階段最優(yōu)秀的基于相關(guān)濾波器的算法——ECO,在DP和AUC性能指標(biāo)上分別提升1%,均優(yōu)于對(duì)比結(jié)果中其他算法。

        OTB100 測(cè)試集上的距離精度和成功率實(shí)驗(yàn)結(jié)果如圖6所示,結(jié)果表明本文算法在DP 和AUC 性能指標(biāo)上均優(yōu)于SiamRPN 算法,DP 和AUC 分別達(dá)到0.86 和0.64,與SiamRPN算法相比均提升了3%。本文算法具有和ECO 同樣優(yōu)秀的跟蹤性能,均優(yōu)于其他對(duì)比算法。

        3.2.2 與SiamRPN算法對(duì)比實(shí)驗(yàn)結(jié)果

        為進(jìn)一步驗(yàn)證本文算法的有效性,選取VOT2016、VOT2018 和TC128 測(cè)試視頻集進(jìn)行實(shí)驗(yàn),給出一次性評(píng)估曲線(OPE),如圖7~9所示。

        圖5 OTB50測(cè)試集上的OPE結(jié)果曲線Fig.5 OPE curves on OTB50 test set

        圖6 OTB100測(cè)試集上的OPE結(jié)果曲線Fig.6 OPE curves on OTB100 test set

        圖7~9是本文算法和SiamRPN 算法在各個(gè)視頻測(cè)試集的OPE 對(duì)比結(jié)果。在VOT2016 測(cè)試視頻集中(圖7),本文算法的DP 和AUC 分別為0.69 和0.51,比SiamRPN 的DP 有7%的提升,AUC 有5%的提升;在VOT2018 測(cè)試視頻集中(圖8),本文算法比SiamRPN 在DP 和AUC 上均有3%的提升;在TC128 測(cè)試視頻集中(圖9),本文算法比SiamRPN 在DP 和AUC 上均有4%的提升。綜合以上各個(gè)視頻測(cè)試集的對(duì)比結(jié)果可以看出,相較于SiamRPN 算法,本文算法在性能指標(biāo)上有明顯的提升,說(shuō)明聯(lián)合優(yōu)化的方式可以增強(qiáng)分類網(wǎng)絡(luò)與邊框回歸網(wǎng)絡(luò)間的耦合性,使得模型預(yù)測(cè)的最高分類分?jǐn)?shù)與最佳IoU 邊框指向同一預(yù)測(cè)邊框,從而保證算法每次選擇最佳預(yù)測(cè)邊框,提升跟蹤算法的魯棒性。

        圖7 VOT2016測(cè)試集上的OPE結(jié)果曲線Fig.7 OPE curves on VOT2016 test set

        圖8 VOT2018測(cè)試集上的OPE結(jié)果曲線Fig.8 OPE curves on VOT2018 dataset

        圖9 TC128測(cè)試集上的OPE結(jié)果曲線Fig.9 OPE curves on TC128 test set

        3.3 定性分析

        本文算法在離線訓(xùn)練階段聯(lián)合優(yōu)化分類網(wǎng)絡(luò)和邊框回歸網(wǎng)絡(luò),使得分類置信分?jǐn)?shù)最高的邊框?qū)?yīng)的邊框精度也是最高的。為了驗(yàn)證聯(lián)合優(yōu)化能夠提升最終算法的跟蹤性能,從OTB100 數(shù)據(jù)集中選取3 個(gè)具有各種跟蹤難點(diǎn)的視頻序列,展示本文算法與SiamRPN 算法的預(yù)測(cè)結(jié)果,每種算法選取分類分?jǐn)?shù)前三的預(yù)測(cè)邊框進(jìn)行展示。圖10~12中,IoU 表示預(yù)測(cè)邊框與真實(shí)邊框的交并比,其值越大表示邊框預(yù)測(cè)越準(zhǔn)確,實(shí)線矩形框表示分類分?jǐn)?shù)最大的預(yù)測(cè)框,虛線矩形框表示分類分?jǐn)?shù)次大的預(yù)測(cè)框,點(diǎn)線矩形框表示分類分?jǐn)?shù)第三大的預(yù)測(cè)框。

        圖10 是Boy 視頻序列截圖,圖中男子在走廊中邊跳邊變換肢體動(dòng)作,整個(gè)運(yùn)動(dòng)過(guò)程中這名男子的人體姿態(tài)變化較大。由圖可以看出,本文算法和SiamRPN 都可以較好地預(yù)測(cè)當(dāng)前目標(biāo)的邊框信息。SiamRPN 預(yù)測(cè)結(jié)果中最高分類分?jǐn)?shù)和最佳IoU 不是同一個(gè)位置上的預(yù)測(cè)邊框,在第244幀圖像上最高分類分?jǐn)?shù)指向?qū)嵕€矩形框,而最佳IoU 指向虛線矩形框;本文算法預(yù)測(cè)結(jié)果中最高分類分?jǐn)?shù)和最佳IoU 均指向?qū)嵕€矩形框,同時(shí)本文算法最佳IoU 值為0.78,比SiamRPN 的0.74 大。與SiamRPN 相比,本文算法不僅能夠保持分類任務(wù)與邊框回歸任務(wù)的一致性,對(duì)人體姿態(tài)變化也更加魯棒。

        圖10 Boy視頻序列上的結(jié)果Fig.10 Results on Boy video sequence

        圖11是Coke視頻序列上的實(shí)驗(yàn)結(jié)果,圖中人手持可樂(lè)罐在臺(tái)燈下和綠植中來(lái)回穿梭,在第6 幀和第253 幀時(shí)發(fā)生遮擋,其中第253幀的遮擋情況更嚴(yán)重。由圖11可以看出,本文算法和SiamRPN 估計(jì)的目標(biāo)中心與真實(shí)的目標(biāo)中心均有較大的誤差,但在發(fā)生大面積遮擋情況時(shí),SiamRPN 只能在可見(jiàn)的區(qū)域預(yù)測(cè)出可樂(lè)罐的邊框信息,而本文算法會(huì)根據(jù)可樂(lè)罐的部分邊緣信息預(yù)測(cè)出整體的邊框信息。與SiamRPN 相比,本文算法在第253 幀時(shí)最大分類分?jǐn)?shù)對(duì)應(yīng)著實(shí)線矩形框,預(yù)測(cè)出可樂(lè)罐的整體邊框,更加準(zhǔn)確,而SiamRPN 對(duì)應(yīng)虛線矩形框,同時(shí)IoU 值為0.59,也比SiamRPN 的0.44 大。因此,當(dāng)目標(biāo)被部分遮擋時(shí),本文算法因聯(lián)合優(yōu)化可以保證最大分類分?jǐn)?shù)和最佳IoU 邊框的同一性,同時(shí)也能提升算法對(duì)目標(biāo)被遮擋時(shí)的魯棒性。

        圖12 為SUV(Sport Utility Vehicle)視頻序列上截圖,圖中有一輛SUV 在復(fù)雜環(huán)境下行駛,在第47幀時(shí)SUV 部分車(chē)身在視線之外和第774幀時(shí)SUV 部分車(chē)身被遮擋。當(dāng)SUV 部分車(chē)身不可見(jiàn)時(shí),本文算法和SiamRPN 均只能在可見(jiàn)區(qū)域預(yù)測(cè)出SUV 的邊框信息。對(duì)于第774 幀中SUV 被遮擋這一情況,SianRPN 預(yù)測(cè)的虛線和實(shí)線矩形框的IoU 值差不多,但是該算法對(duì)于較小IoU 值邊框的預(yù)測(cè)分類分?jǐn)?shù)為0.99,最佳邊框?qū)?yīng)的分類分?jǐn)?shù)為0.96,導(dǎo)致分類結(jié)果與邊框回歸結(jié)果不一致。本文算法預(yù)測(cè)最大分類分?jǐn)?shù)和最佳邊框IoU 都為實(shí)線矩形框,預(yù)測(cè)分?jǐn)?shù)為0.99,最大IoU 為0.74,優(yōu)于SiamRPN 的0.71。目標(biāo)部分區(qū)域出視線或者被遮擋會(huì)造成目標(biāo)的不完整性,影響提取的特征,本文算法仍可以輸出具有強(qiáng)聯(lián)系的分類分?jǐn)?shù)和邊框,使得最大分類分?jǐn)?shù)和最佳邊框指向同一預(yù)測(cè)區(qū)域。

        圖11 Coke視頻序列上的結(jié)果Fig.11 Results on Coke video sequence

        圖12 SUV視頻序列上的結(jié)果Fig.12 Results on SUV video sequence

        4 結(jié)語(yǔ)

        本文對(duì)SiamRPN 算法的分類任務(wù)和邊框回歸任務(wù)進(jìn)行深入分析,在此基礎(chǔ)上提出聯(lián)合優(yōu)化的方法,對(duì)分類網(wǎng)絡(luò)和邊框回歸網(wǎng)絡(luò)進(jìn)行聯(lián)合優(yōu)化。本文提出的聯(lián)合優(yōu)化方法能在不損失在線跟蹤速度的情況下,提升算法的邊框預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明,本文算法的性能達(dá)到或優(yōu)于其他對(duì)比算法。由于基于孿生網(wǎng)絡(luò)跟蹤算法僅使用初始幀目標(biāo)特征,無(wú)法及時(shí)捕捉目標(biāo)的外觀變化,在后續(xù)的研究工作中,會(huì)考慮結(jié)合在線更新策略,進(jìn)一步提升算法的跟蹤性能。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        久久精品国产亚洲av果冻传媒| 亚洲av免费高清不卡| 国产诱惑人的视频在线观看| 日本精品一区二区高清| 国产精品国产三级国av在线观看| 国产成人午夜精品免费视频| 亚洲一区二区三区免费av在线 | 亚洲夜夜骑| 毛片av中文字幕一区二区| 亚洲中文字幕日韩综合| 久久久久久久综合综合狠狠 | 中文字幕一区二区三区在线看一区| 美女主播网红视频福利一区二区 | 131美女爱做视频| 国产成人久久精品亚洲小说| 亚洲一区二区三区免费的视频| 亚洲国产精品日本无码网站 | 人妻av无码一区二区三区| 69精品丰满人妻无码视频a片| 无码伊人久久大杳蕉中文无码| 中文资源在线一区二区三区av| 国内精品久久久久伊人av| 久久免费看少妇高潮v片特黄| 亚洲欧美日韩一区在线观看| 精品乱色一区二区中文字幕| 中文字幕一区日韩精品| 麻豆精品久久久久久久99蜜桃| 一本大道久久精品一本大道久久| 亚洲97成人在线视频| 国产真实乱对白精彩久久老熟妇女| 国产亚洲欧美在线| 中文字幕人妻乱码在线| 色综合天天综合欧美综合| 高中生粉嫩无套第一次| 国产精品久久无码免费看 | 高清不卡日本v二区在线| 国产午夜毛片v一区二区三区| 91精品国产综合成人| 男女午夜视频一区二区三区| 在线麻豆精东9制片厂av影现网| 欧洲成人午夜精品无码区久久 |