李 功 趙 巍 劉 鵬 唐降龍
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域里的基礎(chǔ)任務(wù)之一.隨著深度學(xué)習(xí)在各個(gè)領(lǐng)域里日益成熟的廣泛應(yīng)用,基于深度網(wǎng)絡(luò)的目標(biāo)跟蹤方法[1]取得了顯著的提升和進(jìn)步.與目標(biāo)檢測(cè)方法[2]類(lèi)似,邊界框預(yù)測(cè)模塊在目標(biāo)跟蹤方法里也是至關(guān)重要的一環(huán),它的性能直接影響目標(biāo)跟蹤模型準(zhǔn)確性.交并比(Intersection over union,IoU)是衡量跟蹤準(zhǔn)確性的重要評(píng)估指標(biāo),定義為用來(lái)衡量預(yù)測(cè)的邊界框與真值框B的相近程度.對(duì)于兩個(gè)不同的跟蹤器,即便跟蹤器的分類(lèi)模塊都能夠定位到目標(biāo)所在位置,但邊界框預(yù)測(cè)模塊的性能不同仍可能導(dǎo)致預(yù)測(cè)結(jié)果的IoU 相差甚遠(yuǎn),所以訓(xùn)練邊界框回歸準(zhǔn)確甚為重要.從時(shí)間發(fā)展的順序上看,邊界框回歸方法可分為2 類(lèi): 第1 類(lèi)是基于?n-norm 損失的回歸,可表示為其中常用的兩種損失?1-norm 和?2-norm 都有缺陷,前者難以收斂到更高的精度,而后者在訓(xùn)練初始時(shí)不穩(wěn)定.雖然Girshick[3]提出的?1-smooth 損失,可以較好地解決上述兩個(gè)問(wèn)題,但是基于?n-norm 的回歸損失更備受詬病的是邊界框各個(gè)參數(shù)在優(yōu)化過(guò)程中相互獨(dú)立,缺乏對(duì)IoU 的考慮.第2類(lèi)損失函數(shù)是基于IoU 損失的回歸.IoU 損失[4]衍生自IoU 指標(biāo),避免預(yù)測(cè)框的參數(shù)在回歸過(guò)程中互不關(guān)聯(lián).然而IoU損失LIoU有兩個(gè)固有缺陷: 一個(gè)是當(dāng)預(yù)測(cè)框與真值框不相交時(shí)LIoU為常量 1,其梯度無(wú)法下降,從而邊界框回歸分支的參數(shù)得不到更新;另一個(gè)是在IoU 取得最優(yōu)值時(shí)LIoU的梯度不存在,邊界框難以收斂到IoU 最優(yōu)處.其實(shí)LIoU的固有缺陷繼承自IoU 指標(biāo).雖然隨后的GIoU (Generalized IoU) 損失[5]、DIoU (Distance-IoU)損失[6]、CIoU (Complete-IoU)損失[6]和EIoU (Efficient-IoU)損失[7]等對(duì)預(yù)測(cè)框的中心或尺寸提出了不同的懲罰項(xiàng)來(lái)增加LIoU在邊界框不交疊時(shí)的梯度,但是附加的懲罰項(xiàng)并不能改善LIoU在最優(yōu)值處的梯度不存在的問(wèn)題.
上述基于IoU 的損失方法[4-7]已經(jīng)暗示在回歸過(guò)程中不應(yīng)該忽視邊界框參數(shù)之間的關(guān)系.但是都沒(méi)有明確究竟是何種關(guān)系.邊界框通常由4 個(gè)參數(shù)確定,但在不同的研究中參數(shù)的含義有所不同,可以由邊界框的中心和尺寸表示為B(x,y,w,h)[3,8-10],或者是由左上角點(diǎn)和右下角點(diǎn)表示為B(xmin,ymin,xmax,ymax)[11-12],又或是由給定的一點(diǎn)到四邊的距離表示為B(xt,xb,xl,xr)[4,13-14].其實(shí)上述表示都是等價(jià)的,可以相互轉(zhuǎn)化.為方便下文描述,本文統(tǒng)一以B(x,y;w,h) 形式表示邊界框.不妨將預(yù)測(cè)框B~(x,y;w,h)的4 個(gè)參數(shù)劃分為2 組,一組是中心位置 (x,y),另一組是尺寸 (w,h).顯然,對(duì)中心位置來(lái)說(shuō),追求預(yù)測(cè)框中心與真值框中心重合總是最優(yōu)的,即便有時(shí)預(yù)測(cè)框中心在某個(gè)鄰域內(nèi)波動(dòng)不會(huì)使IoU 下降.一個(gè)顯而易見(jiàn)的事實(shí)是,不存在中心偏離可以使IoU 上升的情況.但對(duì)尺寸來(lái)說(shuō)并非如此,當(dāng)預(yù)測(cè)框中心發(fā)生偏離時(shí),追求預(yù)測(cè)框的尺寸與真值框的尺寸相同卻不是最優(yōu)的.
本文明確給出在回歸過(guò)程中邊界框若取得IoU 最優(yōu)其參數(shù)之間應(yīng)服從的定量關(guān)系.概括地說(shuō),中心 (x,y) 在回歸過(guò)程不需要顧及此時(shí)尺寸(w,h)處于何種情況,而尺寸 (w,h) 在回歸過(guò)程中需要考慮到中心 (x,y) 所在何處,最優(yōu)尺寸(w*,h*)=arg minw,hIoU(B~;B)=f(x,y) 與 中 心 (x,y) 存在 明確的函數(shù)關(guān)系.本文從一個(gè)新的角度看待邊界框回歸問(wèn)題,將邊界框與二元統(tǒng)計(jì)分布作一一映射,從優(yōu)化兩個(gè)統(tǒng)計(jì)分布之間散度的角度研究邊界框回歸.散度量化了兩個(gè)不同分布之間的差異,這種散度自然蘊(yùn)含預(yù)測(cè)框各參數(shù)之間的關(guān)系,可以避免人為設(shè)計(jì)額外的懲罰項(xiàng)對(duì)預(yù)測(cè)框尺寸或形狀做出限制.本文從優(yōu)化兩個(gè)分布之間散度的角度提出了一種光滑IoU (Smooth-IoU,SIoU)損失,該損失函數(shù)在全局上光滑,對(duì)于不同的研究對(duì)象,光滑的含義也有所區(qū)別.在本文中稱(chēng)在開(kāi)集X∈Rn上的函數(shù)f:X →R 是光滑的,如果f是C1類(lèi)的,C1類(lèi)的函數(shù)必然是可微的.在本文的定義下,光滑性也可以稱(chēng)作連續(xù)可微性,且極值唯一.光滑性確保了在全局上梯度存在使得邊界框更容易回歸到極值處,而極值唯一確保了在全局上可梯度下降更新參數(shù),從而克服了IoU 損失的固有缺陷.提出的光滑IoU 損失自然蘊(yùn)含邊界框各參數(shù)之間特定的最優(yōu)關(guān)系,其唯一取極值的邊界框可使IoU 達(dá)到最優(yōu).而且提出的光滑IoU 損失具有比IoU 損失更快的回歸性能.另外,提出的光滑IoU 損失可以很容易集成到具有邊界框回歸分支的視覺(jué)跟蹤方法中.為了評(píng)估提出的光滑IoU 損失,本文將其集成到跟蹤深度網(wǎng)絡(luò)模型SiamFC++等中,并在主要的基準(zhǔn)LaSOT、GOT10-k、TrackingNet、OTB2015 和VOT2018中進(jìn)行了評(píng)估.本文主要貢獻(xiàn)為:
1)明確給出在回歸過(guò)程中最優(yōu)邊界框各參數(shù)之間滿(mǎn)足的定量關(guān)系.
2)從優(yōu)化散度的角度提出光滑IoU 損失,該損失函數(shù)自然蘊(yùn)含邊界框各參數(shù)之間特定的最優(yōu)關(guān)系,在全局上連續(xù)可微,且唯一極值可使IoU 最優(yōu).提出的損失函數(shù)避免了IoU 損失的固有缺陷.
3)提出的光滑IoU 損失可以容易集成到先進(jìn)跟蹤網(wǎng)絡(luò)方法,在主流的測(cè)試基準(zhǔn)LaSOT、GOT-10k 和TrackingNet 等上取得顯著的提升.
自Fast-RCNN[3]提出以來(lái),?1-smooth 損失[3]就被廣泛地應(yīng)用在目標(biāo)檢測(cè)或跟蹤任務(wù)中訓(xùn)練目標(biāo)邊界框的回歸[8-10,12].?1-smooth 損失結(jié)合了?1-norm 和?2-norm 中互補(bǔ)的良好性質(zhì).然而,對(duì)于相同的?1或?2誤差(只要不為0),可以回歸出多種大小及形狀不同的邊界框,而這些預(yù)測(cè)的邊界框所對(duì)應(yīng)的與真值框的IoU 卻不盡相同,方差較大,有較強(qiáng)的隨機(jī)性,不能準(zhǔn)確地反映IoU 指標(biāo).Rezatofighi 等[5]展示了一些?1-norm 和?2-norm 相同但I(xiàn)oU 指標(biāo)不同的示例.為此,Yu 等[4]將IoU 指標(biāo)演化為IoU 損失LIoU,通過(guò)直接優(yōu)化IoU 的方式邊界框各參數(shù)可以作為一個(gè)整體進(jìn)行回歸.Rezatofighi 等[5]提出了一種廣義的IoU 指標(biāo) GIoU 及其演化的損失函數(shù)LGIoU,以代替IoU 用于評(píng)估和訓(xùn)練邊界框回歸,GIoU 損失糾正了IoU 損失在預(yù)測(cè)框與真值框不相交時(shí)梯度無(wú)法下降的弊端.Zheng 等[6]提出了DIoU 損失函數(shù)LDIoU,在IoU 損失的基礎(chǔ)上附加了一種關(guān)于預(yù)測(cè)框中心與真值框中心的歸一化距離的懲罰項(xiàng)RD,相較于IoU 損失和GIoU 損失加快了收斂速度.同時(shí),Zheng 等[6]在DIoU 的基礎(chǔ)上發(fā)展出了CIoU 損失函數(shù)LCIoU,該損失函數(shù)綜合考慮了3 種幾何屬性,分別是IoU、中心點(diǎn)距離和寬高比率,使得收斂速度進(jìn)一步加快.與CIoU 類(lèi)似,Zhang 等[7]提出了另一種高效的IoU 損失函數(shù)EIoU 損失LEIoU,該損失函數(shù)同樣有3 種幾何因素的度量,分別是IoU、中心點(diǎn)的距離以及邊長(zhǎng)差異.基于IoU 損失可被統(tǒng)一地表示為其中B)為各自不同的懲罰項(xiàng).本文提出的光滑IoU 損失直接從散度方面構(gòu)造全局光滑且極值唯一的損失函數(shù),沒(méi)有以LIoU作為基本損失,從而避免了LIoU帶來(lái)的缺陷.
上述相關(guān)的邊界框回歸損失方法均假定邊界框參數(shù)為確定變量而直接回歸邊界框,除了這種處理方式外,另一種處理方式是將描述邊界框的關(guān)鍵點(diǎn)視為隨機(jī)變量.關(guān)鍵點(diǎn)可以是角點(diǎn)或中心點(diǎn)等,通過(guò)預(yù)測(cè)關(guān)鍵點(diǎn)的熱力圖推斷關(guān)鍵點(diǎn)最可能的位置.熱力圖可視為關(guān)鍵點(diǎn)服從某種統(tǒng)計(jì)分布的假設(shè),對(duì)熱力圖的分布則通常采用Focal loss[15]訓(xùn)練.Gidaris 等[13]在提出的LocNet 中,預(yù)測(cè)邊界框的4個(gè)邊框所在位置的置信度,從而置信度最高的位置被推定為存在邊框.Law 等[12]在提出的 Corner-Net 中設(shè)計(jì)了一種角點(diǎn)池化操作生成邊界框的左上角和右下角點(diǎn)的熱力圖,并提出改進(jìn)的Focal loss用于訓(xùn)練,而對(duì)于角點(diǎn)精度的偏置則采用?1-smooth損失進(jìn)行回歸.然而,如果僅僅依靠預(yù)測(cè)左上角和右下角來(lái)確定邊界框,則容易導(dǎo)致錯(cuò)誤匹配而誤檢.Zhou 等[14]在提出的CenterNet 中定義了一種適配的Focal loss 用于訓(xùn)練邊界框中心的熱力圖以減少錯(cuò)誤匹配,而對(duì)于中心點(diǎn)精度的偏置以及邊界框尺寸則采用?1-norm 損失進(jìn)行回歸.另外,文獻(xiàn)[11]提出的方法則假設(shè)預(yù)測(cè)框的角點(diǎn)位置服從參數(shù)待學(xué)習(xí)的正態(tài)分布,并假設(shè)真值框的角點(diǎn)位置服從狄拉克δ分布.通過(guò)以狄拉克δ分布為目標(biāo)優(yōu)化正態(tài)分布實(shí)現(xiàn)邊界框回歸.然而,在上述文獻(xiàn)[11-14]里用來(lái)描述邊界框的關(guān)鍵點(diǎn)是獨(dú)立優(yōu)化的,沒(méi)有考慮關(guān)鍵點(diǎn)與IoU 的關(guān)系,其缺點(diǎn)與?n-norm 在某種程度上類(lèi)似,都依賴(lài)于各關(guān)鍵點(diǎn)是否被預(yù)測(cè)得非常準(zhǔn)確;而且對(duì)熱力圖的訓(xùn)練增加了網(wǎng)絡(luò)參數(shù)的數(shù)量和網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性.
本文提出的光滑IoU 損失將表示邊界框的 4個(gè)參數(shù)視為一個(gè)整體進(jìn)行回歸,在回歸過(guò)程中能夠照顧到IoU 信息而產(chǎn)生IoU 友好的結(jié)果,而且本文提出的光滑IoU 損失本質(zhì)上是在最小化兩個(gè)統(tǒng)計(jì)分布之間的散度,在不增加網(wǎng)絡(luò)復(fù)雜度的同時(shí)隱含地表達(dá)了將邊界框關(guān)鍵點(diǎn)視為服從某種分布的隨機(jī)變量這一處理方式.
GOTURN[16]是第一個(gè)基于邊界框回歸的深度網(wǎng)絡(luò)跟蹤方法,直接回歸當(dāng)前幀的目標(biāo)框相對(duì)前一幀目標(biāo)框的偏移.隨后的SiamRPN[8]和增強(qiáng)版的DaSiamRPN[10]結(jié)合了SiamFC[17]的孿生網(wǎng)絡(luò)和Fast R-CNN[3]的區(qū)域候選網(wǎng)絡(luò)(Region proposal network,RPN),估計(jì)邊界框相對(duì)各個(gè)陽(yáng)性錨框的偏移量,并從中選出分類(lèi)置信度最高的作為預(yù)測(cè)框.然而Jiang 等[18]論證了分類(lèi)置信度最高的邊界框并不一定是與真值框吻合最優(yōu)的.因此,SPM-Tracker[19]擴(kuò)展了SiamRPN 方法,提出了精細(xì)匹配階段,旨在從粗略匹配階段選出分?jǐn)?shù)最高的k個(gè)候選框提煉最終預(yù)測(cè)框.而SiamRPN++[9]則在分類(lèi)置信度分支和邊界框回歸分支里提出了逐通道的互相關(guān)層,并通過(guò)多層級(jí)聯(lián)的方式提高了分類(lèi)置信度和回歸精度的正相關(guān)性.上述基于錨框的深度網(wǎng)絡(luò)方法通常采用?1-smooth 損失訓(xùn)練邊界框回歸分支.
盡管基于錨框的跟蹤方法仍有進(jìn)一步優(yōu)化網(wǎng)絡(luò)和提升性能的空間,但基于無(wú)錨框的跟蹤方法則受到越來(lái)越多的青睞.現(xiàn)有的研究工作和實(shí)驗(yàn)已經(jīng)表明一些基于無(wú)錨框的深度網(wǎng)絡(luò)方法比基于錨框的網(wǎng)絡(luò)方法更準(zhǔn)確,同時(shí)網(wǎng)絡(luò)參數(shù)的精簡(jiǎn)使得跟蹤器在訓(xùn)練和跟蹤時(shí)更高效.SiamFC++[20]建議目標(biāo)跟蹤模型的訓(xùn)練不應(yīng)該介入尺度或長(zhǎng)寬比率等先驗(yàn)分布的信息例如錨框,其原因是定位和尺度等粗糙的錨框帶來(lái)的誤差可能拖累跟蹤器的性能.SiamFC++摒棄了預(yù)設(shè)的錨框,并將預(yù)測(cè)的目標(biāo)從陽(yáng)性錨框的偏移量轉(zhuǎn)化為更精細(xì)的每個(gè)陽(yáng)性位置到 4 條邊線(xiàn)的距離.隨后的基于無(wú)錨框的方法如 SiamBAN[21]、SiamCAR[22]、Ocean[23]和無(wú)錨框全卷積孿生跟蹤器(Anchor-free fully convolutional siamese tracke,AFST)[24]等也采用類(lèi)似的預(yù)測(cè)每個(gè)正樣本位置到四邊距離作為網(wǎng)絡(luò)輸出的方法.值得一提的是,SiamBAN[21]、SiamCAR[22]、Ocean[23]和AFST[24]均采用IoU 損失訓(xùn)練邊界框的回歸.
本文將提出的光滑IoU 損失,應(yīng)用到具有代表性的無(wú)錨框深度跟蹤器 SiamFC++[20]、SiamBAN[21]和SiamCAR[22],通過(guò)替換其原有的IoU 損失,作為對(duì)比以評(píng)估光滑IoU 損失的性能.
為方便描述,先定義一些必要的表示記號(hào).Bg(xg,yg;wg,hg) 代表真值框,Bp(xp,yp;wp,hp) 代表預(yù)測(cè)框,(xΔ,yΔ):=(xp-xg,yp-yg) 代表預(yù)測(cè)框的中心位置相對(duì)于真值框中心的偏差.
圖1 給出了深度目標(biāo)跟蹤模型的基本框架,本文不妨忽略與研究?jī)?nèi)容無(wú)關(guān)的分類(lèi)或中心度分支ψcls的網(wǎng)絡(luò)結(jié)果,僅關(guān)注由孿生骨干網(wǎng)絡(luò)φ提取的特征圖經(jīng)過(guò)邊界框回歸分支ψreg輸出每一幀預(yù)測(cè)的目標(biāo)邊界框.在訓(xùn)練深度目標(biāo)跟蹤模型的邊界框回歸分支時(shí),如果中心偏差 (xΔ,yΔ) 難以消除,預(yù)測(cè)框的尺寸 (wp,hp) 若以?2-norm 損失仍然向著真值框的尺寸 (wg,hg) 回歸則不是IoU 最優(yōu)的,而以IoU 損失回歸則在其最優(yōu)的預(yù)測(cè)框尺寸 (wp*,h*p) 上又是不可微的.所以一個(gè)自然的問(wèn)題是如何即時(shí)調(diào)整預(yù)測(cè)框尺寸 (wp,hp) 的回歸目標(biāo),使損失函數(shù)面向更高的 IoU 指標(biāo)光滑地回歸.
圖1 深度目標(biāo)跟蹤模型的邊界框回歸示意圖Fig.1 The schematic of bounding box regression in deep tracking model
為了解決上述問(wèn)題,本文從最小化統(tǒng)計(jì)分布之間散度的角度看待邊界框回歸問(wèn)題.首先本文將邊界框與二元正態(tài)分布建立一一對(duì)應(yīng)關(guān)系,如圖 2 所示.具體地,將預(yù)測(cè)框Bp(xp,yp;wp,hp) 的中心位置(xp,yp) 和尺寸 (wp,hp) 分別視為二元正態(tài)分布N(μp,Σp) 的均值μp=(xp,yp)T和邊緣分布的標(biāo)準(zhǔn)差,即Σp=這樣預(yù)測(cè)框Bp(xp,yp;wp,hp)與二元正態(tài)分布 N (μp, Σp) 建立了一一映射.類(lèi)似地,真值框Bg(xg,yg;wg,hg)映射為均值為μg=(xg,yg)T,協(xié)方差矩陣為的二元正態(tài)分布N(μg,Σg).
圖2 邊界框類(lèi)比為正態(tài)分布的示意圖Fig.2 The schematic of bounding box analogized as Gaussian distribution
需要闡明的是,與現(xiàn)有的相關(guān)工作[11-14]的區(qū)別在于,本文并不是假定邊界框的4 個(gè)參數(shù)本身為服從二元正態(tài)分布的隨機(jī)變量,而是將其一一映射為確定二元正態(tài)分布具體形式的參量,可以理解為邊界框蘊(yùn)含了一種圖像區(qū)域每個(gè)像素屬于目標(biāo)物體的置信分布,該置信分布應(yīng)該反映出越靠近邊界框中心位置的像素屬于目標(biāo)物體的置信度越高的特點(diǎn),從而隱含地表達(dá)了一種以邊界框中心位置為關(guān)鍵點(diǎn)的熱力圖.
由此,將邊界框的回歸問(wèn)題轉(zhuǎn)化為最小化二元正態(tài)分布之間差異問(wèn)題.以常見(jiàn)的KL (Kullback-Leibler)散度DKL(N(μg, Σg)||N(μp, Σp)) 量化二元正態(tài)分布 N (μp, Σp) 和 N (μg, Σg) 之間差異為例進(jìn)行分析,基于KL 散度的邊界框回歸損失函數(shù)為:
顯然,不同于IoU 損失,式(1)在邊界框全局上是可微的,而且式(1)表達(dá)了KL 散度與IoU 指標(biāo)呈某種非線(xiàn)性負(fù)相關(guān)關(guān)系.當(dāng)KL 散度越小,說(shuō)明2 個(gè)二元正態(tài)分布 N (μp, Σp) 和 N (μg, Σg) 越接近,則與之對(duì)應(yīng)的預(yù)測(cè)框Bp與真值框Bg就越接近,IoU(Bp;Bg)總體表現(xiàn)為上升趨勢(shì).當(dāng)且僅當(dāng)預(yù)測(cè)的邊界框與真值框完全重合時(shí),KL 散度減小到最小值 0,此時(shí)IoU 提高到最大值 1.此外,式(1)里預(yù)測(cè)框各參數(shù)不是獨(dú)立的回歸.預(yù)測(cè)框的最優(yōu)尺寸與其中心偏差 (xΔ,yΔ) 有關(guān).當(dāng)且僅當(dāng)中心偏差 (xΔ,yΔ)=(0, 0) 時(shí),其最優(yōu)預(yù)測(cè)框尺寸為真值框尺寸 (wg,hg); 否則,相較于?n-norm 損失,式(1)不再以 (wg,hg) 作為預(yù)測(cè)框尺寸的回歸目標(biāo),而是能夠調(diào)整預(yù)測(cè)框的最優(yōu)尺寸以獲得更高的IoU.但是式(1)還沒(méi)有使預(yù)測(cè)框尺寸達(dá)到IoU 最優(yōu).在第2.2 節(jié)里,將給出在式(1)的啟發(fā)下發(fā)現(xiàn)的一種可與IoU 協(xié)調(diào)的光滑損失函數(shù).
沿用Bp(wp,hp;xp,yp) 和Bg(wg,hg;xg,yg) 分別表示預(yù)測(cè)框和真值框,以及 (xΔ,yΔ) 表示預(yù)測(cè)框的中心偏差.在前文中指出中心偏差 (xΔ,yΔ) 的回歸是獨(dú)立的,不需要考慮預(yù)測(cè)框尺寸 (wp,hp) 的情況,而預(yù)測(cè)框尺寸 (wp,hp) 在回歸過(guò)程中需要考慮到中心偏差 (xΔ,yΔ) 的情況,因此本節(jié)主要探討在預(yù)測(cè)框尺寸 (wp,hp) 上的最優(yōu)關(guān)系以及光滑的損失函數(shù).首先構(gòu)造如下?lián)p失函數(shù):
本文定義一種描述預(yù)測(cè)框中心偏差程度的變量.
定義1.令 (xΔ,yΔ) 表示預(yù)測(cè)框中心偏差和(wg,hg)表示真值框尺寸.稱(chēng)dH(xΔ,yΔ;wg,hg):=為預(yù)測(cè)框中心相對(duì)真值框中心的調(diào)和歸一化偏差.
接下來(lái),闡述IoU 最優(yōu)的預(yù)測(cè)框尺寸與調(diào)和歸一化偏差dH有關(guān).首先討論式(2)構(gòu)造的光滑損失LSIoU在功能上等效于IoU 損失LIoU的情況.
圖3 給出了一個(gè)LIoU:=1-IoU 和式(2) 中LSIoU在滿(mǎn)足dH <2 條件下在相同點(diǎn)取最優(yōu)的可視化示例,示例中真值框尺寸為(wg,hg)=(10, 10)以及中心偏差為 (xΔ,yΔ)=(2, 2.5),水平坐標(biāo)面表示預(yù)測(cè)框尺寸.由圖3 可以看出,兩者均在預(yù)測(cè)框尺寸為處取得最小值.命題1 指出如果中心偏差滿(mǎn)足dH <2,則覆蓋真值框的最小邊界框即是IoU 最優(yōu)的.當(dāng)中心偏差為 (0, 0) 時(shí),最小覆蓋真值框的邊界框尺寸與真值框相同,此時(shí)LSIoU的優(yōu)化目標(biāo)退化為真值框本身,與其他邊界框回歸損失如?n-norm 或LIoU的目標(biāo)相容.
圖3 LIoU 和 LSIoU 在對(duì)數(shù)坐標(biāo)下的可視化圖像示例Fig.3 A visualized example of LSIoU and LIoU viewed in the logarithmic scale of horizontal axis
由命題1 可以推出,調(diào)和歸一化偏差dH滿(mǎn)足其他情況時(shí)IoU 最優(yōu)的預(yù)測(cè)框尺寸.
仿照命題1 的證明,可以證明命題2 和命題3,本文不再贅述.上述3 個(gè)命題揭示了在回歸過(guò)程中IoU 最優(yōu)的邊界框各參數(shù)之間蘊(yùn)含的定量關(guān)系.命題2 指出了LIoU最優(yōu)的預(yù)測(cè)框尺寸不唯一的情況.在邊界框中心處于特殊位置(即dH=2) 時(shí),LIoU增加了邊界框形狀或尺寸在回歸過(guò)程中的不確定性.LSIoU則不存在這個(gè)問(wèn)題,最優(yōu)化LSIoU所取得的真值框的最小覆蓋框是唯一的.
雖然命題3 指出了在預(yù)測(cè)框中心偏差滿(mǎn)足dH >2時(shí),仍以真值框的最小覆蓋框作為動(dòng)態(tài)回歸目標(biāo)不是IoU 最優(yōu)的,但是注意到最優(yōu)化LSIoU仍然可以取得一個(gè)良好的預(yù)測(cè)框.圖4 顯示了一個(gè)中心偏差落入dH >2 的示例,實(shí)線(xiàn)框代表以gc為中心的真值框,而其余虛線(xiàn)框代表以pc為中心的預(yù)測(cè)框.在中心距離d相同的情況下,圖4(a)所顯示的為依據(jù)IoU 指標(biāo)最優(yōu)的預(yù)測(cè)框,但是其GIoU 指標(biāo)相對(duì)較低.圖4(b)所顯示的為L(zhǎng)SIoU最優(yōu)的邊界框,雖然其IoU 指標(biāo)略微低于IoU 最優(yōu)的邊界框,但是其GIoU 指標(biāo)則顯著高于圖4(a).另外,值得注意的是,如果引入額外的先驗(yàn)知識(shí)(例如CIoU[6])將預(yù)測(cè)框限定為保持與真值框相同的寬高比,其不同尺度的邊界框如圖4(c)所示,可以看到其所能達(dá)到的IoU 上界低于LSIoU最優(yōu)的邊界框所取得的IoU指標(biāo).因此,即便遵循LSIoU最優(yōu)所得到的最小覆蓋真值的邊界框在IoU 意義下不是最優(yōu)的,但是綜合IoU 和GIoU 指標(biāo)來(lái)看,依然不失為一個(gè)很好的策略.
圖4 當(dāng) d H >2 時(shí)最優(yōu)化 LSIoU 和 LIoU 的邊界框示例Fig.4 Illustration of predicted box that minimizes LSIoU and LIoU if dH >2
概括地說(shuō),式(2)給出的損失函數(shù)LSIoU具有以下特性:
1)尺度不變性.與LIoU一樣,LSIoU仍然是回歸尺度不變的損失函數(shù).尺度不變是指在損失相同的情況下預(yù)測(cè)框與真值框之間的IoU 不會(huì)隨著邊界框尺度的變化而變化.相對(duì)于尺度變化的損失函數(shù)例如?n-norm 損失,尺度不變的損失函數(shù)可以減輕目標(biāo)尺寸的多樣性帶來(lái)的不利影響.
2)正定性.當(dāng)且僅當(dāng)預(yù)測(cè)框與真值框完全重合時(shí),即IoU 指標(biāo)達(dá)到最大值 1 時(shí),LSIoU=0 達(dá)到最小值.由此,LSIoU可以視為一種散度函數(shù)反映出預(yù)測(cè)框與真值框的相近程度,或者更準(zhǔn)確地說(shuō),LSIoU反映出以預(yù)測(cè)框代替真值框而產(chǎn)生的損失程度.
3)光滑性與極值唯一性.當(dāng)預(yù)測(cè)框與真值框不相交時(shí),有LIoU=1,此時(shí)?LIoU=0,無(wú)法通過(guò)梯度下降更新預(yù)測(cè)框參數(shù);并且LIoU取最優(yōu)時(shí)?LIoU不存在,導(dǎo)致回歸的結(jié)果不穩(wěn)定.而LSIoU在全局上偏導(dǎo)數(shù)存在且連續(xù),預(yù)測(cè)框參數(shù)可以通過(guò)梯度下降更新,且更容易回歸到極值處,當(dāng)且僅當(dāng)LSIoU取最優(yōu)時(shí),有?LSIoU=0,LSIoU達(dá)到極值.
為了使預(yù)測(cè)框的中心位置在回歸過(guò)程中盡可能滿(mǎn)足條件dH <2,提出一種針對(duì)LSIoU的正則項(xiàng):式中,α=2 arctan(wg/hg) 是由真值框尺寸所確定的參量,而β是需要滿(mǎn)足β>1 的參量.圖5 給出了一個(gè)由正方形真值框確定的正則項(xiàng)RS的圖像示例,陰影區(qū)域滿(mǎn)足dH <2,箭頭代表某一梯度軌跡.由于一般的?2正則項(xiàng)其等值線(xiàn)是同心圓,梯度總是指向 (0, 0),這樣中心偏差(xΔ,yΔ)位于平面內(nèi)任何方向上的機(jī)會(huì)都是均等的,并不適用于SIoU 損失的特點(diǎn).由圖 5 可以看出,不同于一般的?2正則項(xiàng),本文針對(duì)SIoU 損失設(shè)計(jì)的正則項(xiàng) [xΔ,yΔ]Sα,β[xΔ,yΔ]T,其關(guān)聯(lián)的非對(duì)角正定的二次型矩陣Sα,β使 [xΔ,yΔ]Sα,β[xΔ,yΔ]T的等值線(xiàn)為橢圓形并且長(zhǎng)軸恰位于直線(xiàn)dH=0.所以正則項(xiàng) [xΔ,yΔ]Sα,β[xΔ,yΔ]T在等值線(xiàn)上的梯度指向是不同的,具有方向偏好.如果以梯度下降法更新 (xΔ,yΔ),則 (xΔ,yΔ) 的軌跡可以向著dH <2區(qū)域靠攏如圖 5 所示,增大落入到區(qū)域dH <2 的機(jī)會(huì),同時(shí)也可以增加LSIoU的凸性.注意到正則項(xiàng)[xΔ,yΔ]Sα,β[xΔ,yΔ]T是一個(gè)僅和中心偏差(xΔ,yΔ)有關(guān)的函數(shù),而與預(yù)測(cè)框尺寸 (wp,hp) 無(wú)關(guān),所以正則項(xiàng)的加入并不會(huì)使LSIoU違反最佳尺寸與中心偏差的關(guān)系.
圖5 正則項(xiàng) R S 的圖像示例Fig.5 Illustration of regularization RS
加入中心偏差的正則項(xiàng)后,提出的光滑IoU 損失函數(shù)LSIoU可如下表示為:
式中,γ為正則項(xiàng)的系數(shù).
注意到LSIoU里含有關(guān)于中心偏差的?1函數(shù)|xΔ|和 |yΔ|,其在 0 處也是不可微的.針對(duì)這個(gè)問(wèn)題,本文不妨構(gòu)造一個(gè)近似函數(shù)以替換|xΔ| 和 |yΔ|.考慮到對(duì)于任意xΔ∈R,當(dāng)λ→∞有下式成立:
式中,代表一致收斂.易知Aλ(xΔ) 是光滑的,圖6給出了取不同λ值的光滑代理函數(shù)Aλ(xΔ) 的圖像.這樣Aλ(xΔ) 可以用來(lái)作為|xΔ| 的光滑代理.|xΔ|和 |yΔ| 在回歸過(guò)程中可以分別用Aλ(xΔ) 和Aλ(yΔ)代替以保證LSIoU對(duì)邊界框中心位置參數(shù)是光滑的.
圖6 不同參數(shù) λ 下 | x| 的光滑代理函數(shù)Aλ(x)Fig.6 Plot of smooth surrogate function A λ(x) for |x|with different λ controlling its shape
在應(yīng)用光滑IoU 損失訓(xùn)練邊界框回歸時(shí)需要注意其中兩點(diǎn): 1)容易驗(yàn)證當(dāng) (wp,hp) 趨 于(0, 0)時(shí),LSIoU損失則趨于無(wú)窮,這樣在訓(xùn)練初期可能因?yàn)轭A(yù)測(cè)的尺寸過(guò)小而出現(xiàn)梯度爆炸的情況.為了避免訓(xùn)練過(guò)程中的梯度爆炸,對(duì)LSIoU作了梯度截?cái)嗵幚?通過(guò)取:
與LSIoU最小的操作:
使預(yù)測(cè)框尺寸在wp ≤wg/2,hp ≤hg/2 時(shí)梯度不變,限制到可控范圍內(nèi),同時(shí)不影響LSIoU的可微性.圖7 給出了以圖3 中的示例通過(guò)梯度截?cái)嗪蟮腖SIoU損失圖像.2) 為了避免光滑代理函數(shù)Aλ中的指數(shù)函數(shù)可能引發(fā)機(jī)器浮點(diǎn)數(shù)溢出,不妨設(shè)置一個(gè)區(qū)間半徑rλ >0,當(dāng)-rλ ≤x≤rλ,取Aλ(x),否則取|x|.選取適當(dāng)?shù)膮^(qū)間半徑rλ可以在機(jī)器所能表示的精度范圍內(nèi)保持連續(xù)性.應(yīng)用光滑IoU 損失訓(xùn)練邊界框回歸如算法1 所示.光滑IoU 損失可以很容易代替IoU 損失函數(shù)應(yīng)用在深度目標(biāo)跟蹤網(wǎng)絡(luò)中訓(xùn)練邊界框的回歸.在下一節(jié)里將組織相關(guān)實(shí)驗(yàn)以驗(yàn)證提出的光滑IoU 損失的有效性.
圖7 梯度截?cái)嗪蟮?LSIoU 可視化示例Fig.7 A visualized example of LSIoU with truncated gradient
算法 1.應(yīng)用光滑IoU 損失的邊界框回歸
本節(jié)將提出的光滑IoU 損失合并到具有代表性的基于錨點(diǎn)無(wú)關(guān)的目標(biāo)跟蹤模型SiamFC++[20]、SiamBAN[21]和SiamCAR[22]中來(lái)評(píng)估其有效性.其原本的IoU 損失LIoU訓(xùn)練的結(jié)果作為基線(xiàn),用LSIoU替換原本的LIoU訓(xùn)練作為對(duì)比.實(shí)驗(yàn)中選擇GoogleNet[25]作為SiamFC++[20]的孿生骨干網(wǎng)絡(luò)結(jié)果.而SiamBAN[21]和 SiamCAR[22]則采用ResNet-50[26]的后三個(gè)殘差塊級(jí)聯(lián)的方式提取特征,并遵循SiamFC++、SiamBAN 和SiamCAR 的訓(xùn)練過(guò)程,采用論文里報(bào)告的默認(rèn)參數(shù)和每個(gè)基準(zhǔn)上的迭代次數(shù).實(shí)驗(yàn)中λ設(shè)為 2,rλ設(shè)為20.正則項(xiàng)系數(shù)設(shè)置為采用ILSVRC-VID/DET[27]、COCO[28]、YoutubeBB[29]、LaSOT[30],TrackingNet[31]和GOT-10k[32]作為基礎(chǔ)訓(xùn)練集.然后在主流的目標(biāo)跟蹤測(cè)評(píng)基準(zhǔn)平臺(tái)LaSOT[30]、TrackingNet[31]、GOT-10k[32]、OTB2015[33]和VOT2018[34]上,對(duì)提出的邊界框回歸損失模型進(jìn)行評(píng)估對(duì)比.另外,僅從跟蹤結(jié)果上很難討論邊界框回歸的過(guò)程是如何進(jìn)行.因此本節(jié)設(shè)置了一組采樣分析實(shí)驗(yàn),采樣的數(shù)據(jù)綜合考慮了距離、尺度以及寬高比等邊界框之間的關(guān)系,涵蓋多種回歸情況,研究光滑IoU 損失相比當(dāng)前基于IoU 的損失的優(yōu)越性.實(shí)驗(yàn)環(huán)境配備了128 GB 內(nèi)存,Intel Xeon E5-2650 2.3 GHz CPU處理器,Nvidia GTX 1080Ti GPU 顯卡,采用深度學(xué)習(xí)框架PyTorch 實(shí)現(xiàn).
圖8 從兩種分布中采樣近距離和遠(yuǎn)距離的初始預(yù)測(cè)框位置Fig.8 Sample the initial predicted boxes subject to normal distribution with short and long mean-variance
圖9 各種邊界框回歸損失比較Fig.9 Comparison among the convergence performance of different bounding box regression losses
圖10 不同迭代次數(shù)的 LGIoU、LCIoU 和 LSIoU 的回歸示例Fig.10 Illustration of predicted boxes via LGIoU,LCIoU and LSIoU regressing in different iterations
本節(jié)通過(guò)5 個(gè)主流的基準(zhǔn)測(cè)試來(lái)評(píng)估提出的光滑IoU 損失函數(shù),用于目標(biāo)邊界框回歸的性能.
3.2.1 LaSOT
LaSOT[30]是一個(gè)高質(zhì)量的大規(guī)模單目標(biāo)跟蹤基準(zhǔn),數(shù)據(jù)集包含1 400 個(gè)視頻,涵蓋了視覺(jué)跟蹤里14 種典型的挑戰(zhàn),例如遮擋、運(yùn)動(dòng)模糊、尺度變化等,劃分為70 個(gè)常見(jiàn)類(lèi)別,每個(gè)類(lèi)別提供20 個(gè)視頻,平均視頻長(zhǎng)度超過(guò)2 500 幀,總共超過(guò)352 萬(wàn)個(gè)人工標(biāo)注的幀.LaSOT 基準(zhǔn)的協(xié)議將其中1 120個(gè)視頻作為訓(xùn)練集,280 個(gè)視頻作為測(cè)試集,每個(gè)類(lèi)別包含相同數(shù)量的視頻.大規(guī)模的訓(xùn)練集使得跟蹤器不容易出現(xiàn)過(guò)擬合,從而達(dá)到了測(cè)試跟蹤器真實(shí)性能的目的.遵照LaSOT 基準(zhǔn)的協(xié)議,跟蹤器需在LaSOT 訓(xùn)練集上訓(xùn)練,并在LaSOT 測(cè)試子集上評(píng)估,常用的評(píng)估指標(biāo)為一次性通過(guò)(One-pass evaluation,OPE)的標(biāo)準(zhǔn)化精確率圖、精確率圖和成功率圖,其中精確率圖刻畫(huà)了預(yù)測(cè)邊界框與標(biāo)定邊界框的中心位置的像素距離在閾值范圍內(nèi)的圖像幀數(shù)所占的比率關(guān)系,精確率以中心位置誤差小于20 像素的比率對(duì)跟蹤器進(jìn)行排名;成功率圖刻畫(huà)了預(yù)測(cè)的邊界框與標(biāo)定的邊界框的重疊率(即IoU)超過(guò)閾值的圖像幀數(shù)所占的比率關(guān)系,然后依據(jù)曲線(xiàn)下方區(qū)域面積對(duì)跟蹤器進(jìn)行排名.而標(biāo)準(zhǔn)化精確率引自TrackingNet[31],是為了消除精確率對(duì)圖像√分辨率和邊界框尺寸過(guò)于敏感,可表示為Pnorm=表1 給出了SiamFC++模型以LSIoU作為邊界框回歸損失訓(xùn)練在LaSOT上得到的測(cè)試結(jié)果.可以看出,LSIoU相對(duì)于原有的LIoU提高了SiamFC++模型性能的成功率、精確率、標(biāo)準(zhǔn)化精確率,分別相對(duì)提高 3.60%、5.05 % 和3.24 %.從LaSOT 數(shù)據(jù)集中選擇了5 個(gè)代表不同類(lèi)型的視頻,從中抽取部分幀來(lái)顯示跟蹤的效果,如圖 11 所示.圖中虛線(xiàn)框標(biāo)出了以LSIoU訓(xùn)練的測(cè)試結(jié)果,點(diǎn)線(xiàn)框標(biāo)出了原始的以LIoU訓(xùn)練的測(cè)試結(jié)果,實(shí)線(xiàn)框?yàn)檎嬷悼?可以看出,LSIoU比LIoU得到的預(yù)測(cè)框更靠近真值框.為了驗(yàn)證本文光滑IoU 損失在其他深度目標(biāo)跟蹤器上也具有良好的魯棒性和適用性,表 2 和表 3 分別報(bào)告了對(duì)SiamBAN[21]和SiamCAR[22]模型采用LSIoU替換原有的IoU 損失訓(xùn)練的實(shí)驗(yàn)對(duì)比結(jié)果.鑒于不同模型其網(wǎng)絡(luò)結(jié)構(gòu)的不同,雖然未能超過(guò)SiamFC++的表現(xiàn),但LSIoU相對(duì)于原有的LIoU提高了SiamBAN 和SiamCAR 模型的性能,其中提升最顯著的成功率分別相對(duì)提高5.64%和5.04%.
圖11 在LaSOT 測(cè)試集上,分別以 LIoU (點(diǎn)線(xiàn)框標(biāo)出)和LSIoU(虛線(xiàn)框標(biāo)出)訓(xùn)練的模型 SiamFC++的可視化結(jié)果示例 (實(shí)線(xiàn)框?yàn)檎嬷禈?biāo)簽)Fig.11 Visualized tracking results of SiamFC++trained using LIoU (marked in dotted box) and LSIoU (marked in dashed box) on LaSOT(solid box denotes groundtruth)
表1 在基準(zhǔn) LaSOT 上,分別以 LIoU (原本的)和 LSIoU訓(xùn)練的模型 SiamFC++的測(cè)試結(jié)果(%)Table 1 Comparison between the performance of SiamFC++trained using LIoU (original),LSIoU on the test set of LaSOT (%)
表2 在基準(zhǔn)LaSOT 上,分別以 LIoU (原本的)和LSIoU訓(xùn)練的模型SiamBAN 的測(cè)試對(duì)比(%)Table 2 Comparison between the performance of SiamBAN trained using LIoU (original),LSIoU on the test set of LaSOT (%)
表3 在基準(zhǔn)LaSOT 上,分別以 LIoU (原本的)和 LSIoU訓(xùn)練模型SiamCAR 的測(cè)試對(duì)比(%)Table 3 Comparison between the performance of SiamCAR trained using LIoU (original),LSIoU on the test set of LaSOT (%)
為了表現(xiàn)采用本文SIoU 損失訓(xùn)練SiamFC++、SiamBAN 和SiamCAR 后橫向比較的性能,選取了其他9 種先進(jìn)的跟蹤方法進(jìn)行對(duì)比,分別為SiamBAN[21]、SiamCAR[22]、SiamRPN++[9]、Siam-Mask[35]、GlobalTrack[36]、C-RPN[37]、Ocean[23]、ATOM[38]和DiMP[39].其中,Ocean[23]模型選擇具有更好性能的在線(xiàn)更新的Ocean-online 版本.用SiamFC++(SIoU)代表以LSIoU訓(xùn)練邊界框回歸分支的版本以示區(qū)分.在LaSOT 上的成功率和精確率的對(duì)比如圖12 和表4 所示,可以看出,SIoU損失方法使SiamFC++模型超越了先進(jìn)的Ocean和DiMP,實(shí)現(xiàn)了最好的性能.與Ocean-online 相比,SiamFC++(SIoU)在3 個(gè)指標(biāo)上的得分分別相對(duì)提高了1.5%、1.6%和1.8%.與DiMP 相比,SiamFC++(SIoU)在成功率上同樣表現(xiàn)出1.5%的優(yōu)勢(shì),而在精度上表現(xiàn)出1.9%的優(yōu)勢(shì),驗(yàn)證了LSIoU可以更好地在復(fù)雜場(chǎng)景中回歸不同對(duì)象邊界框的能力.
表4 在基準(zhǔn)LaSOT 上,與先進(jìn)方法的性能評(píng)估對(duì)比Table 4 Performance evaluation for state-of-the-art algorithms on LaSOT
圖12 在LaSOT 上評(píng)估成功率、精確率和標(biāo)準(zhǔn)化精確率結(jié)果Fig.12 Success plot with area under the curve,precision plot and normalized precision plot on LaSOT
3.2.2 GOT-10k
GOT-10k[32]一個(gè)由中國(guó)科學(xué)院發(fā)布的基于WordNet 的大型目標(biāo)跟蹤數(shù)據(jù)集,總共超過(guò)10 000 段視頻,細(xì)分了563 類(lèi)戶(hù)外常見(jiàn)的移動(dòng)物體,范圍涵蓋了動(dòng)物、交通工具、人物、被動(dòng)運(yùn)動(dòng)目標(biāo)以及特定部位目標(biāo)5 大類(lèi)別,標(biāo)注的邊界框數(shù)量超過(guò)150 萬(wàn).除了類(lèi)別廣泛,規(guī)模宏大,該數(shù)據(jù)集還具有訓(xùn)練數(shù)據(jù)統(tǒng)一和單樣本學(xué)習(xí)等特點(diǎn).依照GOT-10k 的協(xié)議,所有模型都用相同的訓(xùn)練數(shù)據(jù),來(lái)保障所有模型之間的公平對(duì)比.并且為了使訓(xùn)練出的模型能有更強(qiáng)的泛化能力,基準(zhǔn)測(cè)試集與訓(xùn)練集之間不存在交集.測(cè)試集包含180 段視頻,分屬于84 個(gè)目標(biāo)類(lèi)別,該測(cè)試基準(zhǔn)評(píng)價(jià)的指標(biāo)有平均重疊率(Average overlap,AO)和成功率(Success rate,SR),數(shù)值越大說(shuō)明方法性能越高.表5 展示了采用LSIoU訓(xùn)練的SiamFC++模型在服務(wù)器上評(píng)估的結(jié)果,雖然在 S R0.75指標(biāo)上性能略低于原始結(jié)果2.29%,但在 S R0.50指標(biāo)上增益高達(dá)7.48% 以及在 A O 指標(biāo)上增益 3.69%,同樣實(shí)現(xiàn)了一定程度的性能改進(jìn).表 6 給出了經(jīng)過(guò)LSIoU訓(xùn)練的SiamCAR 模型在服務(wù)器上的評(píng)估結(jié)果,3 個(gè)指標(biāo)上均有不同程度的提升,除了在 S R0.50指標(biāo)上性能提升最高達(dá)6.29%,在 A O 和S R0.75指標(biāo)上相對(duì)基線(xiàn)結(jié)果分別提升了3.69%和5.22%.表 7 總結(jié)了與7 種當(dāng)前先進(jìn)方法MDNet[40]、SPM[19]、ATOM[38]、SiamCAR[22]、Siam-RPN++[9]、Ocean-online[23]、D3S[41]和DiMP-50[39]的對(duì)比,SiamFC++(SIoU)和SiamCAR (SIoU)代表以LSIoU訓(xùn)練邊界框回歸分支的版本.可以看出,采用LSIoU訓(xùn)練的SiamFC++在標(biāo)準(zhǔn)化精確度和成功率方面都表現(xiàn)出了優(yōu)勢(shì).LSIoU使 SiamFC++的成功率超過(guò)了最先進(jìn)的 DiMP-50[39]和Oceanonline[23]達(dá)1.8%,標(biāo)準(zhǔn)化精確度超過(guò)了2.2%.
表5 在GOT-10k 上,分別以 (原本的)和 訓(xùn)練的模型SiamFC++測(cè)試對(duì)比(%)LIoU LSIoUTable 5 Comparison between the performance of SiamFC++trained using (original),on the test set of GOT-10k (%)LIoU LSIoU
表6 在GOT-10k 上,分別以 (原本的)和 訓(xùn)練的模型SiamCAR 測(cè)試結(jié)果(%) LIoU LSIoUTable 6 Comparison between the performance of SiamCAR trained using (original),on the test set of GOT-10k (%) LIoU LSIoU
表7 在基準(zhǔn)GOT-10k 上,與先進(jìn)方法的性能評(píng)估對(duì)比 (%)Table 7 Performance evaluation for state-of-the-art algorithms on GOT-10k (%)
3.2.3 TrackingNet
為了進(jìn)一步評(píng)估本文方法,在更具挑戰(zhàn)性的數(shù)據(jù)集TrackingNet[31]上進(jìn)行了實(shí)驗(yàn).TrackingNet包含了30 132 個(gè)視頻,平均每個(gè)視頻471.4 幀,以及覆蓋了27 個(gè)類(lèi)別用于單目標(biāo)跟蹤器的訓(xùn)練,是目前目標(biāo)跟蹤任務(wù)里的體量最大的數(shù)據(jù)集.與GOT-10k 類(lèi)似,TrackingNet 的測(cè)試集獨(dú)立于訓(xùn)練集,并在官方評(píng)估服務(wù)器上測(cè)試,該基準(zhǔn)測(cè)試提供了511 個(gè)視頻,視頻平均幀數(shù)與類(lèi)別屬性分布與訓(xùn)練集相似.與基準(zhǔn)LaSOT 相同,評(píng)估服務(wù)器基于跟蹤結(jié)果計(jì)算成功率、精確度和標(biāo)準(zhǔn)化精確度三個(gè)評(píng)估指標(biāo).表8 給出了SiamFC++模型以LSIoU作為邊界框回歸損失訓(xùn)練在TrackingNet 上得到的測(cè)試結(jié)果.可以看出,LSIoU相對(duì)于原有的LIoU提高了SiamFC++模型的性能,成功率、精確度以及標(biāo)準(zhǔn)化精確度分別相對(duì)提高1.06%、2.27 %和2.37 %.而表9 給出了與7 種當(dāng)前先進(jìn)的跟蹤器,即MDNet[40]、ATOM[38]、DaSiamRPN[10]、Siam-RPN++[9]、UpdateNet[42]、SPM[19]、DiMP[39]在 TrackingNet 上的結(jié)果對(duì)比,SiamFC++(SIoU) 代表以LSIoU訓(xùn)練邊界框回歸分支的版本.可以看出,采用LSIoU訓(xùn)練的SiamFC++在精確度和成功率方面均表現(xiàn)最佳.如表9 所示,LSIoU使SiamFC++的成功率超過(guò)了最先進(jìn)的 DiMP[39]模型1.8%,標(biāo)準(zhǔn)化精確率超過(guò)了2.2%.在如此大規(guī)模的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了以SIoU 損失訓(xùn)練邊界框回歸具有良好的泛化能力.
表8 在TrackingNet 上,分別以 (原本的)和訓(xùn)練的模型SiamFC++的測(cè)試結(jié)果(%) LIoU LSIoUTable 8 Comparison between the performance of SiamFC++trained using (original),on the test of TrackingNet (%) LIoU LSIoU
表9 在基準(zhǔn)TrackingNet 上,與先進(jìn)方法的性能評(píng)估對(duì)比 (%)Table 9 Performance evaluation for state-of-the-art algorithms on TrackingNet (%)
3.2.4 OTB2015
除了上述大規(guī)模數(shù)據(jù)的基準(zhǔn)測(cè)試,本文也在小規(guī)模的數(shù)據(jù)集OTB2015[33]上進(jìn)行了實(shí)驗(yàn).OTB-2015 包含了100 個(gè)視頻,涵蓋了視覺(jué)跟蹤里11 種典型的挑戰(zhàn).與LaSOT 類(lèi)似,該基準(zhǔn)測(cè)試常用的評(píng)估指標(biāo)為一次性通過(guò)的精確率和成功率.表10 和表11 分別給出了以LSIoU作為邊界框回歸損失訓(xùn)練的SiamFC++模型和SiamBAN 模型在OTB2015上得到的測(cè)試結(jié)果.可以看出,雖然LSIoU相對(duì)于原有的LIoU提高了SiamFC++模型和SiamBAN 模型的性能,但提升幅度有限,成功率相對(duì)提高了分別為0.74%和0.43%,而精確率相對(duì)提高了分別為0.34%和0.55%.可能的原因是小規(guī)模的測(cè)試集對(duì)網(wǎng)絡(luò)參數(shù)以及超參數(shù)更敏感,具有偶然性和特殊性,大規(guī)模的測(cè)試樣本更能得到一般性的結(jié)果.
表10 在OTB2015 上,分別以 LIoU (原本的)和LSIoU訓(xùn)練的模型SiamFC++的測(cè)試結(jié)果 (%)Table 10 Comparison between the performance of SiamFC++trained using LIoU (original),LSIoU on the test of OTB2015 (%)
表11 在OTB2015 上,分別以 (原本的)和訓(xùn)練的模型SiamBAN 測(cè)試結(jié)果 (%) LIoU LSIoUTable 11 Comparison between the performance of SiamBAN trained using (original),LIoU LSIoU on on the test of OTB2015 (%)
3.2.5 VOT2018
數(shù)據(jù)集VOT2018[34]共包含60 個(gè)視頻,雖然視頻數(shù)量較少并與VOT2018 之前版本發(fā)布的數(shù)據(jù)集相同,但是對(duì)所有視頻重新標(biāo)定了由分割掩碼外接得到的更加精確的邊界框,也就是說(shuō)這種邊界框不再是坐標(biāo)軸對(duì)齊的,給跟蹤器帶來(lái)了新的挑戰(zhàn).VOT2018 里重要的3 個(gè)評(píng)價(jià)指標(biāo): 準(zhǔn)確率(Accuracy,A)、魯棒性(Robustness,R) 和平均重疊率期望(Expected average overlap,EAO).準(zhǔn)確率用來(lái)評(píng)價(jià)跟蹤器的準(zhǔn)確度,通過(guò)n次重復(fù)測(cè)試得到跟蹤器在單個(gè)視頻幀序列下IoU 的平均值,即A=該指標(biāo)數(shù)值越大,準(zhǔn)確度越高.魯棒性用來(lái)評(píng)價(jià)跟蹤器的穩(wěn)定性,通過(guò)n次重復(fù)測(cè)試得到跟蹤器在單個(gè)視頻幀序列上跟蹤失敗的次數(shù)F的平均值,即重疊率為 0 即為跟蹤失敗,該指標(biāo)數(shù)值越小,穩(wěn)定性越高.VOT-2018 相較于其他測(cè)試基準(zhǔn)具有的一個(gè)特色機(jī)制是會(huì)在跟蹤器跟蹤失敗時(shí)重啟,即失敗發(fā)生時(shí)的5幀后重新初始化,所以平均重疊率期望是取跟蹤器在非重新初始化的Nl個(gè)長(zhǎng)度為l的視頻幀序列上平均重疊率的期望值,即IoUl(i)]是VOT2018 評(píng)估跟蹤算法精度的重要指標(biāo),數(shù)值越大,精度越高.表12 給出了SiamFC++模型以LSIoU作為邊界框回歸損失訓(xùn)練在VOT2018上的測(cè)試結(jié)果.由表12 可以看出,在準(zhǔn)確率和EAO 指標(biāo)上有所下降.造成這種現(xiàn)象可能的原因是,VOT2018 里的IoU 計(jì)算涉及到預(yù)測(cè)框與旋轉(zhuǎn)的標(biāo)注框之間的交疊,而非傳統(tǒng)意義下兩個(gè)坐標(biāo)軸對(duì)齊的矩形框之間的 IoU,而此時(shí)并不能證明提出的光滑IoU 損失所遵從的策略仍然可以最優(yōu).所以為了應(yīng)對(duì)這種評(píng)估指標(biāo),還有待對(duì)邊界框回歸函數(shù)做進(jìn)一步研究和拓展.
表12 在VOT2018 上,分別以 (原本的)和訓(xùn)練的模型SiamFC++測(cè)試結(jié)果(%) LIoU LSIoUTable 12 Comparison between the performance of SiamFC++trained using (original),LIoU LSIoU on on the test of VOT2018 (%)
為了證明提出的光滑IoU 損失與其他以IoU為基準(zhǔn)的損失如 GIoU[5]和 DIoU[6]相比具有優(yōu)勢(shì),本文在基準(zhǔn) LaSOT 和 GOT-10k 上對(duì) SiamFC++、SiamBAN 和SiamCAR 模型采取不同邊界框回歸損失函數(shù)(即本文提出的LSIoU、LGIoU[5]、LDIoU[6]以及原本的LIoU損失)作為對(duì)比實(shí)驗(yàn).表13 和表14記錄了基于3 種模型的不同邊界框回歸損失在測(cè)試集上超過(guò)不同IoU 閾值的圖像幀數(shù)所占比率.最小閾值取值為0.5,并以步幅0.05 逐次累加的方式設(shè)置更高的閾值,可以看出提出的光滑IoU 損失可以改善邊界框回歸的效果,雖然在高IoU 閾值下以SIoU 訓(xùn)練的模型測(cè)試結(jié)果所占比率不一定高于其他IoU 為基準(zhǔn)的損失,但是這一部分的比率普遍很小,SIoU 損失在中高IoU 閾值下與其他基于IoU的損失相比優(yōu)勢(shì)明顯,對(duì)整體指標(biāo)提升的貢獻(xiàn)更大.
表13 在基準(zhǔn)LaSOT 上,與其他基于IoU 損失訓(xùn)練得到的滿(mǎn)足不同IoU 閾值的測(cè)試集圖像幀數(shù)占比的對(duì)比結(jié)果 (%)Table 13 Comparison results with other IoU-based loss for the ratio of frames exceeding different IoU thresholds on the test set of LaSOT (%)
表14 在基準(zhǔn)GOT-10k 上,與其他基于IoU 損失訓(xùn)練得到的滿(mǎn)足不同IoU 閾值的測(cè)試集圖像幀數(shù)占比的對(duì)比結(jié)果 (%)Table 14 Comparison results with other IoU-based loss for the ratio of frames exceeding different IoU thresholds on the test set of GOT-10k (%)
最后,為了探討中心偏差的正則項(xiàng)RS和光滑代理函數(shù)Aλ所帶來(lái)性能上的影響,本文在GOT-10k 上對(duì)其進(jìn)行了消融實(shí)驗(yàn).表15 報(bào)告了不同消融的結(jié)果,其中LSIoU(w/oAR) 代表不具有正則項(xiàng)RS和光滑代理函數(shù)Aλ的損失,LSIoU(w/R) 代表配備了正則項(xiàng)RS而不采用光滑代理函數(shù)Aλ的損失,而LSIoU(w/Aλ) 代表采用了光滑代理函數(shù)Aλ而不配備正則項(xiàng)RS的損失.在本文λ取 1、2、4 和8 四個(gè)值以觀察不同λ的影響.由表15 和圖13 可以看出,正則項(xiàng)和代理函數(shù)提高了邊界框回歸損失的性能.其中對(duì)中心偏差的正則項(xiàng)可以較好彌補(bǔ)LSIoU在dH >2 時(shí)與IoU 不匹配帶來(lái)的差異.同時(shí)也注意到,相較于正則項(xiàng)的加入,將中心偏差 (xΔ,yΔ) 的損失從?1-norm 替換為光滑代理函數(shù)A2、A4和A8所帶來(lái)的性能增益有限,其中可能的原因是不同于邊界框尺寸的回歸目標(biāo)是動(dòng)態(tài)的,邊界框中心位置的回歸目標(biāo)是靜態(tài)的,總是指向真值框的中心,也就是 (xΔ,yΔ) 的優(yōu)化目標(biāo)總是 (0, 0),但實(shí)際上中心偏差 (xΔ,yΔ) 很難回歸到 (0, 0),因此對(duì)邊界框中心位置的回歸作光滑處理帶來(lái)的增益較小.至于λ取值為 1 時(shí),結(jié)果卻遜于|x|,可能是因?yàn)锳λ(x) 與|x|的誤差較大如圖6 所示,所以λ取值適中即可,既不必取值太小使Aλ(x) 偏差 |x|較大,也不必取值太大使Aλ(x) 在原點(diǎn)處過(guò)于 “尖銳”而失去光滑的意義,本文不妨取值為2.
圖13 在GOT-10k 上的成功率圖Fig.13 Success plot on GOT-10k
表15 在GOT-10k 上,對(duì) LSIoU 的正則項(xiàng)和代理函數(shù)的消融實(shí)驗(yàn)(%)Table 15 Ablation studies about the regulariztion and surrogate function on GOT-10k (%)
本文給出并證明了在回歸過(guò)程中最優(yōu)邊界框參數(shù)之間滿(mǎn)足的定量關(guān)系,提出了一種新的用于訓(xùn)練邊界框回歸的損失,即光滑IoU 損失.該光滑IoU損失不以IoU 損失作為基本損失,從優(yōu)化散度的角度構(gòu)造了全局光滑且極值唯一的損失函數(shù),提出的光滑IoU 損失蘊(yùn)含邊界框各參數(shù)之間特定的最優(yōu)關(guān)系,并將邊界框參數(shù)作為一個(gè)整體進(jìn)行回歸,其唯一極值可使IoU 達(dá)到最優(yōu).該損失函數(shù)確保了在全局上可梯度下降更新參數(shù),使得邊界框更容易回歸到極值處,從而規(guī)避了IoU 損失的固有缺陷.在采樣數(shù)據(jù)上進(jìn)行的大量實(shí)驗(yàn)表明,光滑IoU 損失和現(xiàn)有基于IoU 的損失方法相比,收斂速度更快,帶來(lái)了顯著的改進(jìn).光滑IoU 損失可以很容易地集成到當(dāng)前基于IoU 損失的視覺(jué)任務(wù)模型中,本文將其應(yīng)用在具有代表性的無(wú)錨框目標(biāo)跟蹤模型 Siam-FC++、SiamBAN 和 SiamCAR 上,在 LaSOT、GOT-10k、TrackingNet 和OTB2015 等主流測(cè)試基準(zhǔn)上所取得的結(jié)果驗(yàn)證了光滑IoU 損失可以幫助提高邊界框回歸模塊的性能.