王黎明,孫 俊,陳祺東
江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無(wú)錫 214122
多目標(biāo)跟蹤(multi-object tracking,MOT)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的重要任務(wù)之一[1]。其目的是同時(shí)識(shí)別與跟蹤視頻中的多個(gè)目標(biāo),并為每個(gè)目標(biāo)分配唯一且長(zhǎng)時(shí)間有效的ID 編號(hào),以獲得目標(biāo)的運(yùn)動(dòng)軌跡。根據(jù)使用視頻序列的方式,可將多目標(biāo)跟蹤分為在線多目標(biāo)跟蹤和離線多目標(biāo)跟蹤兩類(lèi)。離線跟蹤能綜合視頻全局信息獲得較好的跟蹤效果,但在線跟蹤更符合現(xiàn)實(shí)應(yīng)用場(chǎng)景,也是目前多目標(biāo)跟蹤的熱門(mén)研究方向。然而,由于在線跟蹤無(wú)法利用視頻后續(xù)圖像信息,因此跟蹤效果更依賴(lài)于當(dāng)前圖像的目標(biāo)檢測(cè)精度。在尺度變換和頻繁遮擋等復(fù)雜場(chǎng)景下,檢測(cè)精度降低會(huì)導(dǎo)致跟蹤效果變差。如何在兼顧實(shí)時(shí)性的同時(shí)提高跟蹤魯棒性,仍存在一些挑戰(zhàn)。
隨著深度學(xué)習(xí)在圖像領(lǐng)域的快速發(fā)展,目標(biāo)檢測(cè)算法的精度不斷提高[2-6],很多學(xué)者選擇基于檢測(cè)的跟蹤策略(tracking by detection,TBD)[1]。TBD 方法將高精度檢測(cè)器與Re-ID[7]算法結(jié)合,獲得了較好的跟蹤性能。其中Re-ID 算法常利用深度學(xué)習(xí)模型提取目標(biāo)表觀特征,再通過(guò)歐式距離、余弦距離等度量函數(shù)進(jìn)行特征間的相似性分析,從而引入目標(biāo)間的區(qū)分度,減少跟蹤目標(biāo)的誤匹配。根據(jù)Re-ID特征提取方法的不同,多目標(biāo)跟蹤又分為SDE(separate detection and embedding)和JDE(joint detection and embedding)兩類(lèi)[8]。SDE 方法的Re-ID特征提取獨(dú)立于檢測(cè)模型,使用單獨(dú)的特征提取網(wǎng)絡(luò)獲取目標(biāo)圖像的表觀特征。雖然這種two-step方法可以獲得較好的表觀特征,但比較耗時(shí),很難達(dá)到實(shí)時(shí)效果。JDE將目標(biāo)檢測(cè)和embedding提取模塊集成到單一網(wǎng)絡(luò)中,能并行輸出圖像的檢測(cè)信息和Re-ID特征圖,再利用檢測(cè)信息獲取目標(biāo)對(duì)應(yīng)的特征向量,避免了特征重復(fù)提取的冗余計(jì)算。但one-shot 方法需要在單一網(wǎng)絡(luò)中提取檢測(cè)和表觀兩種不同的特征,很難使兩個(gè)任務(wù)同時(shí)達(dá)到最好的效果,且通過(guò)檢測(cè)信息定位特征向量容易產(chǎn)生偏差,導(dǎo)致Re-ID 特征模糊問(wèn)題,因此其跟蹤精度往往低于two-step 方法。FairMOT[9]通過(guò)融合深層和淺層特征來(lái)緩解檢測(cè)與表觀特征之間的矛盾,并使用基于無(wú)錨檢測(cè)的CenterNet[5]作為檢測(cè)器,來(lái)減小Re-ID特征的模糊性,進(jìn)一步提升了跟蹤精度,并達(dá)到實(shí)時(shí)要求。
但CenterNet 是基于中心點(diǎn)的檢測(cè)算法,用于跟蹤訓(xùn)練時(shí),僅將Re-ID特征圖中目標(biāo)中心點(diǎn)處的特征向量送入分類(lèi)器進(jìn)行分類(lèi)學(xué)習(xí)。因此每個(gè)目標(biāo)僅包含一個(gè)可學(xué)習(xí)特征向量,在Re-ID 特征圖上的范圍較小,特征質(zhì)量不高。同時(shí),由于CenterNet存在檢測(cè)偏差,若未命中目標(biāo)中心點(diǎn),則無(wú)法準(zhǔn)確定位特征圖上的可學(xué)習(xí)特征位置,導(dǎo)致Re-ID 任務(wù)過(guò)分依賴(lài)于檢測(cè)精度。因此,即使Re-ID特征圖有高質(zhì)量的表觀特征,也無(wú)法通過(guò)定位信息準(zhǔn)確獲取,從而影響Re-ID 效果,降低跟蹤精度。為加強(qiáng)Re-ID特征提取的魯棒性,本文從檢測(cè)和特征范圍兩方面進(jìn)行改進(jìn):首先,通過(guò)設(shè)計(jì)中心點(diǎn)檢測(cè)偏差損失,抑制預(yù)測(cè)熱力圖中非真值位置的響應(yīng)值大小,使高響應(yīng)值向目標(biāo)真值位置逼近,提升檢測(cè)效果和Re-ID 可學(xué)習(xí)特征位置的命中率,減小檢測(cè)偏差對(duì)特征提取的影響。其次,提出Re-ID 可學(xué)習(xí)特征動(dòng)態(tài)擴(kuò)充策略,根據(jù)目標(biāo)尺度對(duì)其在Re-ID特征圖上的可學(xué)習(xí)特征范圍做自適應(yīng)擴(kuò)充,通過(guò)擴(kuò)大可學(xué)習(xí)特征范圍來(lái)提高Re-ID 任務(wù)對(duì)檢測(cè)偏差的容忍度。這樣即使存在定位偏差也能保證Re-ID 特征質(zhì)量,減小Re-ID 對(duì)檢測(cè)精度的依賴(lài)。
目前在線多目標(biāo)跟蹤方法主要分為two-step 和one-shot 兩種類(lèi)型。其中two-step 為兩步式,首先使用高性能目標(biāo)檢測(cè)器檢測(cè)目標(biāo)位置,再根據(jù)檢測(cè)框裁剪出目標(biāo)圖像,并輸入ID嵌入網(wǎng)絡(luò)提取Re-ID特征用于軌跡關(guān)聯(lián)。例如DeepSort[10]算法使用YOLOv3[4]作為檢測(cè)器,在Sort[11]的基礎(chǔ)上引入Re-ID外觀模型和運(yùn)動(dòng)模型,并提出級(jí)聯(lián)匹配策略,提高了跟蹤魯棒性。POI[12]使用Faster R-CNN[2]作為檢測(cè)器,并結(jié)合多尺度特征提高跟蹤精度。由于two-step 方法可以對(duì)檢測(cè)算法和ID 嵌入網(wǎng)絡(luò)單獨(dú)訓(xùn)練,兩個(gè)任務(wù)可以分別得到最優(yōu)模型,使算法有較高的跟蹤精度。但跟蹤過(guò)程需要兩個(gè)模型依次處理,難以達(dá)到實(shí)時(shí)效果。
JDE方法的提出使one-shot多目標(biāo)跟蹤受到廣泛關(guān)注,其目的是在一個(gè)單一網(wǎng)絡(luò)中并行輸出目標(biāo)的檢測(cè)結(jié)果和Re-ID特征,以端到端的方式提取視頻序列中的跟蹤信息,提高跟蹤效率。一個(gè)實(shí)現(xiàn)one-shot MOT 的簡(jiǎn)單有效方法是將Re-ID 特征提取網(wǎng)絡(luò)嵌入現(xiàn)有檢測(cè)器中,如在檢測(cè)器頂端添加與檢測(cè)頭并行的Re-ID 模塊,使其與檢測(cè)器共享特征提取網(wǎng)絡(luò)。目前one-shot 算法大多采用上述方法,例如Track-RCNN[13]在Mask R-CNN[3]檢測(cè)器頂端添加全連接層,可以同時(shí)為每個(gè)提議回歸檢測(cè)框和Re-ID特征,但Mask R-CNN是兩階段目標(biāo)檢測(cè)器,仍達(dá)不到實(shí)時(shí)效果。JDE在單階段檢測(cè)器YOLOv3上添加Re-ID 模塊,不僅達(dá)到領(lǐng)先two-step 方法的跟蹤精度,而且有接近實(shí)時(shí)的跟蹤效果。FairMOT指出JDE方法在單一網(wǎng)絡(luò)中提取檢測(cè)和Re-ID 特征存在不公平等問(wèn)題,并采用基于anchor-free 的CenterNet,超越了two-step方法的跟蹤精度,并實(shí)現(xiàn)了實(shí)時(shí)跟蹤。
行人重識(shí)別是利用計(jì)算機(jī)視覺(jué)技術(shù)檢索圖像或視頻序列中是否存在特定行人的技術(shù)[14]。在多目標(biāo)跟蹤任務(wù)中,常利用重識(shí)別算法引入目標(biāo)間的區(qū)分度,來(lái)提高跟蹤算法的匹配精度,減少誤匹配。同時(shí)重識(shí)別的特定目標(biāo)再識(shí)別能力可以幫助丟失目標(biāo)的軌跡重新匹配再次出現(xiàn)的目標(biāo),提高跟蹤魯棒性。重識(shí)別任務(wù)主要包含表觀特征提取和相似性度量?jī)蓚€(gè)部分。傳統(tǒng)方法采用手工提取圖像特征,但手工特征描述能力有限,很難適應(yīng)復(fù)雜場(chǎng)景,而基于深度學(xué)習(xí)的方法可以自動(dòng)學(xué)習(xí)目標(biāo)的復(fù)雜特征,且使用簡(jiǎn)單的度量函數(shù)進(jìn)行相似性度量就可以取得很好的性能[15]。因此很多學(xué)者關(guān)注于特征質(zhì)量的提升,如文獻(xiàn)[16]采用多分支網(wǎng)絡(luò)提取目標(biāo)特征,通過(guò)多分支協(xié)作來(lái)加強(qiáng)網(wǎng)絡(luò)對(duì)行人特征的學(xué)習(xí)。文獻(xiàn)[17-18]通過(guò)增強(qiáng)特征融合來(lái)提高表觀特征的魯棒性,文獻(xiàn)[19]通過(guò)遷移衣服特征來(lái)消除行人衣服特征的差異。同時(shí)因全局特征易受環(huán)境因素干擾,識(shí)別精度較低等問(wèn)題,基于局部特征的方法也迅速發(fā)展[20-21]。相似性度量常使用距離度量函數(shù)如歐氏距離、余弦距離等來(lái)判斷特征的相似度,同時(shí)也有對(duì)度量算法的研究,如文獻(xiàn)[22]使用組合度量策略來(lái)提高模型泛化能力。此外,還有使用GAN網(wǎng)絡(luò)通過(guò)數(shù)據(jù)增強(qiáng)來(lái)解決行人重識(shí)別難點(diǎn)的方法[23-24]。
本文同樣采用上述one-shot方法,使用CenterNet作為檢測(cè)器,添加與檢測(cè)頭并行的Re-ID模塊,使其與檢測(cè)器共享特征提取網(wǎng)絡(luò),如圖1 所示。其中Strengthened Re-ID通過(guò)擴(kuò)大Re-ID可學(xué)習(xí)特征范圍來(lái)提高特征向量質(zhì)量,從而加強(qiáng)Re-ID 效果。同時(shí)模型對(duì)預(yù)測(cè)heatmap響應(yīng)值進(jìn)行約束,以提高中心點(diǎn)檢測(cè)精度,從而更準(zhǔn)確的命中可學(xué)習(xí)特征位置,保證Re-ID 特征質(zhì)量,加強(qiáng)重識(shí)別效果。
為滿足檢測(cè)與重識(shí)別對(duì)特征提取的不同需求,本文編碼器-解碼器網(wǎng)絡(luò)采用DLA34[9]網(wǎng)絡(luò),如圖2所示。該網(wǎng)絡(luò)包含很多低維特征與高維特征的跳躍連接,能更好地融合深層和淺層特征,提取目標(biāo)定位與表觀信息。其中Stage 為樹(shù)狀連接[25],Sum Node 為加和操作,數(shù)字代表下采樣倍數(shù),輸入圖像大小統(tǒng)一為1 088×608,輸出大小為64×272×152的特征圖。
檢測(cè)模塊由Heatmap head、Offset head和Box head三個(gè)預(yù)測(cè)頭組成,分別對(duì)目標(biāo)中心點(diǎn)、中心點(diǎn)偏移補(bǔ)償和中心點(diǎn)到box 邊框的距離進(jìn)行預(yù)測(cè),得到檢測(cè)結(jié)果。本文通過(guò)構(gòu)造中心點(diǎn)檢測(cè)偏差損失,使預(yù)測(cè)位置向GT位置逼近,從而提高檢測(cè)效果。
2.2.1 Heatmap檢測(cè)偏差
Heatmap head輸出大小為272×152的熱力圖,用于預(yù)測(cè)目標(biāo)中心點(diǎn)位置。但通過(guò)heatmap預(yù)測(cè)目標(biāo)中心點(diǎn)容易出現(xiàn)預(yù)測(cè)位置偏移,無(wú)法準(zhǔn)確命中目標(biāo)GT 位置的情況。如圖3為一目標(biāo)的預(yù)測(cè)熱力圖與GT熱力圖的對(duì)比,其中數(shù)字為響應(yīng)值,坐標(biāo)軸標(biāo)注為熱力圖中的坐標(biāo)位置。三角標(biāo)記為目標(biāo)GT位置(GT響應(yīng)值為1),菱形標(biāo)記為預(yù)測(cè)目標(biāo)的最高響應(yīng)值位置,即預(yù)測(cè)目標(biāo)位置,可以看出預(yù)測(cè)位置與GT位置存在一個(gè)單位的偏差。雖然這種微小偏差對(duì)檢測(cè)精度的影響較小,但由于Re-ID特征圖僅在GT 位置設(shè)置可學(xué)習(xí)特征向量,因此細(xì)微的偏差也會(huì)導(dǎo)致無(wú)法準(zhǔn)確定位可學(xué)習(xí)特征位置,影響Re-ID效果。
為解決該問(wèn)題,本文將預(yù)測(cè)位置到對(duì)應(yīng)GT 位置的距離定義為距離偏差,并以高響應(yīng)值的平均距離偏差構(gòu)建檢測(cè)偏差損失,來(lái)抑制非GT位置的預(yù)測(cè)響應(yīng)值大小,使預(yù)測(cè)位置更接近GT,進(jìn)一步提高檢測(cè)精度,如圖1中Improved heatmap所示。如此,以目標(biāo)GT位置為中心,響應(yīng)值較高的預(yù)測(cè)位置距GT越遠(yuǎn),帶來(lái)的損失越大,對(duì)其響應(yīng)值的抑制效果越強(qiáng),相反,越靠近GT 位置,對(duì)高響應(yīng)值的抑制效果越小,從而使預(yù)測(cè)高響應(yīng)值向GT 位置靠攏,實(shí)現(xiàn)對(duì)檢測(cè)偏差的修正。例如圖3預(yù)測(cè)熱力圖中GT位置的預(yù)測(cè)響應(yīng)值為0.92,而周?chē)荊T處存在相近以及更高的預(yù)測(cè)響應(yīng)值,如預(yù)測(cè)位置為0.94。構(gòu)建偏差損失后,GT 處檢測(cè)偏差為零,沒(méi)有抑制效果,但對(duì)其余位置的高響應(yīng)值均有不同程度的抑制,從而保證GT處有最高響應(yīng)值,將預(yù)測(cè)位置修正到GT。
2.2.2 Heatmap損失計(jì)算
Heatmap 損失包括響應(yīng)值預(yù)測(cè)損失和檢測(cè)偏差損失,預(yù)測(cè)損失定義為預(yù)測(cè)響應(yīng)值與GT響應(yīng)值的誤差,由于中心點(diǎn)檢測(cè)存在正負(fù)樣本和難易樣本比例失衡的問(wèn)題,為減小樣本不均勻的影響,損失函數(shù)沿用CenterNet中的focal loss[26],計(jì)算定義如下:
其中,N為目標(biāo)個(gè)數(shù),α=2 用于控制易分類(lèi)樣本權(quán)重,β=4 用于減少負(fù)樣本權(quán)重占比,R^xy為heatmap在(x,y)處的預(yù)測(cè)響應(yīng)值,Rxy為GT響應(yīng)值,計(jì)算如下:
從上式可以看出當(dāng)Lp較大時(shí),系數(shù)e-Lp較小,因此Ld對(duì)Lhm幾乎無(wú)影響。但隨著Lp不斷減小,檢測(cè)偏差損失會(huì)逐漸增加約束力度,使約束過(guò)程更加平滑,獲得更好的效果。
2.2.3 Offset和Box損失
Re-ID head輸出大小為128×272×152的特征圖,每個(gè)特征點(diǎn)包含一個(gè)128 維的特征向量。如圖1 中Strengthened Re-ID所示,本文通過(guò)擴(kuò)大Re-ID可學(xué)習(xí)特征范圍來(lái)提高ID embedding 特征向量質(zhì)量,進(jìn)而加強(qiáng)重識(shí)別效果。
2.3.1 擴(kuò)充策略
Re-ID可學(xué)習(xí)特征的原始分布僅使用目標(biāo)GT處的特征向量進(jìn)行訓(xùn)練,這會(huì)增大Re-ID 對(duì)檢測(cè)精度的依賴(lài),若未命中可學(xué)習(xí)特征將直接影響跟蹤效果。圖4為不同尺度目標(biāo)的Re-ID可學(xué)習(xí)特征設(shè)置過(guò)程,先由目標(biāo)GT熱力圖確定位置,再對(duì)應(yīng)到Re-ID feature map,確定可學(xué)習(xí)特征向量,坐標(biāo)軸標(biāo)注為熱力圖和特征圖的坐標(biāo)位置。其中圖4(a)為原始分布,所有目標(biāo)的Re-ID可學(xué)習(xí)特征都在GT 位置。然而中心點(diǎn)檢測(cè)存在檢測(cè)偏差,如圖3 中菱形標(biāo)記的最高響應(yīng)并未命中GT 位置,這種定位信息的微小偏差也會(huì)降低Re-ID特征質(zhì)量,影響ID重識(shí)別效果。
顯然,擴(kuò)大目標(biāo)Re-ID可學(xué)習(xí)特征范圍可以緩解上述問(wèn)題,提高命中機(jī)率。考慮到檢測(cè)偏差僅在GT 位置附近,范圍較小,且可學(xué)習(xí)特征增加需對(duì)多尺度目標(biāo)自適應(yīng),因此本文提出一種Re-ID 可學(xué)習(xí)特征基于GT 熱力圖的自適應(yīng)擴(kuò)充方法。具體如下,以目標(biāo)熱力圖GT位置為中心設(shè)置大小為3×3的可擴(kuò)充范圍,如圖4(b)中GT heatmap 所示,綠色標(biāo)記為可擴(kuò)充范圍。取擴(kuò)充閾值θ=0.5,將可擴(kuò)充范圍內(nèi)響應(yīng)值大于閾值的位置設(shè)為可學(xué)習(xí)特征位置,并對(duì)應(yīng)到Re-ID 特征圖,如圖4(b)中Re-ID feature map所示,紅色標(biāo)記為Re-ID可學(xué)習(xí)特征向量。經(jīng)過(guò)可學(xué)習(xí)特征擴(kuò)充,可以提高Re-ID對(duì)檢測(cè)偏差的容忍度,保證Re-ID 特征質(zhì)量,使重識(shí)別更具魯棒性。且由于可學(xué)習(xí)特征擴(kuò)充是在輸出的Re-ID 特征圖上擴(kuò)充學(xué)習(xí)范圍,未增加網(wǎng)絡(luò)的正向推理計(jì)算,擴(kuò)充過(guò)程也僅在訓(xùn)練階段,因此對(duì)在線跟蹤的實(shí)時(shí)性無(wú)影響。
可學(xué)習(xí)特征的擴(kuò)充范圍應(yīng)根據(jù)數(shù)據(jù)集的目標(biāo)大小設(shè)置,MOT17訓(xùn)練集有76.5%的目標(biāo)Re-ID特征擴(kuò)充范圍(GT熱力圖響應(yīng)值大于閾值的范圍)在3×3以內(nèi)。因此將該范圍設(shè)置為3×3可以滿足大部分目標(biāo),若繼續(xù)增大范圍,則容易產(chǎn)生相近目標(biāo)的ID歧義,即特征向量對(duì)不同目標(biāo)的歸屬問(wèn)題。同時(shí)為避免ID 歧義,本文不對(duì)熱力圖上間距小于3的目標(biāo)進(jìn)行特征擴(kuò)充。
2.3.2 Re-ID損失
為在連續(xù)視頻圖像中準(zhǔn)確識(shí)別同一目標(biāo),Re-ID 模塊通過(guò)Re-ID head提取特征圖F∈R128×272×152,并以目標(biāo)中心處特征向量Fx,y∈R128的相似度來(lái)區(qū)分目標(biāo)。因此將Re-ID作為分類(lèi)任務(wù)進(jìn)行訓(xùn)練,數(shù)據(jù)集中ID相同的目標(biāo)視為同一類(lèi)。損失計(jì)算僅使用ID真值處的分類(lèi)結(jié)果,將真值處目標(biāo)特征向量Fx,y經(jīng)過(guò)一個(gè)線性分類(lèi)層,得到其對(duì)每個(gè)ID分類(lèi)的概率值P={p(k),k∈[1,K]},其中K為類(lèi)別個(gè)數(shù),即ID總數(shù)。Re-ID損失計(jì)算如下:
其中,Yi(k)表示第i個(gè)目標(biāo)的真實(shí)ID概率分布。
為同時(shí)訓(xùn)練檢測(cè)任務(wù)和Re-ID任務(wù),使用不確定性損失[27]動(dòng)態(tài)平衡兩個(gè)任務(wù),計(jì)算如下:
其中,ω1和ω2為可學(xué)習(xí)參數(shù),用于平衡任務(wù),初始值分別為-1.85和-1.05。
本文采用標(biāo)準(zhǔn)在線跟蹤算法進(jìn)行關(guān)聯(lián)[9],過(guò)程如圖5所示。首先,通過(guò)網(wǎng)絡(luò)提取輸入圖像的目標(biāo)檢測(cè)框和Re-ID 特征向量,然后根據(jù)Re-ID 特征的余弦距離計(jì)算代價(jià)矩陣。同時(shí)融合運(yùn)動(dòng)信息,利用卡爾曼濾波器[28]和馬氏距離排除相距較遠(yuǎn)的匹配,再利用匈牙利算法[29]完成第一次匹配。對(duì)未匹配的軌跡,根據(jù)其與未匹配目標(biāo)的檢測(cè)框計(jì)算IoU代價(jià)矩陣,再利用匈牙利算法完成第二次匹配。最后更新軌跡信息,對(duì)未匹配的目標(biāo)創(chuàng)建新軌跡,對(duì)未匹配的軌跡做記錄,當(dāng)現(xiàn)有軌跡未連接新目標(biāo)的次數(shù)超過(guò)一定閾值,則視該軌跡結(jié)束,不再對(duì)其更新。
3.1.1 數(shù)據(jù)集
實(shí)驗(yàn)使用MOT17訓(xùn)練集進(jìn)行訓(xùn)練,使用MOT16訓(xùn)練集驗(yàn)證算法有效性,并在MOT16和MOT17測(cè)試集[30]評(píng)估算法性能。MOT17 訓(xùn)練集包含7 個(gè)視頻序列,5 316張圖片,112 297個(gè)邊界框標(biāo)注和548個(gè)ID標(biāo)注。
3.1.2 評(píng)估指標(biāo)
使用MOT Challenge Benchmark[30]的評(píng)價(jià)算法進(jìn)行評(píng)估,所采用的評(píng)價(jià)指標(biāo)如下:
多目標(biāo)跟蹤準(zhǔn)確度(multiple object tracking accuracy,MOTA):同時(shí)參考誤檢、漏檢和ID切換等指標(biāo),能夠直觀地衡量算法檢測(cè)并保持目標(biāo)軌跡的性能。
識(shí)別F1 值(identification F1 score,IDF1):用于衡量ID 識(shí)別準(zhǔn)確率與召回率之間的平衡性,評(píng)估跟蹤器的ID識(shí)別性能。
命中軌跡比(mostly tracked targets,MT):定義為跟蹤軌跡占真實(shí)軌跡80%以上的軌跡數(shù)與軌跡總數(shù)之比。
丟失軌跡比(mostly lost targets,ML):定義為跟蹤軌跡占真實(shí)軌跡20%以下的軌跡數(shù)與軌跡總數(shù)之比。
ID 切換(identity switches,IDs):目標(biāo)ID 發(fā)生改變的總數(shù)。
FPS:幀率。
實(shí)驗(yàn)硬件環(huán)境為搭載Intel Xeon CPU E5-2650 v4、2.2 GHz處理器和Tesla K80顯卡(4張)的深度學(xué)習(xí)服務(wù)器。在單個(gè)NVIDIA RTX 2080Ti GPU上測(cè)試運(yùn)行幀率。軟件環(huán)境為64 位Centos7 操作系統(tǒng)下的Pytorch深度學(xué)習(xí)框架。
實(shí)驗(yàn)使用CenterNet 在COCO[31]數(shù)據(jù)集上的目標(biāo)檢測(cè)模型參數(shù)[5]初始化算法模型。采用Adam 優(yōu)化器,在MOT17數(shù)據(jù)集訓(xùn)練35個(gè)epoch,batch size設(shè)置為12,初始學(xué)習(xí)率設(shè)為e-4,在第25個(gè)epoch衰減為e-5。輸入圖像大小統(tǒng)一為1 088×608,并使用旋轉(zhuǎn)、縮放和顏色抖動(dòng)等標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)行預(yù)處理。
首先對(duì)檢測(cè)偏差損失的響應(yīng)閾值λ和Re-ID閾值θ的選取進(jìn)行探討,并通過(guò)實(shí)驗(yàn)分析選取不同閾值對(duì)跟蹤效果的影響。閾值λ用于對(duì)非GT位置的高響應(yīng)值進(jìn)行約束,若選取過(guò)高,則對(duì)檢測(cè)偏差的約束力度較小,檢測(cè)效果提升不明顯。相反,若閾值λ較低,則會(huì)過(guò)早對(duì)中心點(diǎn)偏差進(jìn)行約束,影響檢測(cè)任務(wù)的初期訓(xùn)練,且對(duì)低響應(yīng)位置約束的意義不大。閾值θ用于判斷Re-ID 可學(xué)習(xí)特征的擴(kuò)充范圍,過(guò)高則會(huì)使特征擴(kuò)充偏向于大目標(biāo),無(wú)法提升小目標(biāo)的重識(shí)別效果。而目標(biāo)經(jīng)過(guò)4倍下采樣后的特征圖可能小于9 個(gè)特征點(diǎn),若θ較小,擴(kuò)充范圍過(guò)大則會(huì)給Re-ID特征帶來(lái)噪聲,影響ID重識(shí)別效果。為研究不同閾值對(duì)跟蹤效果的影響,選擇0.5 作為閾值,上下波動(dòng)0.1進(jìn)行對(duì)比,結(jié)果如表1和表2所示,其中閾值1為原始效果。
表1 熱力圖響應(yīng)閾值對(duì)比Table 1 Comparison of heatmap response thresholds
表2 Re-ID閾值對(duì)比Table 2 Comparison of Re-ID thresholds
由表1 可知,熱力圖響應(yīng)閾值選擇0.5 時(shí)有最好的跟蹤效果。檢測(cè)能力的提升提高了目標(biāo)中心Re-ID 可學(xué)習(xí)特征的命中概率,從而有更好的跟蹤效果。響應(yīng)閾值減小會(huì)使整體跟蹤效果下降,因?yàn)樾¢撝挡粌H會(huì)影響初期檢測(cè)訓(xùn)練,而且增大了約束范圍。這使模型將重心放在對(duì)中小響應(yīng)值的約束上,缺少對(duì)高響應(yīng)值的關(guān)注,沒(méi)有實(shí)現(xiàn)高響應(yīng)值向GT 位置靠攏。因此閾值選擇0.4時(shí)MOTA 沒(méi)有明顯提升,反而識(shí)別效果受到影響,導(dǎo)致IDF1 下降。閾值選擇0.6 時(shí)與檢測(cè)相關(guān)的MOTA 有一些提升,IDF1也隨之升高,但提升效果不如閾值0.5。因?yàn)樵龃箝撝禃?huì)對(duì)高響應(yīng)值有更好的約束,但小目標(biāo)的預(yù)測(cè)響應(yīng)值較小,高閾值容易忽略對(duì)小目標(biāo)的約束,使跟蹤效果變差。因此熱力圖響應(yīng)閾值選擇0.5。
由表2可知,Re-ID閾值選擇0.5時(shí)有最高的身份識(shí)別F1值和軌跡命中率,同時(shí)也有較高的跟蹤準(zhǔn)確度,綜合跟蹤效果最好。減小閾值會(huì)增大Re-ID 可學(xué)習(xí)特征擴(kuò)充幅度,不僅給小目標(biāo)的Re-ID特征帶來(lái)周?chē)h(huán)境噪聲,降低身份識(shí)別精度,而且會(huì)影響檢測(cè)特征質(zhì)量,使檢測(cè)效果變差。因此閾值選擇0.4 時(shí),雖然Re-ID 效果有提升,但MOTA 降低。相反,增大閾值容易忽略小目標(biāo)的可學(xué)習(xí)特征擴(kuò)充,ID重識(shí)別能力提升不夠全面,所以閾值0.6的ID重識(shí)別效果提升不如閾值0.5。
同時(shí),由于視頻序列中經(jīng)常存在目標(biāo)由遠(yuǎn)及近或由近及遠(yuǎn)的尺度變換和頻繁遮擋等場(chǎng)景,若算法ID 重識(shí)別能力不強(qiáng),容易發(fā)生目標(biāo)跟丟的情況,導(dǎo)致軌跡命中率較低。如表2 中閾值0.5 和0.6 的對(duì)比,閾值取0.6 時(shí)對(duì)大目標(biāo)有更好的跟蹤效果,因此預(yù)測(cè)軌跡小于20%的情況較少,軌跡丟失率ML較低。但當(dāng)發(fā)生上述尺度變換或遮擋時(shí),小目標(biāo)ID無(wú)法長(zhǎng)久保持,使預(yù)測(cè)軌跡大于80%的軌跡數(shù)變少,軌跡命中率不高。因此綜合考慮,Re-ID可學(xué)習(xí)特征閾值同樣選擇0.5。
因主流算法測(cè)試所用數(shù)據(jù)集不同,為充分驗(yàn)證本文算法性能,分別在MOT16和MOT17測(cè)試集上與相應(yīng)算法對(duì)比,如表3和表4所示。其中星號(hào)標(biāo)記為one-shot方法,其余為two-step方法,F(xiàn)PS測(cè)試同時(shí)考慮檢測(cè)和關(guān)聯(lián)時(shí)間。表中引用數(shù)據(jù)均直接引自相應(yīng)文獻(xiàn),所有測(cè)試結(jié)果均來(lái)自MOT Challenge官方評(píng)估網(wǎng)站(https://motchallenge.net/)。
表4 不同算法在MOT17測(cè)試集上的對(duì)比Table 4 Comparison of different algorithms on MOT17 test set
可以看出,two-step方法不僅有較高的跟蹤精度,且得益于Re-ID 模塊的單獨(dú)訓(xùn)練,有更少的ID 切換,但FPS 很低,達(dá)不到實(shí)時(shí)跟蹤。與two-step 相比,one-shot方法的跟蹤速度有明顯提高,同時(shí)有領(lǐng)先two-step方法的跟蹤效果。本文算法與不同two-step和one-shot算法對(duì)比,都有較高的跟蹤精度(MOTA)和ID 識(shí)別效果(IDF1)。雖然ID 切換次數(shù)較多,但有較高的軌跡命中率MT 和更低的軌跡丟失率ML。其中CenterTrack 和FairMOT都是基于中心點(diǎn)檢測(cè)的多目標(biāo)跟蹤算法,本文針對(duì)中心點(diǎn)檢測(cè)在MOT中存在的檢測(cè)偏差和Re-ID可學(xué)習(xí)特征不充足等問(wèn)題進(jìn)行改進(jìn)后,獲得了更好的跟蹤效果。由于FairMOT未提供使用MOT17訓(xùn)練的完整測(cè)試結(jié)果,缺少M(fèi)T和ML,為充分對(duì)比測(cè)試效果,在表4中增加復(fù)現(xiàn)結(jié)果。復(fù)現(xiàn)數(shù)據(jù)相比引用數(shù)據(jù)有一些浮動(dòng),但整體效果相似,結(jié)果表明本文算法依然有更好的跟蹤效果。同時(shí)因提出算法僅針對(duì)訓(xùn)練過(guò)程進(jìn)行優(yōu)化,未增加在線跟蹤過(guò)程的計(jì)算成本,所以有較高的跟蹤速度,兼顧了實(shí)時(shí)性與準(zhǔn)確性。
為對(duì)比不同模塊對(duì)算法性能的提升,在MOT16 訓(xùn)練集上做相應(yīng)消融實(shí)驗(yàn),如表5 所示。結(jié)果表明,對(duì)熱力圖響應(yīng)值進(jìn)行約束后,MOTA和IDF1均有提升,但會(huì)增加IDs。Re-ID可學(xué)習(xí)特征擴(kuò)充能有效提升模型ID識(shí)別性能,IDF1 提高1.3%,并且能少量降低ID 切換數(shù)。同時(shí),兩種方法均能提高軌跡命中率MT,并降低軌跡丟失率ML。且改進(jìn)方法僅針對(duì)訓(xùn)練過(guò)程,未增加在線跟蹤過(guò)程的計(jì)算成本,最終在不影響推理速度的情況下,本文算法MOTA提高了1.7%,IDF1提高了2.3%,MT和ML也均有改善。
表5 消融實(shí)驗(yàn)Table 5 Ablation experiment
為驗(yàn)證算法的有效性,在MOT16 數(shù)據(jù)集上做改進(jìn)前后的可視化對(duì)比分析。首先對(duì)熱力圖響應(yīng)值約束效果進(jìn)行分析,圖6 為截取不同情況下的目標(biāo)熱力圖對(duì)比,分別為GT 熱力圖和改進(jìn)前后的預(yù)測(cè)熱力圖。其中三角標(biāo)注為目標(biāo)GT 位置,菱形標(biāo)注為熱力圖的最高響應(yīng)值位置,即預(yù)測(cè)目標(biāo)位置,坐標(biāo)軸標(biāo)注為熱力圖中的坐標(biāo)位置??梢钥闯?,經(jīng)過(guò)響應(yīng)值約束后,圖6(a)和圖6(b)的預(yù)測(cè)目標(biāo)位置均修正到GT位置,圖6(c)的預(yù)測(cè)位置也向GT 位置逼近,說(shuō)明了熱力圖響應(yīng)值約束的有效性。
圖7為改進(jìn)前后的跟蹤效果對(duì)比,對(duì)比目標(biāo)的軌跡位于目標(biāo)中心且與檢測(cè)框顏色相同,其余目標(biāo)軌跡位于檢測(cè)框底部,圖中僅保留當(dāng)前目標(biāo)的前20 幀軌跡??梢钥闯龈倪M(jìn)前,圖7(a)在由近及遠(yuǎn)的尺度變化和人群遮擋后,圖7(b)在經(jīng)過(guò)遮擋,圖7(c)在經(jīng)過(guò)由遠(yuǎn)及近的尺度變化和人群遮擋后,ID均發(fā)生改變,目標(biāo)軌跡無(wú)法長(zhǎng)久保持,導(dǎo)致跟蹤效果下降。重識(shí)別加強(qiáng)后,每組目標(biāo)均能繼續(xù)保持ID,證明提出算法有效提高了跟蹤魯棒性。
本文對(duì)基于中心點(diǎn)檢測(cè)的多目標(biāo)跟蹤算法存在Re-ID 表觀特征模糊的問(wèn)題進(jìn)行研究,發(fā)現(xiàn)Re-ID 特征圖的可學(xué)習(xí)特征范圍較小,在跟蹤時(shí),特征向量的選擇易受檢測(cè)精度的影響,使ID特征的表觀信息模糊,不足以區(qū)分目標(biāo),影響ID 重識(shí)別效果。本文通過(guò)對(duì)預(yù)測(cè)熱力圖響應(yīng)值增加平滑約束,來(lái)緩解檢測(cè)中心點(diǎn)偏移情況,并對(duì)可學(xué)習(xí)特征做自適應(yīng)擴(kuò)充,提高特征質(zhì)量,同時(shí)減輕Re-ID 對(duì)檢測(cè)性能的依賴(lài)。實(shí)驗(yàn)結(jié)果和可視化分析表明,提出算法能有效解決上述問(wèn)題,提高Re-ID 性能,不僅有更好地跟蹤效果,且能達(dá)到實(shí)時(shí)性要求。未來(lái)的工作針對(duì)如何提高模型在昏暗和強(qiáng)光等復(fù)雜環(huán)境下的跟蹤效果進(jìn)行探索研究。