張 瑤,盧煥章,張路平,胡謀法
國防科技大學(xué) 電子科學(xué)學(xué)院 自動目標(biāo)識別重點實驗室,長沙410073
隨著人工智能技術(shù)的飛速發(fā)展,基于計算機視覺技術(shù)的智能監(jiān)控系統(tǒng)、自動駕駛領(lǐng)域較以往取得了重大的突破,進一步減少了人力資源的浪費,提高了安防和交通領(lǐng)域的安全性。視覺多目標(biāo)跟蹤技術(shù)是這些領(lǐng)域中的關(guān)鍵基礎(chǔ)性技術(shù)之一,視覺多目標(biāo)跟蹤算法的準(zhǔn)確魯棒性對于進一步提升高層智能應(yīng)用的安全有效性具有重要意義。然而,當(dāng)前視覺多目標(biāo)跟蹤技術(shù)還面臨著較大的挑戰(zhàn),首先,視覺多目標(biāo)跟蹤需要解決單目標(biāo)跟蹤中存在的諸如目標(biāo)形變、場景環(huán)境變化等挑戰(zhàn)之外,還面臨著由于目標(biāo)數(shù)量不確定所帶來的實時目標(biāo)數(shù)量更新及維持目標(biāo)各自身份(Identity,ID)的任務(wù),因此視覺多目標(biāo)跟蹤還需要處理更為復(fù)雜關(guān)鍵的問題諸如:目標(biāo)數(shù)量不確定、頻繁目標(biāo)遮擋、同類目標(biāo)的相似度區(qū)分等。具體來說,在安防監(jiān)控和自動駕駛應(yīng)用中,目標(biāo)頻繁進出視野是普遍且正常的行為,這就導(dǎo)致了多目標(biāo)跟蹤所面對的目標(biāo)數(shù)量是不確定的,這就要求多目標(biāo)跟蹤算法必須具備實時檢測定位場景中出現(xiàn)的感興趣目標(biāo)數(shù)量。在場景復(fù)雜的情況下,背景對于目標(biāo)的遮擋,以及目標(biāo)與目標(biāo)的遮擋會造成目標(biāo)遮擋再出現(xiàn)時目標(biāo)身份切換(ID switch,IDs),這就要求算法必須提取到魯棒的目標(biāo)特征,在短時和長時的遮擋過后,保持遮擋前后目標(biāo)ID一致性。多目標(biāo)跟蹤任務(wù)要求維持同一目標(biāo)的ID,同類目標(biāo)表觀相似度較高且具備相似的行為,對穩(wěn)定維持正確目標(biāo)ID 帶來了進一步的挑戰(zhàn),算法必須具備提取同類目標(biāo)可分性特征。
視覺多目標(biāo)跟蹤的目的是利用數(shù)字圖像處理技術(shù)穩(wěn)定跟蹤圖像序列中的多個感興趣目標(biāo),得到各個目標(biāo)在每一時刻正確位置。近幾年隨著基于深度學(xué)習(xí)檢測算法的精度較傳統(tǒng)算法性能大幅度提高,視覺多目標(biāo)跟蹤隨之取得了較大的突破?;谏疃葘W(xué)習(xí)的視覺多目標(biāo)跟蹤算法的應(yīng)用基本覆蓋了空海地多個典型場景[1-3],但較為詳細的關(guān)于視覺多目標(biāo)跟蹤綜述論文較少,已有的相關(guān)綜述[4-5]一部分是基于傳統(tǒng)方法的在雷達領(lǐng)域應(yīng)用較多且運算比較復(fù)雜的數(shù)據(jù)關(guān)聯(lián)算法,與當(dāng)前主流的多目標(biāo)跟蹤方法存在較大的差異,另一部分較新的關(guān)注了基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤方法,重點是基于檢測的多目標(biāo)跟蹤方法[6-7]。本文根據(jù)視覺多目標(biāo)跟蹤框架的不同,將基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤方法分為DBT與JDT兩類算法展開論述,闡述深度學(xué)習(xí)在兩種框架中的模塊功能及優(yōu)缺點,結(jié)合公開數(shù)據(jù)集對比分析基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤方法,通過進一步提升檢測器性能、更好地在多目標(biāo)跟蹤任務(wù)中融合單目標(biāo)跟蹤、拓展基于深度學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)等方面提升多目標(biāo)跟蹤的性能。
本文第1 章首先對基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤技術(shù)及相關(guān)數(shù)據(jù)集進行總體概述,在第2 章和第3 章分別闡述基于深度學(xué)習(xí)的DBT與JDT兩種視覺多目標(biāo)跟蹤框架,第4章對近年來在公開數(shù)據(jù)集中性能優(yōu)異的視覺多目標(biāo)跟蹤方法進行實驗比較分析,第5章基于前面的討論,對未來可能研究方向進行展望。
基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤算法從不同的角度有不同的綜述方法,本文結(jié)合該領(lǐng)域最新技術(shù)的發(fā)展趨勢,從算法分類、相關(guān)數(shù)據(jù)集、算法評價指標(biāo)三個方面對基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤進行概述。
隨著深度學(xué)習(xí)技術(shù)在與視覺多目標(biāo)跟蹤相關(guān)任務(wù)中的應(yīng)用且取得的巨大成功,當(dāng)前基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤技術(shù)框架呈現(xiàn)較為兩階段模式,即基于目標(biāo)檢測結(jié)果進行數(shù)據(jù)關(guān)聯(lián)實現(xiàn)多目標(biāo)跟蹤的DBT 模式。DBT 是當(dāng)前基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤中的主流方法,但是從深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來看,DBT中的子模塊如特征提取等可以融合在目標(biāo)檢測網(wǎng)絡(luò)中,基于DBT中子模塊的融合,聯(lián)合檢測跟蹤,即JDT模式,用一個深度網(wǎng)絡(luò)框架實現(xiàn)視覺多目標(biāo)跟蹤是近兩年發(fā)展的新趨勢。
基于上述分析,本文將基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤技術(shù)分為基于深度學(xué)習(xí)的DBT與基于深度學(xué)習(xí)的JDT 模式,再具體分析兩種模式的結(jié)構(gòu),闡述深度學(xué)習(xí)在這兩種框架中實現(xiàn)的功能,具體分類結(jié)構(gòu)如圖1 所示。同時先將文中典型的基于深度學(xué)習(xí)的DBT算法及JDT 算法的特點、優(yōu)缺點等整理成表1[8-11]和表2[12-15]所示,后續(xù)在文中再對各個流派中的算法進行詳細展開,拓展分析。
圖1 基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤算法分類
表1 基于深度學(xué)習(xí)的DBT算法
表2 基于深度學(xué)習(xí)的JDT算法
深度學(xué)習(xí)相較于傳統(tǒng)機器學(xué)習(xí)方法的優(yōu)勢在于自動學(xué)習(xí)給定數(shù)據(jù)中適用于指定任務(wù)的特征,數(shù)據(jù)集對于基于深度學(xué)習(xí)的計算機視覺方法非常重要。因此,對當(dāng)前在視覺多目標(biāo)跟蹤任務(wù)中常用的數(shù)據(jù)集進行搜集概述得到結(jié)果如表3 所示。當(dāng)前90%以上的視覺多目標(biāo)跟蹤算法應(yīng)用領(lǐng)域都集中在行人和車輛目標(biāo),行人和車輛多目標(biāo)跟蹤數(shù)據(jù)集成為主流,這也與近十年來視覺多目標(biāo)跟蹤算法數(shù)據(jù)集引用頻率結(jié)果相對應(yīng)。Multiobject Tracking(MOT)行人數(shù)據(jù)集[16-18]由于更新頻率高,數(shù)據(jù)集場景更貼合現(xiàn)實等因素,許多最新的性能表現(xiàn)優(yōu)秀的算法都在MOT數(shù)據(jù)集中進行驗證,MOT數(shù)據(jù)集已經(jīng)成為了視覺多目標(biāo)跟蹤領(lǐng)域最令人關(guān)注的數(shù)據(jù)集,因此,本文重點對MOT數(shù)據(jù)集進行闡述。
表3 視覺多目標(biāo)跟蹤數(shù)據(jù)集總結(jié)
MOT 數(shù)據(jù)集源于MOTChellenge 多目標(biāo)跟蹤挑戰(zhàn)賽,針對目標(biāo)檢測器性能對最終評價指標(biāo)影響過大,將賽道分為基于公開檢測的賽道和基于私人檢測的賽道,MOT數(shù)據(jù)集詳情如表4所示。其中MOT15是采集舊的數(shù)據(jù)集視頻進行修正,而MOT16是全新的數(shù)據(jù)集,相對MOT15 行人密度更高、難度更大,MOT17 的視頻內(nèi)容與MOT16一致,但提供了3個檢測器檢測結(jié)果,MOT20是最新發(fā)布的MOT 數(shù)據(jù)集,增加了8 個全新的稠密人群視頻系列,行人密度進一步增加。
表4 MOT數(shù)據(jù)集
為了客觀公平地比較視覺多目標(biāo)跟蹤算法的性能表現(xiàn),設(shè)置合理精確的評價指標(biāo)尤為重要。目前視覺多目標(biāo)跟蹤算法中使用的指標(biāo)有經(jīng)典的CLEAR MOT指標(biāo)[19]、較新的ID 指標(biāo)[20],再加上多數(shù)跟蹤正確軌跡(Mostly Tracked trajectories,MT)、多數(shù)跟蹤失敗軌跡(Mostly Lost trajectories,ML),其中CLEAR MOT 評價指標(biāo)是最為重要的體現(xiàn)算法性能的評價指標(biāo),下面對CLEAR MOT進行介紹。
CLEAR MOT 根據(jù)目標(biāo)跟蹤框與觀測框IOU 閾值及目標(biāo)跟蹤的正確穩(wěn)定性,建立基礎(chǔ)的評估指標(biāo)如下所示。
錯誤正樣本(False Positive,F(xiàn)P):整個視頻中被預(yù)測為正的負樣本數(shù)。
錯誤負樣本(False Negatives,F(xiàn)N):整個視頻中被預(yù)測為負的正樣本數(shù)。
IDs:跟蹤過程中目標(biāo)ID切換總數(shù)。
基于這3個基礎(chǔ)性指標(biāo),構(gòu)建最常用的多目標(biāo)跟蹤準(zhǔn)確度(Multiple Object Ttacking Accuracy,MOTA)和多目標(biāo)跟蹤精度(Multiple Object Ttacking Precision,MOTP)如式(1)和(2)所示:
其中,GT是所有真實值的數(shù)目,dt,i和ct分別表示匹配對之間的距離度量和第t幀匹配成功的檢測框數(shù)目。MOTA基于FN、FP、IDs綜合判定跟蹤錯誤次數(shù),體現(xiàn)跟蹤算法的準(zhǔn)確度,而MOTP 則更偏向于檢測器,主要根據(jù)目標(biāo)預(yù)測框和真實值的邊界框重疊度計算跟蹤精度。
DBT的一般流程圖如圖2所示,由于相似度分析與特征提取同步進行,因此下面根據(jù)深度學(xué)習(xí)在目標(biāo)檢測、特征提取、數(shù)據(jù)關(guān)聯(lián)3 個主模塊中實現(xiàn)的功能和在多目標(biāo)跟蹤中提高的性能效果展開論述。
圖2 DBT框架視覺多目標(biāo)跟蹤流程圖
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)模型不斷發(fā)展完善[21],深度學(xué)習(xí)在圖像分類任務(wù)的優(yōu)異表現(xiàn)甚至超過人類,基于CNN的目標(biāo)檢測算法也隨之取得了飛速的發(fā)展。從2014年至今,Region-based Convolutional Neural Networks(R-CNN)系列檢測器[22-24]、Single Shot MultiBox Detector[25](SSD)、You Only Look Once(YOLO)系列檢測器[26-29]等一批優(yōu)秀的開源深度神經(jīng)網(wǎng)絡(luò),大幅度增強了目標(biāo)檢測能力?;趩螏瑘D像檢測能力的增強,多目標(biāo)跟蹤任務(wù)呈現(xiàn)出從初始的關(guān)注計算量復(fù)雜的數(shù)據(jù)關(guān)聯(lián)優(yōu)化算法如聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)[30](Joint Probabilistic Data Association,JPDA)和多假設(shè)跟蹤[31](Multiple Hypothesis Tracking,MHT)趨向于依賴于檢測結(jié)果的DBT框架。
SORT[9]是最早利用卷積神經(jīng)網(wǎng)絡(luò)檢測行人的多目標(biāo)跟蹤算法之一,該算法在傳統(tǒng)的匈牙利關(guān)聯(lián)算法基礎(chǔ)上,將Aggregate Channel Feature(ACF)檢測替換為Faster R-CNN 目標(biāo)檢測網(wǎng)絡(luò),在MOT15 行人數(shù)據(jù)集上取得了驚人的突破,將多目標(biāo)跟蹤準(zhǔn)確度提高了18.9%,算法的運行速度高達60 Hz。該算法的突出表現(xiàn),引起了研究者的廣泛關(guān)注,但是該算法的數(shù)據(jù)關(guān)聯(lián)部分僅簡單地依賴于檢測框的交并比(Intersetion over Union,IOU),造成對于目標(biāo)的相互遮擋適應(yīng)性不強,密集行人的跟蹤效果較差,它的后續(xù)改良版本是DeepSort[10],與SORT相比,進一步提取穩(wěn)定的表觀特征,提高了目標(biāo)遮擋情況下算法的表現(xiàn),但也大幅度降低了算法的運行速度。針對Faster R-CNN檢測器帶來的復(fù)雜計算量以及檢測質(zhì)量不佳的問題,Yu 等[32]通過去池化[33]和提取多尺度特征[34]技術(shù)改進適用于多目標(biāo)跟蹤任務(wù)的Faster R-CNN,使得檢測模塊的精度和速度上進一步提高,同時證明了在具備高質(zhì)量檢測結(jié)果后可以減少多目標(biāo)跟蹤數(shù)據(jù)關(guān)聯(lián)部分的復(fù)雜度而可以達到相近的多目標(biāo)跟蹤結(jié)果。
SSD、YOLO 等深度網(wǎng)絡(luò)檢測器同樣被一些學(xué)者引入視覺多目標(biāo)跟蹤。Zhang 等[35]、Lu 等[36]使用單階段的SSD作為檢測器,分別實現(xiàn)了對單類目標(biāo)和多類目標(biāo)的多目標(biāo)跟蹤任務(wù),由于YOLO 系列具有更快的檢測速度,后續(xù)的YOLO版本更是在目標(biāo)檢測精度與目標(biāo)速度上達到了均衡,也常被用為視覺多目標(biāo)跟蹤的檢測模塊。Kim 等[37]針對行人密集情況下進行多目標(biāo)跟蹤的計算花銷過大,引入YOLO算法在檢測階段進一步降低了計算量。高新聞等[38]將YOLO v3 作為檢測器,結(jié)合SORT 算法的框架,成功地將SORT 算法應(yīng)用于實際的交通異常監(jiān)控中,但是對于場景中目標(biāo)較多的情況下產(chǎn)生較多的IDs。
視覺多目標(biāo)跟蹤任務(wù)中,通常關(guān)注目標(biāo)的表觀特征和運動特征,下面分為基于深度學(xué)習(xí)的表觀特征提取和運動特征提取進行展開。
2.2.1 基于深度學(xué)習(xí)的表觀特征提取
面向目標(biāo)跟蹤任務(wù),基于深度學(xué)習(xí)的表觀特征提取的是目標(biāo)同類可分性特征,提取的表觀特征是更類似于視覺身份重識別(Re-identification,REID)領(lǐng)域所提取的特征。目前,基于行人的REID 已經(jīng)取得了較大的進展[39],根據(jù)表觀特征提取網(wǎng)絡(luò)結(jié)構(gòu)可劃分為基于經(jīng)典的CNN和基于孿生網(wǎng)絡(luò)[40]兩類。
Wang等[41]首先提出了在多目標(biāo)跟蹤中使用深度學(xué)習(xí)提取表觀特征的方法,提出了一個自編碼器網(wǎng)絡(luò),用于改進提取的視覺特征,將多目標(biāo)關(guān)聯(lián)任務(wù)轉(zhuǎn)換為最小生成樹問題,提取到的特征大幅改善了多目標(biāo)跟蹤算法的性能,實驗結(jié)果表明了基于深度學(xué)習(xí)的表觀特征提取對于視覺多目標(biāo)跟蹤性能的提升。受此啟發(fā),Kim 等[8]嘗試在傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)算法中基于深度學(xué)習(xí)方法提取表觀特征,使用預(yù)先訓(xùn)練的CNN 將提取的視覺特征嵌入到MHT算法中,實驗表明傳統(tǒng)的MHT數(shù)據(jù)關(guān)聯(lián)算法MOTA 較之前提高了3 個百分點,但是MHT 固有的隨目標(biāo)數(shù)量增加所帶來的復(fù)雜計算量仍限制其進一步提升性能。受到深層骨干網(wǎng)絡(luò)對于圖像分類的加成作用啟發(fā),Yu等[32]使用改進的GoogleNet[42]在大規(guī)模REID數(shù)據(jù)集中進行預(yù)訓(xùn)練,將獲得的表觀特征與空間運動特征相結(jié)合獲得更為精確的代價矩陣。SORT 的改進版是DeepSORT,其改進在于加入了基于ResNet 網(wǎng)絡(luò)[43]提取的預(yù)訓(xùn)練表觀特征向量,將特征之間的余弦距離作為代價矩陣嵌入SORT 算法,較好地解決了SORT 算法中存在的明顯IDs 問題。后續(xù)許多學(xué)者如Mahmoudi 等[44]、Bea等[45]、Fang等[46]、Sheng等[47]、Chen等[48]也都采用類似的GoogleNet、ResNet、InceptionNet[49]等CNN 網(wǎng)絡(luò),通過改變?nèi)蝿?wù)相關(guān)的訓(xùn)練數(shù)據(jù),改進相關(guān)的損失函數(shù),學(xué)習(xí)得到具備同類目標(biāo)之間可區(qū)分的表觀特征,嘗試提取更為魯棒的表觀特征,但是特征提取骨干網(wǎng)絡(luò)的加深并未給多目標(biāo)跟蹤性能帶來進一步突破性的提升。除了改善升級骨干網(wǎng)絡(luò)之外,候建華等[50]引進視覺注意力機制,有效克服了遮擋問題后,針對其在特征融合階段易丟失不同通道空域結(jié)構(gòu)信息的不足進行了改進,提出用交并比代替加權(quán)池化進行特征融合,提高了關(guān)聯(lián)精度。目前通過經(jīng)典CNN獲取目標(biāo)表觀特征效果最顯著的是文獻[51]提出的AP_HWDPL_p,它利用多個CNN 的特征融合得到目標(biāo)的表觀特征,同時為每個目標(biāo)對象保留歷史外觀模型,在MOT 數(shù)據(jù)集上的獲得了較為靠前的排名,但是設(shè)計的CNN結(jié)構(gòu)過于復(fù)雜,運算量巨大。
除了經(jīng)典的CNN 網(wǎng)絡(luò)之外,孿生網(wǎng)絡(luò)是當(dāng)前提取同類目標(biāo)可區(qū)分表觀特征的代表性網(wǎng)絡(luò)。Kim 等[52]提出了使用對比損失進行訓(xùn)練的孿生網(wǎng)絡(luò)如圖3所示,當(dāng)前獲取目標(biāo)REID 特征的主流方式是基于損失函數(shù)的REID算法,通過改進損失函數(shù),獲取更具同類目標(biāo)區(qū)分度的表觀特征。其中,Zhang等[53]提出了一個損失函數(shù),稱為SymTriplet損失,獨特點在于這個網(wǎng)絡(luò)結(jié)構(gòu)具有三條相同的CNN支路,訓(xùn)練階段輸入三個圖像目標(biāo),形成兩個正負對,通過SymTriplet使得網(wǎng)絡(luò)學(xué)習(xí)到同一目標(biāo)獨特的表觀特征。Leal-Taixé 等[54]提出了一種Siamese CNN,輸入兩個包含目標(biāo)的圖像塊,輸出兩個圖像中目標(biāo)屬于同一目標(biāo)的概率,使用類似的輸出對網(wǎng)絡(luò)進行訓(xùn)練以學(xué)習(xí)到最具代表性的表觀特征。Son等[55]提出了一種新的類孿生網(wǎng)絡(luò)體系結(jié)構(gòu),稱為Quad-CNN,該模型在三條CNN 支路的基礎(chǔ)上又增加了一條支路,采取類似的損失函數(shù)訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)使用學(xué)習(xí)到的嵌入表觀特征進行兩次檢測,正確判決了檢測結(jié)果為同一目標(biāo)的概率。隨著孿生網(wǎng)絡(luò)結(jié)構(gòu)分支從兩個到四個的增加以及對應(yīng)損失函數(shù)的改進結(jié)果表明了多支路的孿生網(wǎng)絡(luò)對于跟蹤任務(wù)具備更好的適用性。除了CNN 網(wǎng)絡(luò)外,魏穎等[56]嘗試用生成對抗網(wǎng)絡(luò)學(xué)習(xí)到目標(biāo)的主要特征與精細特征,并同樣用生成對抗網(wǎng)絡(luò)生成多目標(biāo)運動軌跡,實驗表明該試驗減少了IDs,但是準(zhǔn)確度的提升并不高。
圖3 孿生網(wǎng)絡(luò)結(jié)構(gòu)圖
2.2.2 基于深度學(xué)習(xí)的運動特征提取
除了表觀特征外,運動特征也是多目標(biāo)跟蹤中常提取的有效特征,但是通過深度學(xué)習(xí)提取運動特征通常網(wǎng)絡(luò)結(jié)構(gòu)更為復(fù)雜,計算量較大。因此,大多數(shù)的多目標(biāo)跟蹤算法中更趨向于基于深度學(xué)習(xí)提取更精確的表觀特征,采用較為簡單的傳統(tǒng)方法提取運動特征作為輔助特征。
但為了解決在復(fù)雜場景下,表觀特征難以獲取的情況,僅利用運動特征完成跟蹤任務(wù)非常必要。一些學(xué)者利用深度學(xué)習(xí)方法進行運動特征提取作了許多工作。Rosello等[57]在算法中用強化學(xué)習(xí)框架得到運動特征,沒有采用任何視覺信息,因此作者認為該算法可以改善經(jīng)典算法性能受視覺特征影響很大的不足,但由于在訓(xùn)練數(shù)據(jù)集上進行測試,因此實驗結(jié)果并不可靠。此外,Babaee 等[58]提出了一種長短時記憶網(wǎng)絡(luò)(Long Shot Memory Network,LSTM),該LSTM學(xué)習(xí)圖像目標(biāo)序列過去的運動特征,再預(yù)測當(dāng)前目標(biāo)的運動特征,結(jié)合IOU使用貪婪算法得到多目標(biāo)跟蹤結(jié)果,由于網(wǎng)絡(luò)學(xué)習(xí)到了大量過去幀的目標(biāo)運動,該方法有效地減少了目標(biāo)IDs頻率。
DBT模式中,優(yōu)化算法和關(guān)聯(lián)代價是數(shù)據(jù)關(guān)聯(lián)的兩大關(guān)鍵部分。目前,基于深度學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)算法偏向于獲取有效的深度特征提升關(guān)聯(lián)度量部分,在優(yōu)化算法提升較少。
2.3.1 基于深度學(xué)習(xí)數(shù)據(jù)關(guān)聯(lián)DBT算法分析
當(dāng)前,基于深度學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)方法更多的是設(shè)計合理的融合表觀特征和運動特征的代價矩陣,從而簡單的進行相鄰幀的匹配[59]。直接基于深度學(xué)習(xí)用于數(shù)據(jù)關(guān)聯(lián)算法執(zhí)行跟蹤算法仍處于起步階段,Xu 等[60]提出的TrctrD15 算法直接根據(jù)視覺多目標(biāo)跟蹤的評價指標(biāo)特性設(shè)置損失函數(shù),設(shè)計了一個深度匈牙利網(wǎng)絡(luò),輸入相鄰幀目標(biāo)之間的距離矩陣,直接輸出有利于提高評測指標(biāo)的代價矩陣,這種訓(xùn)練方式提升了多目標(biāo)跟蹤的性能指標(biāo),但是將匈牙利算法替換為深度匈牙利網(wǎng)絡(luò)帶來了更多的計算,影響算法的運行速度。針對各種數(shù)據(jù)關(guān)聯(lián)階段計算量復(fù)雜的問題,Pang 等[11]提出的TubeTK 克服了提取REID 特征帶來了計算量,直接通過對目標(biāo)的時空位置和局部移動軌跡進行編碼,一步到位跟蹤多個目標(biāo),不受外部檢測結(jié)果的影響,也得到了當(dāng)時最先進的性能。基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在運動預(yù)測和狀態(tài)更新任務(wù)上表現(xiàn)良好,使用RNN 網(wǎng)絡(luò)或其衍生網(wǎng)絡(luò)可以更好地保留歷史信息,得到更準(zhǔn)確的目標(biāo)關(guān)聯(lián)結(jié)果。Fang 等[61]提出的RAR15 在RNN 的基礎(chǔ)上,提出一個循環(huán)自回歸網(wǎng)絡(luò)(Recurrent Autoregressive Network,RAN),通過耦合內(nèi)外存儲結(jié)構(gòu)描述隨時間變化的多目標(biāo)表觀和運動狀態(tài)變化,通過RAN的外層記憶每個軌跡的先前輸入,而內(nèi)部存儲結(jié)構(gòu)處理外部存儲結(jié)構(gòu)學(xué)習(xí)總結(jié)長期跟蹤軌跡并關(guān)聯(lián)檢測,其有效性在MOT15及MOT16中高度擁擠和遮擋場景中得到驗證,但RAN 結(jié)構(gòu)對于長期跟蹤存在優(yōu)勢,對于存在視野中時間較短的目標(biāo)跟蹤效果較差。Kim 等[62]針對結(jié)合長期表觀模型也難以有效解決目標(biāo)嚴(yán)重遮擋和多次漏檢情況下的困境,提出一種新型的雙線型LSTM 改進長期表觀模型,改進在于將傳統(tǒng)LSTM中的加性耦合改變?yōu)槌诵择詈?,跟蹤性能有部分提升,但沒有完全學(xué)習(xí)好目標(biāo)的時空特征。Milan等[63]、Yoon等[64]類似地利用RNN及其衍生網(wǎng)絡(luò)得到幀間目標(biāo)的關(guān)聯(lián)信息實現(xiàn)多目標(biāo)跟蹤數(shù)據(jù)關(guān)聯(lián)問題。
楊博等[65]在基于紅外目標(biāo)特性的基礎(chǔ)上,由于目標(biāo)的特殊性,其采取兩層數(shù)據(jù)關(guān)聯(lián)的方式,在未借助深度學(xué)習(xí)的情況下獲得了更為精確的結(jié)果,提高了算法的抗干擾性能,但手工特征較差,效果有待進一步加強。基于這種策略,高燕[66]和方嵐等[67]在分層關(guān)聯(lián)策略基礎(chǔ)上,進一步通過深度學(xué)習(xí)提高提取外觀特征的手段,改善了長時多目標(biāo)跟蹤及遮擋情況下的跟蹤準(zhǔn)確度。
2.3.2 基于深度學(xué)習(xí)數(shù)據(jù)關(guān)聯(lián)算法輕量化分析
通過2.3.1小節(jié)基于深度學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)方法研究距離現(xiàn)實應(yīng)用還存在一定距離,主要體現(xiàn)在算法進行特征提取關(guān)聯(lián)度量的過程存在較為復(fù)雜的計算量,在實際算法進行邊緣化設(shè)備部署時算法的性能往往不佳。
關(guān)聯(lián)度量過程的主要計算量來自于基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的特征提取,因此通過對當(dāng)前神經(jīng)網(wǎng)絡(luò)主流輕量化方法列舉如表5 所示。主流的神經(jīng)網(wǎng)絡(luò)輕量化可以運用到多目標(biāo)跟蹤的數(shù)據(jù)關(guān)聯(lián)部分,用以提升算法的運行速度。
表5 主流神經(jīng)網(wǎng)絡(luò)輕量化趨勢
另一方面,從數(shù)據(jù)關(guān)聯(lián)DBT算法自身設(shè)計出發(fā),從SORT 中可知,通過單純引入簡單的特征可以實現(xiàn)快速的檢測目標(biāo)數(shù)據(jù)關(guān)聯(lián),缺點在于存在較多的IDs,而此后的DBT類算法著重于提高多目標(biāo)跟蹤算法的跟蹤準(zhǔn)確度及減少IDs,引入各種復(fù)雜的表觀特征根及運動特征,加之各種深度學(xué)習(xí)模塊技巧的堆疊,多目標(biāo)跟蹤算法設(shè)計得越來越臃腫。DBT類算法中,由于檢測模塊與數(shù)據(jù)關(guān)聯(lián)模塊的分離,使得兩個模塊之間的融合度較差,檢測模塊與數(shù)據(jù)關(guān)聯(lián)模塊中存在較多的冗余,因此,JDT類算法框架可以降低兩者間的冗余,通過共享同一網(wǎng)絡(luò)結(jié)構(gòu),降低算法復(fù)雜度的同時通過增加子模塊之間的耦合度還可以進一步增加算法的準(zhǔn)確度。
近兩年興起的JDT類算法框架在減輕了DBT類框架復(fù)雜度的同時,也提高了多目標(biāo)跟蹤的精度。它的策略是在DBT的基礎(chǔ)上對部分功能模塊進行一定程度上的融合,降低分階段處理帶來的算法復(fù)雜性同時增加功能模塊之間的耦合度??傮w來說有三個方向,首先結(jié)合深度神經(jīng)網(wǎng)絡(luò)的特性,改造檢測網(wǎng)絡(luò),將跟蹤任務(wù)融入進檢測網(wǎng)絡(luò),使網(wǎng)絡(luò)學(xué)習(xí)到序列幀目標(biāo)之間的關(guān)聯(lián)概率;其次,利用單目標(biāo)跟蹤任務(wù)與多目標(biāo)跟蹤任務(wù)之間強烈的關(guān)聯(lián)性,融合單目標(biāo)跟蹤領(lǐng)域優(yōu)秀的算法;此外,在一個網(wǎng)絡(luò)中同時學(xué)習(xí)到表觀和運動特征,實現(xiàn)深度特征的融合。
從上述分析可知,多目標(biāo)跟蹤的結(jié)果對于前端的目標(biāo)檢測網(wǎng)絡(luò)依賴性很高,為了進一步實現(xiàn)算法的簡潔性,實現(xiàn)檢測跟蹤兩階段的權(quán)值共享,改進高性能的目標(biāo)檢測網(wǎng)絡(luò)用以實現(xiàn)多目標(biāo)跟蹤算法成為了近年提高多目標(biāo)跟蹤評價指標(biāo)的研究熱點。
文獻[68]最先嘗試改進目標(biāo)檢測網(wǎng)絡(luò)加入跟蹤分支,將兩階段的R-FCN[69]目標(biāo)檢測網(wǎng)絡(luò)的第一階段所獲得的多尺度特征圖進行交互,第二階段增加了一個偏移量回歸的任務(wù),即將多目標(biāo)跟蹤任務(wù)轉(zhuǎn)換為相鄰兩幀圖像目標(biāo)位置的相對偏移量的匹配問題,實驗驗證算法有效地提高了視覺多目標(biāo)跟蹤的精度和速度。但是實質(zhì)上仍然是兩階段的多目標(biāo)跟蹤算法,為了進一步融合跟蹤模塊,Bergmann 等[12]提出全新的聯(lián)合檢測跟蹤Tracktor++框架,將類似Faster R-CNN中的RPN模塊用數(shù)據(jù)中的跟蹤框與真實框替代,利用簡單輕量的數(shù)據(jù)關(guān)聯(lián)算法實現(xiàn)跟蹤框和觀測框的匹配,用一個深度檢測網(wǎng)絡(luò)生成整個跟蹤序列結(jié)果,在當(dāng)時MOT 挑戰(zhàn)賽排名居于前列,第一次將目標(biāo)檢測和數(shù)據(jù)關(guān)聯(lián)兩個模塊融合,融合之后檢測模塊對于最終的跟蹤結(jié)果更為關(guān)鍵。因此,受Tracktor++框架啟發(fā),Zhang 等[70]進一步改進檢測網(wǎng)絡(luò),增加預(yù)測光流特征模塊,學(xué)習(xí)相鄰幀偏移量。Huang 等[71]也在改進運動模型、表觀模型和數(shù)據(jù)關(guān)聯(lián)部分后,進一步提高了Tracktor++框架的性能表現(xiàn),這種模式的局限性還是在于功能模塊之間的融合度不高。因此,Peng 等[72]提出的CTrack 將目標(biāo)檢測、特征提取、相似度計算3個任務(wù)集成到同一個端對端的網(wǎng)絡(luò)結(jié)構(gòu)中,借助鏈?zhǔn)浇Y(jié)構(gòu)和成對注意力回歸技術(shù)使得CTrack變得簡單快速有效。
針對Trackor++模式,上述改進的不足在于,目標(biāo)檢測算法都是基于錨框,除了在檢測小目標(biāo)和目標(biāo)數(shù)量較多情景下效果不好之外,還帶來了更多的計算量。
Zhou 等[73]受到JDT 模式的啟發(fā),通過將Faster R-CNN變換為基于無錨框模式的CenterNet設(shè)計了一種多目標(biāo)跟蹤算法,即CenterTrack[15],將多目標(biāo)跟蹤問題轉(zhuǎn)化為非常簡單的基于目標(biāo)中心點的跟蹤,同時實現(xiàn)了二維和三維多目標(biāo)跟蹤,包括人和車輛,在MOT、KITTI等數(shù)據(jù)集上均取得了SOTA 的成績。但是其局限性在于CenterTrack 并未提取重識別特征,在目標(biāo)長時丟失情況下IDs 情況較多。同時為了解決CenterTrack 對帶標(biāo)注數(shù)據(jù)的需求,Karthik等[74]提出的UnsupTrack采用無監(jiān)督的方式預(yù)測生成標(biāo)簽并結(jié)合CenterTrack,無需跟蹤監(jiān)督就在流行的公開數(shù)據(jù)集上實現(xiàn)了最新的性能。
單目標(biāo)跟蹤任務(wù)與視覺多目標(biāo)跟蹤任務(wù)具有強相關(guān)性,單目標(biāo)跟蹤算法中具備單個目標(biāo)跟蹤所應(yīng)具備的運動與表觀特征,隨著單目標(biāo)跟蹤領(lǐng)域的快速發(fā)展,近年來融合單目標(biāo)跟蹤進行多目標(biāo)跟蹤的算法也不斷出現(xiàn)。
Zhu 等[75]提出的DMAN 將基于改進版ECO[76]的單目標(biāo)跟蹤模塊嵌入多目標(biāo)跟蹤的網(wǎng)絡(luò)結(jié)構(gòu)中,利用網(wǎng)絡(luò)中包含目標(biāo)定位和分類信息的響應(yīng)圖信息提取到目標(biāo)特征,實現(xiàn)了端對端的多目標(biāo)跟蹤。Chu 等[77]提出的FAMNet和Yin等[78]提出的UMA Tracker,類似地利用單目標(biāo)跟蹤中的孿生網(wǎng)絡(luò)模塊隱式獲得目標(biāo)特征,在數(shù)據(jù)關(guān)聯(lián)模塊分別采取時空注意力機制、降低多幀關(guān)聯(lián)復(fù)雜度等方式,得到了較好的跟蹤結(jié)果,但這種機制不可避免的在目標(biāo)較多及目標(biāo)隨意進出的場景下效果不佳。此外,F(xiàn)eng 等[79]針對遮擋問題導(dǎo)致的目標(biāo)軌跡碎片過多,提出了LSST,借鑒單目標(biāo)跟蹤領(lǐng)域中快速精確的SiamRPN 框架獲取短期的軌跡特征,結(jié)合基于REID 算法提取的表觀特征具備長期穩(wěn)定的特點,在抗遮擋性上算法表現(xiàn)良好。賀思遠[80]基于馬爾科夫決策,針對交通道路場景將目標(biāo)檢測、單目標(biāo)跟蹤、數(shù)據(jù)關(guān)聯(lián)有效結(jié)合,借助快速相關(guān)濾波跟蹤及高性能神經(jīng)網(wǎng)絡(luò),使得算法在速度和精度上均有較好的表現(xiàn),但是缺乏在當(dāng)前主流數(shù)據(jù)集上的驗證。Chu 等[13]提出的KCF 算法結(jié)構(gòu)比較復(fù)雜,設(shè)計了Instance-aware SOT,并對檢測結(jié)果進行校正,及時更新模型等多種手段在MOT 挑戰(zhàn)賽上名列前茅,局限性還是體現(xiàn)在實際應(yīng)用上的算法速度不佳。
融合單目標(biāo)跟蹤融合任務(wù)的JDT 模式優(yōu)勢和劣勢都很明顯,當(dāng)場景中的目標(biāo)數(shù)量較少時,基于單目標(biāo)跟蹤強大的特征提取和定位能力,對于目標(biāo)虛警漏警等問題具備一定的魯棒性,同時可以有效減少常見的目標(biāo)遮擋問題。但是基于單目標(biāo)跟蹤融合模式的多目標(biāo)跟蹤主要問題在于當(dāng)目標(biāo)數(shù)量增加時,對于每一個目標(biāo)都要添加一個單目標(biāo)跟蹤器,效率方面面臨的問題極大,因此,如何更有效地融合單目標(biāo)跟蹤還需要進一步研究。
基于DBT 算法的分析可知,在目標(biāo)檢測網(wǎng)絡(luò)中提取的深度特征和數(shù)據(jù)關(guān)聯(lián)所依賴的深度表觀特征存在差異性,為了增加神經(jīng)網(wǎng)絡(luò)的復(fù)用性以實現(xiàn)特征融合復(fù)用,一些學(xué)者研究在網(wǎng)絡(luò)中融合檢測相關(guān)深度特征和REID特征或融合表觀特征和運動特征。
Wang 等[14]提出了一個JDE 模型,在基于YOLO v3檢測算法的基礎(chǔ)上,將原本基于預(yù)訓(xùn)練模型得到的表觀特征提取網(wǎng)絡(luò)嵌入為深度檢測網(wǎng)絡(luò)中的一部分,實現(xiàn)端對端的視覺多目標(biāo)跟蹤。JDE 將表觀模型嵌入單階的目標(biāo)檢測網(wǎng)絡(luò)中共享網(wǎng)絡(luò)權(quán)值,以便模型可以同時輸出檢測結(jié)果及對應(yīng)的表觀特征,基于這種融合策略提高了多目標(biāo)跟蹤的準(zhǔn)確度和實時性。在JDE 初步將檢測框架與REID融合的基礎(chǔ)上,Zhang等[81]提出FairMot,由于JDE 錨框的存在,當(dāng)目標(biāo)密集度密集度較高時,降低了多目標(biāo)跟蹤的準(zhǔn)確度,采用類似CenterTrack 的無錨框設(shè)計,進一步提高了算法的MOTA 及運行速度。Liang等[82]分析視覺多目標(biāo)跟蹤任務(wù)與REID 中存在的差異,指出任務(wù)的差異導(dǎo)致了與任務(wù)相關(guān)的特征學(xué)習(xí)不準(zhǔn)確,提出一個互相關(guān)網(wǎng)絡(luò),有效促使各個分支學(xué)習(xí)與任務(wù)相關(guān)的表觀學(xué)習(xí),并將整個網(wǎng)絡(luò)集成為一個CSTrack跟蹤網(wǎng)絡(luò),這個端對端的網(wǎng)絡(luò)充分實現(xiàn)了模塊間的特征共享,有效提高了多目標(biāo)跟蹤的精度。
隨著圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)不斷取得突破,GNN 開始應(yīng)用于特征融合并在多目標(biāo)跟蹤中取得了較大的進展。王亞新[83]將CNN與GNN融合于數(shù)據(jù)關(guān)聯(lián)模塊實現(xiàn)了端對端的多目標(biāo)跟蹤網(wǎng)絡(luò),改善了目標(biāo)遮擋和目標(biāo)之間相互遮擋時的跟蹤精度。Liu等[84]提出的GSMTracktor 設(shè)計一種新穎的圖形表示,既考慮單目標(biāo)的特性,又考慮目標(biāo)之間的關(guān)系,同時專門設(shè)計圖形匹配模塊以減輕不可靠關(guān)系的影響。Shan等[85]提出的FUFET 同樣利用GNN 解決目標(biāo)位置、外觀和歷史信息特性的融合,解決不同幀中同一目標(biāo)特征不一致的問題。Wang等[86]提出的GSDT結(jié)合GNN在時間和空間域中對可變大小的目標(biāo)進行建模,整體學(xué)習(xí)用于檢測和數(shù)據(jù)關(guān)聯(lián)的可區(qū)分特征,在MOT 系列數(shù)據(jù)集中進行廣泛實驗證明了基于GNN的JDT模式的有效性。
在一個網(wǎng)絡(luò)中生成多種深度特征并進行相似度計算策略提高了多目標(biāo)跟蹤的準(zhǔn)確性和速度,但是不同特征之間融合比較的有效性還待改善。基于GNN的特征融合近年在多目標(biāo)跟蹤領(lǐng)域的應(yīng)用取得了較大的突破,但是網(wǎng)絡(luò)的復(fù)用和特征的融合生成難度較大,仍然有待進一步研究。
為了對當(dāng)前基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤算法進行比較分析,本章通過MOTChelleng挑戰(zhàn)賽結(jié)果進行分析比對,探究驗證基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤算法性能表現(xiàn)。結(jié)合以下條件,設(shè)計實驗分析表格如表6~9 所示。由第2 章介紹,MOTA 和MOTP 數(shù)值越大越好,F(xiàn)N、FP、IDs越小越好。
(1)由于MOT17 數(shù)據(jù)集內(nèi)容與MOT16 一致,MOT20 參與測試的算法還較少,因此選擇MOT15 和MOT16數(shù)據(jù)集分析算法。
(2)CLEAR MOT評價指標(biāo)雖然存在著過于依賴檢測器的表現(xiàn),但是研究表明這是當(dāng)前最為符合人類視覺判斷的參考指標(biāo)。
(3)由于基于公共檢測和基于私人檢測的算法差異性過大,因此分開討論算法性能,由于現(xiàn)實中應(yīng)用場景更廣的是在線多目標(biāo)跟蹤算法,這里僅分析在線多目標(biāo)算法。
通過表6~9 列舉了不同多目標(biāo)跟蹤算法在MOT15和MOT16 上的CLEAR MOT 指標(biāo)分?jǐn)?shù),根據(jù)數(shù)據(jù)進行總體分析如下:
表6 基于公共檢測多目標(biāo)跟蹤算法MOT15 CLEAR MOT評價指標(biāo)(按MOTA排序)
表7 基于私人檢測多目標(biāo)跟蹤算法MOT15 CLEAR MOT評價指標(biāo)(按MOTA排序)
表8 基于公共檢測多目標(biāo)跟蹤算法MOT16 CLEAR MOT評價指標(biāo)(按MOTA排序)
表9 基于私人檢測多目標(biāo)跟蹤算法MOT16 CLEAR MOT評價指標(biāo)(按MOTA排序)
(1)從基于公共檢測和私人檢測來看,基于私人檢測的多目標(biāo)跟蹤算法在準(zhǔn)確度和精度上大幅領(lǐng)先基于公共檢測的多目標(biāo)跟蹤算法,多目標(biāo)跟蹤對于前端的檢測算法依賴性很高,提高檢測器的性能對于提高多目標(biāo)跟蹤表現(xiàn)至關(guān)重要。
(2)從式(1)可知,MOTA 由FN、FP、IDs 共同決定,但在檢測結(jié)果中FN比FP和IDs相比往往多至少一個量級,即使公共檢測的方法在一定程度上減少了FN,但是私人構(gòu)建和訓(xùn)練的檢測器在減少FN最有效。
(3)IDs 指標(biāo)對于多目標(biāo)跟蹤算法準(zhǔn)確度MOTA 影響相對較少,但在實際應(yīng)用中IDs的表現(xiàn)是考核算法的重要指標(biāo),大部分基于公共檢測的多目標(biāo)跟蹤算法重點工作即在減少IDs綜合提高MOTA,基于私人檢測的算法在得到了較好的檢測,相對而言IDs表現(xiàn)并不令人滿意。
(4)Hz指標(biāo)受限于測試的硬件及軟件平臺不一致,不能作為絕對的算法速度判斷,但考慮到比賽挑戰(zhàn)者大多采用當(dāng)時性能最好的硬件做算法測試,因此,整體看來,當(dāng)前的絕大部分多目標(biāo)跟蹤算法難以滿足實時多目標(biāo)跟蹤和邊緣設(shè)備部署的要求,難以落地。
(1)基于DBT算法
在MOT15 數(shù)據(jù)集中的公共檢測是基于傳統(tǒng)的DPM 行人檢測器,而基于私人檢測的多目標(biāo)跟蹤算法僅通過改進檢測器為深度神經(jīng)網(wǎng)絡(luò)檢測器后,算法的準(zhǔn)確度大大提高,整體均優(yōu)于基于DPM的公共檢測算法,基于深度學(xué)習(xí)對于檢測器的加持對于跟蹤效果提升明顯?;谏疃葘W(xué)習(xí)進行REID表觀特征提取或運動特征提取作為數(shù)據(jù)關(guān)聯(lián)的代價矩陣,可以得到更為穩(wěn)定魯棒的特征,增強算法數(shù)據(jù)關(guān)聯(lián)的準(zhǔn)確性,僅通過REID深度神經(jīng)網(wǎng)絡(luò)提取的表觀特征DeepSort 相比Sort 大大減少了IDs。當(dāng)前基于深度學(xué)習(xí)進行數(shù)據(jù)關(guān)聯(lián)的算法還不能實時應(yīng)用,大部分算法就是在后端使用簡單的匈牙利數(shù)據(jù)關(guān)聯(lián)算法,但是,基于深度匈牙利算法的TrctrD算法排名前列說明了深度學(xué)習(xí)對于提升數(shù)據(jù)關(guān)聯(lián)階段的能力。
基于深度學(xué)習(xí)的DBT模式最明顯的劣勢還是在運行速度方面,除了早期的Sort等僅利用IOU進行數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤算法,算法處理過程簡單,運算速度極快,但是包括檢測效果和IDs 等表現(xiàn)都很差,基于DBT模式的多目標(biāo)跟蹤功能算法難以實現(xiàn)精度和速度均衡。
(2)基于JDT算法
JDT模式與DBT模式的最大不同就是在DBT四階段中基于深度神經(jīng)網(wǎng)絡(luò)進行部分階段融合,Tracktor++直接將數(shù)據(jù)關(guān)聯(lián)階段用兩階段檢測網(wǎng)絡(luò)的RPN網(wǎng)絡(luò)替代,促進了檢測與跟蹤的融合,提高跟蹤準(zhǔn)度。基于GNN 的多目標(biāo)跟蹤算法在榜單排名前列在于GNN 對于特征的融合效果更好,但是GNN 也帶來了更多的復(fù)雜計算。由于單目標(biāo)跟蹤領(lǐng)域的快速發(fā)展,出現(xiàn)了大量在精度和速度都表現(xiàn)優(yōu)異的算法,同時基于深度學(xué)習(xí)和相關(guān)濾波具有目標(biāo)的位置信息,運動信息及分類信息,基于單目標(biāo)跟蹤的KCF 在MOT15 和MOT16 都排名前列顯示了將單目標(biāo)跟蹤拓展至多目標(biāo)跟蹤的可能,但是,隨著場景內(nèi)目標(biāo)增多,勢必為多個目標(biāo)增加跟蹤器,算法的速度也會越來越慢。
本文概述了近年來基于深度學(xué)習(xí)的視覺多目標(biāo)跟蹤算法,分為DBT與JDT兩大類算法進行分析,結(jié)合公開數(shù)據(jù)集對算法進行驗證,發(fā)現(xiàn)DBT類算法結(jié)構(gòu)簡單,可解釋較高,但是各子模塊之間關(guān)聯(lián)度較低,導(dǎo)致算法在跟蹤準(zhǔn)確度與速度上都有較大的提升空間,而JDT類算法通過融合多模塊聯(lián)合學(xué)習(xí),對跟蹤性能提升顯著。重點闡述了深度學(xué)習(xí)在DBT類與JDT類算法各子模塊所實現(xiàn)的功能與優(yōu)缺點,分析顯示DBT 類算法通過在傳統(tǒng)子模塊中嵌入深度學(xué)習(xí)模塊使得目標(biāo)檢測、特征提取、數(shù)據(jù)關(guān)聯(lián)等模塊對于目標(biāo)跟蹤增益巨大,但隨之帶來了算法速度的損失;深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是JDT類算法得以發(fā)展的關(guān)鍵,通過融合多模塊聯(lián)合學(xué)習(xí),實現(xiàn)了在線端對端的多目標(biāo)跟蹤算法,其中,檢測器性能對JDT類算法跟蹤表現(xiàn)起著關(guān)鍵作用,從公開數(shù)據(jù)集的算法排名結(jié)果顯示當(dāng)前JDT類算法基本占據(jù)了榜前TOP5。通過以上對比分析與總結(jié),目前多目標(biāo)跟蹤總體是從DBT類算法向JDT發(fā)展,分階段實現(xiàn)算法的準(zhǔn)確度和速度的均衡。然而,當(dāng)前多目標(biāo)跟蹤還存在對多目標(biāo)頻繁遮擋、目標(biāo)數(shù)量較多等場景下算法表現(xiàn)不佳的問題。未來可以開展的工作包括以下幾個方面:
(1)數(shù)據(jù)集的制備與性能基準(zhǔn)的構(gòu)建。當(dāng)前視覺多目標(biāo)跟蹤公開的數(shù)據(jù)集關(guān)注的場景絕大部分集中在場景相對簡單的行人和車輛,在目標(biāo)類別更多樣、目標(biāo)更密集、氣候變化等復(fù)雜因素下進行數(shù)據(jù)集獲取、清洗、標(biāo)注、深加工等是未來可繼續(xù)開展的方向。此外,通過分析可知,當(dāng)前多目標(biāo)跟蹤的評價指標(biāo)過分依賴于檢測器,建立更有效的性能基準(zhǔn)以評測出層出不窮的多目標(biāo)跟蹤算法全面性能,為性能優(yōu)化和提升提供支持,也是未來值得研究的方向之一。
(2)多目標(biāo)跟蹤算法各個環(huán)節(jié)能力的提升。從文中分析結(jié)果可知,傳統(tǒng)的目標(biāo)檢測、特征提取、數(shù)據(jù)關(guān)聯(lián)等方法基于深度學(xué)習(xí)的改進具有極大的性能提升,但隨之明顯損失了算法的性能。因此,傳統(tǒng)方法與深度學(xué)習(xí)類方法融合互補的再深入研究也是未來可推進的工作,這一方面取決于深度學(xué)習(xí)可解釋性的研究推進,也取決于傳統(tǒng)方法的適應(yīng)性改進,從多目標(biāo)跟蹤算法解決實際問題出發(fā)的視角尋求原理性的突破,例如新的網(wǎng)絡(luò)結(jié)構(gòu)、新的訓(xùn)練方法、新的代價函數(shù)等以解決密集多目標(biāo)跟蹤的不準(zhǔn)確、IDs頻繁等痛點問題。
(3)多目標(biāo)跟蹤算法在具體場景中的落地。通過文中分析當(dāng)前絕大多數(shù)算法缺少落地可實現(xiàn)性,這一問題未來可研究的方向有兩方面:一方面提升算法實現(xiàn)的實時性,包括輕量化網(wǎng)絡(luò)結(jié)構(gòu)及其實現(xiàn)、硬件平臺的適配優(yōu)化、硬件加速等技術(shù)的提升;另一方面,針對特定問題的專用數(shù)據(jù)集的制備、針對性訓(xùn)練,提高泛化能力的針對性,深入研究遷移學(xué)習(xí)、強化學(xué)習(xí)等方法,降低算法對專用數(shù)據(jù)集的依賴,提升算法的泛化能力。