張紅艷,黃宏博,2,何嘉玉
(1.北京信息科技大學(xué)計(jì)算機(jī)學(xué)院,北京 100101;2.北京信息科技大學(xué)計(jì)算智能研究所,北京 100192)
多目標(biāo)跟蹤是對(duì)于給定的視頻序列,找到每一幀圖像中的運(yùn)動(dòng)目標(biāo),在連續(xù)視頻幀中對(duì)同一個(gè)目標(biāo)分配相同的身份標(biāo)識(shí)號(hào)(ID),從而形成不同物體各自的運(yùn)動(dòng)軌跡。這些物體可以是任意的,如行人、車(chē)輛、運(yùn)動(dòng)員、動(dòng)物以及足球等無(wú)生命物體。多目標(biāo)跟蹤在智能監(jiān)控[1]、人機(jī)交互、虛擬現(xiàn)實(shí)、自動(dòng)駕駛汽車(chē)[2]以及人群行為分析等領(lǐng)域都有許多實(shí)際應(yīng)用價(jià)值。但是多目標(biāo)跟蹤也面臨著一系列挑戰(zhàn),主要有:(1)目標(biāo)種類繁多且復(fù)雜多變;(2)新目標(biāo)的產(chǎn)生和舊目標(biāo)的消失;(3)目標(biāo)的數(shù)量未知;(4)遮擋以及目標(biāo)之間的相互遮擋;(5)跟蹤的物體消失一段時(shí)間后重新出現(xiàn);(6)不同的目標(biāo)擁有相似的外觀;(7)背景干擾;(8)物體形變;(9)光照變化;(10)不同幀中同一目標(biāo)身份切換次數(shù)過(guò)高,等等。解決這些問(wèn)題對(duì)多目標(biāo)跟蹤的發(fā)展以及視頻結(jié)構(gòu)化和視頻語(yǔ)義理解有著重要的意義。
在大數(shù)據(jù)時(shí)代背景下,隨著計(jì)算機(jī)算力的提高和深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的圖像處理方法變得越來(lái)越流行。并且隨著更深的網(wǎng)絡(luò)結(jié)構(gòu)和更大量的數(shù)據(jù)應(yīng)用,使用深度學(xué)習(xí)的多目標(biāo)跟蹤器性能也變得更好?;谏疃葘W(xué)習(xí)的多目標(biāo)跟蹤算法主要采用兩個(gè)步驟:目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián),即首先通過(guò)目標(biāo)檢測(cè)在視頻的每個(gè)幀中檢測(cè)感興趣的對(duì)象,然后通過(guò)數(shù)據(jù)關(guān)聯(lián)在不同幀中在檢測(cè)到的對(duì)象之間建立對(duì)應(yīng)關(guān)系以獲得最終的運(yùn)動(dòng)軌跡。目標(biāo)檢測(cè)可以根據(jù)目標(biāo)跟蹤的速度和精度等性能要求選用適當(dāng)?shù)臋z測(cè)器來(lái)實(shí)現(xiàn)。數(shù)據(jù)關(guān)聯(lián)的實(shí)現(xiàn)過(guò)程比較復(fù)雜,包括很多組件,其中有:(1)特征提取;(2)親和度/匹配成本計(jì)算;(3)標(biāo)識(shí)號(hào)匹配。針對(duì)深度學(xué)習(xí)在跟蹤框架中的應(yīng)用以及深度網(wǎng)絡(luò)結(jié)構(gòu)的不同,將多目標(biāo)跟蹤分為四類,并在此基礎(chǔ)上對(duì)未來(lái)的發(fā)展趨勢(shì)與前景進(jìn)行深入探討。
深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力,具體體現(xiàn)在特征提取[3]方面,其提取的深度特征具有更豐富、更抽象的語(yǔ)義信息。這些特征可以應(yīng)用在圖像分類和目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)子方向,并極大促進(jìn)了這些領(lǐng)域的發(fā)展。使用深度特征代替?zhèn)鹘y(tǒng)的手工特征可以有效的提高多目標(biāo)跟蹤的性能。
文獻(xiàn)[4]使用深度學(xué)習(xí)的方法提出了DeepSORT。該算法使用自定義殘差網(wǎng)絡(luò)在行人重識(shí)別數(shù)據(jù)集上進(jìn)行訓(xùn)練,提取深度外觀特征并映射到一個(gè)超球面。接著使用這些特征來(lái)計(jì)算檢測(cè)目標(biāo)與跟蹤目標(biāo)之間的最小余弦距離。在關(guān)聯(lián)階段,利用卡爾曼濾波得到的跟蹤預(yù)測(cè)框與當(dāng)前幀的檢測(cè)框之間的馬氏距離和余弦距離的線性加權(quán)作為關(guān)聯(lián)度量并計(jì)算成本矩陣,隨后使用級(jí)聯(lián)匹配將跟蹤預(yù)測(cè)框和檢測(cè)框進(jìn)行配對(duì)。這種簡(jiǎn)潔的跟蹤方法既融合了運(yùn)動(dòng)信息又考慮了外觀信息,可以在保持實(shí)時(shí)速度的同時(shí)獲得較高的多目標(biāo)跟蹤準(zhǔn)確度(MOTA),并且可以有效減少遮擋問(wèn)題帶來(lái)的影響。
文獻(xiàn)[5]認(rèn)為DeepSORT 把目標(biāo)檢測(cè)與重識(shí)別特征提取作為兩個(gè)獨(dú)立任務(wù)(兩步法)進(jìn)行,不僅沒(méi)有特征共享而且時(shí)間利用率低。所以他們提出了一種新的跟蹤基準(zhǔn)(FairMOT)—把目標(biāo)檢測(cè)與重識(shí)別特征提取兩個(gè)任務(wù)聯(lián)合起來(lái),稱為一步法。輸入的圖像幀首先經(jīng)過(guò)多尺度融合網(wǎng)絡(luò)提取特征,解決目標(biāo)尺度不同的問(wèn)題,然后輸出高分辨率特征圖。接著把特征圖送人目標(biāo)檢測(cè)重識(shí)別網(wǎng)絡(luò)兩個(gè)并行分支。后續(xù)關(guān)聯(lián)階段與DeepSORT采用的方法一致。實(shí)驗(yàn)證明,最終結(jié)果達(dá)到了最好的跟蹤性能,而且相對(duì)于兩步法速度更快。
該類方法利用深度特征進(jìn)行跟蹤,可以有效地減少遮擋帶來(lái)的身份切換次數(shù),并且在數(shù)據(jù)關(guān)聯(lián)階段使用卡爾曼濾波加匈牙利算法結(jié)合的方式,有效地提高了跟蹤效率。缺點(diǎn)是僅在外觀方面使用深度特征并不能完全代表目標(biāo),影響跟蹤精度。
深度學(xué)習(xí)不僅可以應(yīng)用于特征提取,還可用于數(shù)據(jù)關(guān)聯(lián)的其他部分。多目標(biāo)跟蹤框架中存在很多相互影響的模塊,包括軌跡歷史信息與當(dāng)前檢測(cè)之間的匹配、更新跟蹤目標(biāo)的狀態(tài)以及管理目標(biāo)軌跡的開(kāi)始與結(jié)束等關(guān)鍵子模塊,如何在一個(gè)整體框架中實(shí)現(xiàn)這些子模塊并實(shí)現(xiàn)好的跟蹤效果。近年來(lái),不少研究人員通過(guò)簡(jiǎn)化跟蹤過(guò)程,提出了以端到端數(shù)據(jù)關(guān)聯(lián)的方式來(lái)實(shí)現(xiàn)上述目標(biāo)。
在在線多目標(biāo)跟蹤框架中,可以使用由預(yù)測(cè)和觀測(cè)值更新組成的貝葉斯濾波器估計(jì)被跟蹤對(duì)象的狀態(tài)。文獻(xiàn)[6]將循環(huán)神經(jīng)網(wǎng)絡(luò)擴(kuò)展為對(duì)這些過(guò)程進(jìn)行建模,模擬貝葉斯濾波算法。該算法主要由三部分組成,分別是運(yùn)動(dòng)預(yù)測(cè)、匹配以及管理軌跡的起止,并且使用循環(huán)神經(jīng)網(wǎng)絡(luò)完成全部過(guò)程。盡管跟蹤結(jié)果有提高,但實(shí)際多目標(biāo)跟蹤評(píng)估數(shù)據(jù)集中的跟蹤結(jié)果并沒(méi)有達(dá)到最高精度,原因有如下兩點(diǎn):(1)此方法僅考慮運(yùn)動(dòng)特征;(2)啟動(dòng)和終止軌跡沒(méi)有考慮對(duì)目標(biāo)關(guān)聯(lián)有重要作用的上下文特征。
為了解決這些問(wèn)題,文獻(xiàn)[7]設(shè)計(jì)了一個(gè)分層的深度網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)包含三個(gè)子長(zhǎng)短期記憶網(wǎng)絡(luò),分別用來(lái)預(yù)測(cè)長(zhǎng)期運(yùn)動(dòng)特征、提取外觀特征和上下文特征。然后這些特征被串聯(lián)起來(lái),并送入到最高級(jí)長(zhǎng)短期記憶網(wǎng)絡(luò),用來(lái)計(jì)算檢測(cè)結(jié)果與已有軌跡之間的親和度矩陣。為了學(xué)習(xí)這種分層結(jié)構(gòu),三個(gè)子網(wǎng)絡(luò)首先經(jīng)過(guò)預(yù)訓(xùn)練,然后從頂部的長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行微調(diào)。因此,該方法實(shí)現(xiàn)了整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)端到端的訓(xùn)練學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,同時(shí)考慮運(yùn)動(dòng)和外觀特征比僅使用運(yùn)動(dòng)特征更強(qiáng)大,并且還可以實(shí)現(xiàn)最新的人員重識(shí)別任務(wù)性能。
在全局優(yōu)化的多目標(biāo)跟蹤中,跟蹤被視為檢測(cè)集的最佳分區(qū),可以使用概率圖、網(wǎng)絡(luò)流等在整個(gè)檢測(cè)范圍內(nèi)進(jìn)行全局推理使最終的關(guān)聯(lián)代價(jià)總和最小。文獻(xiàn)[8]提出了一個(gè)基于信息傳遞網(wǎng)絡(luò)的多目標(biāo)跟蹤器,利用問(wèn)題的自然圖結(jié)構(gòu)來(lái)同時(shí)執(zhí)行特征學(xué)習(xí)和結(jié)果預(yù)測(cè)。其具體跟蹤流程為:首先是圖的構(gòu)建,節(jié)點(diǎn)對(duì)應(yīng)視頻的檢測(cè),邊對(duì)應(yīng)檢測(cè)之間的連接;其次是特征編碼包括外觀特征與幾何特征;然后是神經(jīng)信息傳遞,節(jié)點(diǎn)與鄰邊分享外觀信息,邊與伴隨節(jié)點(diǎn)分享特征信息;最后對(duì)圖中的每條邊引入了一個(gè)二元變量,判斷該邊是否被激活。實(shí)驗(yàn)證明,離線圖在全局范圍內(nèi)進(jìn)行跟蹤,相對(duì)于在線跟蹤,可以得到更準(zhǔn)確的結(jié)果。
端到端的數(shù)據(jù)關(guān)聯(lián)減輕手工設(shè)計(jì)成本,無(wú)需人工調(diào)參,靈活性好,并且在在線跟蹤中,相對(duì)于卷積神經(jīng)網(wǎng)絡(luò)僅能提供空間信息,使用循環(huán)神經(jīng)網(wǎng)絡(luò)還可以處理時(shí)序信息更適用于多目標(biāo)跟蹤。在離線跟蹤中,使用端到端的全局推理可以得到更準(zhǔn)確的跟蹤結(jié)果。但該類方法對(duì)硬件要求高,運(yùn)行速度低。
上述多目標(biāo)跟蹤方法主要采用基于檢測(cè)跟蹤的策略,并通過(guò)使用數(shù)據(jù)關(guān)聯(lián)算法進(jìn)行跨幀鏈接檢測(cè)來(lái)處理任務(wù)。但是,這些方法嚴(yán)重依賴于檢測(cè)結(jié)果的質(zhì)量。如果檢測(cè)丟失或不準(zhǔn)確,則容易丟失目標(biāo)對(duì)象。隨著單目標(biāo)跟蹤器的不斷完善,研究人員提出了一種基于單目標(biāo)跟蹤器擴(kuò)展的多目標(biāo)跟蹤流程,可以緩解多目標(biāo)跟蹤中由于遮擋、檢測(cè)器性能不好導(dǎo)致的目標(biāo)丟失等情況,增強(qiáng)跟蹤魯棒性。
文獻(xiàn)[9]提出了一個(gè)基于單目標(biāo)跟蹤的在線多目標(biāo)跟蹤框架(STAM),如圖1所示。該框架使用卷積神經(jīng)網(wǎng)路學(xué)習(xí)強(qiáng)大的辨別性外觀模型,利用單個(gè)對(duì)象跟蹤器的優(yōu)點(diǎn)來(lái)調(diào)整外觀模型并在下一幀中搜索目標(biāo),每個(gè)目標(biāo)分配一個(gè)單目標(biāo)跟蹤器。但是直接將單目標(biāo)跟蹤應(yīng)用于多目標(biāo)跟蹤會(huì)因?yàn)檎趽鯇?dǎo)致漂移,針對(duì)這個(gè)問(wèn)題,他們引入了時(shí)空注意力模型機(jī)制。時(shí)間注意力機(jī)制使用加權(quán)損失函數(shù)來(lái)更新模型參數(shù),使得被遮擋越嚴(yán)重的樣本對(duì)損失函數(shù)的影響越小。空間注意力機(jī)制對(duì)樣本的空間特征進(jìn)行加權(quán),更加關(guān)注未被遮擋目標(biāo)區(qū)域的特征,使得分類器的輸出結(jié)果更加準(zhǔn)確。除了目標(biāo)之間的相互遮擋會(huì)造成跟蹤漂移,還有當(dāng)出現(xiàn)和目標(biāo)相似的干擾時(shí)也會(huì)引起漂移,出現(xiàn)這種現(xiàn)象的原因主要是訓(xùn)練樣本的數(shù)據(jù)不平衡導(dǎo)致單目標(biāo)跟蹤器學(xué)不到可區(qū)分性特征。
圖1 STAM算法結(jié)構(gòu)Fig.1 Structure of STAM Algorithm
為了減輕數(shù)據(jù)不平衡,文獻(xiàn)[10]基于最新的單目標(biāo)跟蹤器(ECO)引入一種新的成本敏感損失函數(shù)使處于目標(biāo)附近的難樣本的懲罰權(quán)重變大。除此之外,還加入了數(shù)據(jù)關(guān)聯(lián)部分來(lái)協(xié)助單目標(biāo)跟蹤器。首先應(yīng)用單目標(biāo)跟蹤器來(lái)跟蹤每個(gè)目標(biāo),直到跟蹤結(jié)果變得不可靠(例如,跟蹤得分低或跟蹤結(jié)果與檢測(cè)結(jié)果不一致)時(shí),目標(biāo)被視為丟失。接著掛起跟蹤器并執(zhí)行數(shù)據(jù)關(guān)聯(lián)來(lái)計(jì)算軌跡與檢測(cè)之間的匹配概率。一旦丟失的目標(biāo)通過(guò)數(shù)據(jù)關(guān)聯(lián)連接到檢測(cè),將更新?tīng)顟B(tài)并恢復(fù)跟蹤過(guò)程。雖然該跟蹤器取得了不錯(cuò)的性能,但是仍存在一些問(wèn)題:首先,從兩個(gè)單獨(dú)的模型中提取用于單目標(biāo)跟蹤器和親和力度量的功能,這會(huì)增加較多的計(jì)算開(kāi)銷(xiāo);其次,由于在關(guān)聯(lián)性計(jì)算中沒(méi)有使用單目標(biāo)跟蹤器功能,因此他們必須訓(xùn)練額外的關(guān)聯(lián)網(wǎng)絡(luò)對(duì)此進(jìn)行補(bǔ)救,這進(jìn)一步增加了他們的內(nèi)存需求;最后,單目標(biāo)跟蹤器和親和力模型的獨(dú)立特征提取以及復(fù)雜的親和力網(wǎng)絡(luò)設(shè)計(jì),使訓(xùn)練程序變得復(fù)雜。文獻(xiàn)[11]對(duì)此進(jìn)行了改進(jìn),提出了一種基于多任務(wù)學(xué)習(xí)的在線多目標(biāo)跟蹤模型(UMA),該模型將基于單目標(biāo)跟蹤的運(yùn)動(dòng)模型和親和力網(wǎng)絡(luò)端到端地集成到一個(gè)統(tǒng)一的框架中。利用親和力模型可以幫助單目標(biāo)跟蹤器學(xué)習(xí)更多的區(qū)分特征以更好地處理遮擋,從而簡(jiǎn)化了訓(xùn)練和測(cè)試過(guò)程,有效地提高了計(jì)算效率。
該類方法對(duì)于檢測(cè)缺乏的問(wèn)題有一定的魯棒性,可以通過(guò)區(qū)域搜索得到暫時(shí)的目標(biāo)定位信息。如果單目標(biāo)跟蹤器自身的定位能力強(qiáng),那就相當(dāng)于做了額外的檢測(cè),所以其跟蹤性能不錯(cuò)。缺點(diǎn)是該類方法是針對(duì)每個(gè)目標(biāo)進(jìn)行依次跟蹤,跟蹤效率太低。
不論是基于檢測(cè)的跟蹤,還是基于單目標(biāo)跟蹤器的框架,都是把檢測(cè)或單目標(biāo)跟蹤與數(shù)據(jù)關(guān)聯(lián)分開(kāi)進(jìn)行,要么重點(diǎn)考慮選擇性能更好的檢測(cè)器,要么重點(diǎn)研究跟蹤部分,并沒(méi)有考慮兩者之間的聯(lián)系。使用聯(lián)合檢測(cè)跟蹤框架,一方面好的檢測(cè)可以提高跟蹤器的性能,另一方面,跟蹤結(jié)果可以在一定程度上彌補(bǔ)目標(biāo)檢測(cè)器的漏檢、錯(cuò)檢等問(wèn)題。
文獻(xiàn)[12]訓(xùn)練了具有ResNet-101和特征金字塔網(wǎng)絡(luò)的目標(biāo)檢測(cè)器(Faster R-CNN),將目標(biāo)檢測(cè)器轉(zhuǎn)換為跟蹤器(Tracktor++)并利用上一幀中的目標(biāo)邊界框回歸目標(biāo)在當(dāng)前幀中的位置,當(dāng)出現(xiàn)遮擋或分類分?jǐn)?shù)低于閾值時(shí)認(rèn)為軌跡終止,否則繼續(xù)。新目標(biāo)的產(chǎn)生是根據(jù)檢測(cè)結(jié)果與已有軌跡的交并比(小于閾值)來(lái)創(chuàng)建,算法思想,如圖2所示。除此之外,為了減少幀間身份切換次數(shù),他們還對(duì)跟蹤器進(jìn)行了拓展,一方面是運(yùn)動(dòng)模型部分,應(yīng)用相機(jī)運(yùn)動(dòng)補(bǔ)償(CMC)和恒定速度假設(shè)(CVC)分別來(lái)解決大幅度的相機(jī)運(yùn)動(dòng)和視頻的低幀率問(wèn)題;另一方面利用外觀模型,針對(duì)重新出現(xiàn)的目標(biāo)使用孿生網(wǎng)絡(luò)進(jìn)行重識(shí)別。實(shí)驗(yàn)表明,在Faster RCNN、DPM和SDP三種不同檢測(cè)器的輸入下,跟蹤性能差距不大,所以該算法對(duì)于平衡檢測(cè)的輸入效果提升很大。
圖2 Tracktor++算法思想Fig.2 The Algorithm Idea of Tracktor++
在此跟蹤框架基礎(chǔ)上,文獻(xiàn)[13]通過(guò)將Faster R-CNN 換成CenterNet[14]實(shí)現(xiàn)跟蹤,因此跟蹤的邊界框也就變成了跟蹤邊界框的中心點(diǎn)?;谶吔缈虻臋z測(cè)器會(huì)列舉出潛在目標(biāo)的所有位置,并對(duì)每個(gè)目標(biāo)進(jìn)行分類以及后處理?;谥行狞c(diǎn)(CenterNet)的方法與Tracktor++相比,是端到端的,更簡(jiǎn)單快速準(zhǔn)確。他們訓(xùn)練檢測(cè)器以輸出從當(dāng)前目標(biāo)中心點(diǎn)到前一幀中心點(diǎn)的偏移矢量,僅基于此預(yù)測(cè)偏移量與前一幀中檢測(cè)到的中心點(diǎn)之間的距離進(jìn)行的貪心匹配就足以實(shí)現(xiàn)目標(biāo)對(duì)象關(guān)聯(lián)。為了結(jié)構(gòu)簡(jiǎn)單,當(dāng)一個(gè)目標(biāo)離開(kāi)圖像或被遮擋并重新出現(xiàn)時(shí),將為其分配新的標(biāo)識(shí),即不考慮重識(shí)別部分?;谳p量級(jí)架構(gòu),此跟蹤器可以實(shí)時(shí)運(yùn)行并且跟蹤性能比較好。
該類方法把檢測(cè)和跟蹤整合到統(tǒng)一框架,可以利用檢測(cè)與跟蹤相輔相成,實(shí)現(xiàn)更好的跟蹤結(jié)果。但是該類方法并不能很好的應(yīng)對(duì)遮擋帶來(lái)的問(wèn)題,其身份切換次數(shù)比較高、漂移問(wèn)題嚴(yán)重。
公開(kāi)數(shù)據(jù)集和評(píng)價(jià)指標(biāo)對(duì)于推動(dòng)計(jì)算機(jī)視覺(jué)的發(fā)展非常重要,同樣對(duì)于推動(dòng)多目標(biāo)跟蹤的發(fā)展也具有十分重要的意義。本節(jié)主要介紹了多目標(biāo)跟蹤領(lǐng)域的常見(jiàn)數(shù)據(jù)集和評(píng)價(jià)指標(biāo),并對(duì)上文提到的方法進(jìn)行性能比對(duì)。
(1)多目標(biāo)跟蹤挑戰(zhàn)(MOT Challenge)是最常用的多目標(biāo)跟蹤基準(zhǔn),它為行人跟蹤提供了目前公開(kāi)的一些最大的數(shù)據(jù)集。對(duì)于每個(gè)數(shù)據(jù)集,提供真實(shí)標(biāo)注信息并劃分訓(xùn)練集和測(cè)試集。多目標(biāo)跟蹤挑戰(zhàn)為大部分?jǐn)?shù)據(jù)集提供檢測(cè),這樣研究者可以只專注于提升跟蹤性能,并且為研究者提供測(cè)試平臺(tái)。
MOT15[15]:全稱為2D MOT 2015,它包含22個(gè)視頻,其中11個(gè)用于訓(xùn)練,11個(gè)用于測(cè)試。收集在固定或移動(dòng)攝像機(jī)拍攝、不同的環(huán)境和照明條件等情況下的各類視頻。它總共包含11283個(gè)不同分辨率的幀,1221個(gè)不同的標(biāo)識(shí)和101345個(gè)檢測(cè)框。
MOT16:具有更大的行人密度,視頻也更具有挑戰(zhàn)性。數(shù)據(jù)集中總共包含14個(gè)視頻,其中7個(gè)用于訓(xùn)練,7個(gè)用于測(cè)試。這次數(shù)據(jù)集包含11235幀,1342個(gè)標(biāo)識(shí),總共292733個(gè)檢測(cè)框。
MOT17[16]:與MOT16 具有相同的視頻,但具有更準(zhǔn)確的標(biāo)記,并且每個(gè)視頻有三組檢測(cè):一組來(lái)自Faster R-CNN,一組來(lái)自DPM,一組來(lái)自SDP。使用三個(gè)檢測(cè)器提供的結(jié)果更加準(zhǔn)確,也是現(xiàn)在主要使用的數(shù)據(jù)集。
MOT20[17]:具有極大的行人密度,包含8個(gè)視頻(4個(gè)用于訓(xùn)練,4個(gè)用于測(cè)試),該數(shù)據(jù)集包含13410幀、6869個(gè)軌跡(標(biāo)識(shí))和2259143個(gè)檢測(cè)框,比以前的數(shù)據(jù)集多得多。
多目標(biāo)跟蹤與分割(MOTS)[18]:該數(shù)據(jù)集將多目標(biāo)跟蹤任務(wù)擴(kuò)展到實(shí)例分割跟蹤,使用半自動(dòng)標(biāo)注程序在兩個(gè)現(xiàn)有的跟蹤數(shù)據(jù)集(MOT Challenge 和KITTI)上創(chuàng)建了密集的像素級(jí)的標(biāo)注。新標(biāo)注包含了10870個(gè)視頻幀、977個(gè)不同對(duì)象(汽車(chē)和行人)以及65,213個(gè)像素掩碼。
跟蹤任何目標(biāo)(TAO)[19]:多目標(biāo)跟蹤領(lǐng)域的類別往往來(lái)自自動(dòng)駕駛和視頻監(jiān)控中特定的幾種對(duì)象(車(chē)輛、行人、動(dòng)物等),從而忽略了現(xiàn)實(shí)世界的大多數(shù)物體。于是為了改變多目標(biāo)跟蹤的現(xiàn)狀,TAO數(shù)據(jù)集可以跟蹤任何對(duì)象。該數(shù)據(jù)集包含2907個(gè)不同環(huán)境的高清視頻。每段視頻平均長(zhǎng)度半分鐘,包含833個(gè)對(duì)象類別。
(2)KITTI數(shù)據(jù)集
多目標(biāo)跟蹤挑戰(zhàn)數(shù)據(jù)集重點(diǎn)關(guān)注行人跟蹤,KITTI數(shù)據(jù)集[20]關(guān)注于人和車(chē)輛的跟蹤。該數(shù)據(jù)集由21個(gè)訓(xùn)練序列和29個(gè)測(cè)試序列組成,總共約19000幀(32分鐘),于2012年發(fā)布。它們由安裝在行駛汽車(chē)上的攝像機(jī)收集,包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù),每張圖像中最多達(dá)15輛車(chē)和30個(gè)行人,還有各種程度的遮擋。
(3)nuScenes數(shù)據(jù)集
nuScenes[21]數(shù)據(jù)集是于2019 年發(fā)布的大型自動(dòng)駕駛數(shù)據(jù)集,有1000多個(gè)場(chǎng)景,其中包含140萬(wàn)幅圖像、40萬(wàn)次激光雷達(dá)掃描(判斷物體之間距離)和110萬(wàn)個(gè)三維邊界框。該數(shù)據(jù)集使用了6個(gè)攝像頭、1個(gè)激光雷達(dá)、5個(gè)毫米波雷達(dá)、GPS及慣導(dǎo)系統(tǒng)在內(nèi)的多個(gè)傳感器進(jìn)行獲取,包括對(duì)于自動(dòng)駕駛系統(tǒng)有挑戰(zhàn)性的復(fù)雜道路、天氣條件等。
(4)BLVD數(shù)據(jù)集
BLVD 數(shù)據(jù)集[22]由西安交通大學(xué)夸父號(hào)無(wú)人車(chē)采集。采集車(chē)上裝載多種傳感器用于周?chē)兄ㄒ粋€(gè)三維激光雷達(dá)、一個(gè)全球定位系統(tǒng)(GPS)及慣性導(dǎo)航系統(tǒng)、兩個(gè)高分辨率多視點(diǎn)相機(jī)。該數(shù)據(jù)集定義了三種參與者,包括車(chē)輛、行人和騎行者,其中騎行者包括騎自行車(chē)的人和摩托車(chē)的人。BLVD一共標(biāo)注654個(gè)包含12 萬(wàn)幀的序列。根據(jù)標(biāo)注場(chǎng)景中交通參與者的密集程度(低和高)和光照條件(白天和晚上),BLVD包含四種場(chǎng)景。
為了評(píng)估MOT算法的性能,主要使用兩組評(píng)價(jià)指標(biāo):VACE指標(biāo)[23]和CLEAR MOT 指標(biāo)[24]。前者從不同的方面描述單個(gè)指標(biāo),包括虛警(FP)、漏警(FN)、大部分成功跟蹤的目標(biāo)數(shù)(MT)、大部分丟失的目標(biāo)數(shù)(ML)、身份切換數(shù)(IDS)和軌跡碎片數(shù)(Frag);后者旨在衡量所有預(yù)測(cè)軌跡的整體性能,主要包括多目標(biāo)跟蹤準(zhǔn)確度(MOTA)和多目標(biāo)跟蹤精度(MOTP)。在上述所有的評(píng)價(jià)指標(biāo)中MOTA考慮了各種可能的跟蹤錯(cuò)誤,所以使用其作為重要的評(píng)價(jià)指標(biāo)。它的定義如下:
式中:GT—真實(shí)標(biāo)記框的數(shù)量。
鑒于不同的跟蹤器采用不同的數(shù)據(jù)集進(jìn)行評(píng)估,我們把上文提到的算法分別在MOT15 和MOT17 挑戰(zhàn)數(shù)據(jù)集上進(jìn)行性能比較,如表1、表2所示。其中,考慮了額外的指標(biāo)IDF1[25],以更好地表示跟蹤的準(zhǔn)確性?!硎緮?shù)值越大性能越好,↓表示數(shù)值越小性能越好。
表1 在MOT15數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental Results on the MOT15 Dataset
表2 在MOT17數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.2 Experimental Results on the MOT17 Dataset
從實(shí)驗(yàn)結(jié)果可以看出,基于深度特征的跟蹤方法—FairMOT取得了最好的MOTA結(jié)果,但是該類的其他方法的效果并不好,說(shuō)明FairMOT算法使用的無(wú)錨框的檢測(cè)算法(CenterNet)性能更好,更適用于多目標(biāo)跟蹤。這點(diǎn)從同樣使用該檢測(cè)算法的Cen‐terTrack的實(shí)驗(yàn)結(jié)果就可以看出。與此同時(shí),F(xiàn)airMOT的IDSW值并不小,說(shuō)明一步法相對(duì)于兩步法還是存在很大的不足。但從大類上看,聯(lián)合在線檢測(cè)跟蹤的算法總體性能比較好,普遍優(yōu)于其他算法,說(shuō)明檢測(cè)器的性能對(duì)跟蹤結(jié)果影響深遠(yuǎn),也進(jìn)一步說(shuō)明了計(jì)算機(jī)視覺(jué)領(lǐng)域各個(gè)任務(wù)之間是相互影響的。端到端數(shù)據(jù)關(guān)聯(lián)的算法中,基于全局優(yōu)化的NeuralSolver 表現(xiàn)出色,其IDSW 值很小,說(shuō)明利用整體信息的方式與在線跟蹤相比,可以獲取更多特征信息。基于單目標(biāo)跟蹤器的STAM 在Frag 和IDSW也取得較小的值,說(shuō)明引入的時(shí)空注意力機(jī)制有效的緩解遮擋帶來(lái)的影響。
基于對(duì)以上四類多目標(biāo)跟蹤算法的分析比對(duì),提出以后的研究展望。
目前大多數(shù)數(shù)據(jù)集是基于交通環(huán)境中行人和車(chē)輛的跟蹤研究,對(duì)于其他類別的跟蹤研究少之又少。改變多目標(biāo)跟蹤現(xiàn)狀,提出包含更多類別的多目標(biāo)跟蹤數(shù)據(jù)集至關(guān)重要。
除了增加類別外,現(xiàn)有的跟蹤器遠(yuǎn)沒(méi)有足夠的標(biāo)記數(shù)據(jù)集來(lái)訓(xùn)練滿意的模型以在所有條件下進(jìn)行跟蹤,所以如何對(duì)數(shù)據(jù)集進(jìn)行大量準(zhǔn)確豐富的標(biāo)記來(lái)輔助跟蹤器進(jìn)行跟蹤是個(gè)巨大挑戰(zhàn)。
綜上,創(chuàng)建標(biāo)注全面、類別豐富的多目標(biāo)跟蹤數(shù)據(jù)集是該領(lǐng)域的一個(gè)重點(diǎn)研究方向。
目標(biāo)檢測(cè)作為多目標(biāo)跟蹤組成部分的第一環(huán)節(jié),其性能對(duì)跟蹤結(jié)果有巨大影響。雖然目標(biāo)檢測(cè)領(lǐng)域已經(jīng)取得巨大成功(Cen‐terNet等),但是針對(duì)于多目標(biāo)跟蹤領(lǐng)域的檢測(cè)還需要進(jìn)一步發(fā)展。漏警影響著MOTA的得分,使用更高質(zhì)量的檢測(cè)器仍然是減少漏警的最有效方法,也是多目標(biāo)跟蹤需要進(jìn)一步探索的方向。
利用深度神經(jīng)網(wǎng)路提取的深度特征代替?zhèn)鹘y(tǒng)手工特征來(lái)進(jìn)行跟蹤,對(duì)跟蹤性能有很大提升。同樣,把深度學(xué)習(xí)應(yīng)用到跟蹤的其他部分,像匹配矩陣的計(jì)算、注意力機(jī)制的加入等,也推進(jìn)了多目標(biāo)跟蹤領(lǐng)域的發(fā)展。但是由于深度學(xué)習(xí)的計(jì)算量過(guò)大,一方面會(huì)導(dǎo)致計(jì)算速度慢并使跟蹤達(dá)不到實(shí)時(shí)速度,另一方面需要計(jì)算性能更好的設(shè)備。所以繼續(xù)推進(jìn)深度學(xué)習(xí)在多目標(biāo)跟蹤領(lǐng)域的發(fā)展并提高計(jì)算速度也是未來(lái)需要深入研究的重點(diǎn)。
多目標(biāo)跟蹤對(duì)于智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)、自動(dòng)駕駛汽車(chē)以及人群行為分析具有巨大的實(shí)用價(jià)值。詳細(xì)分析了深度學(xué)習(xí)的多目標(biāo)跟蹤的研究進(jìn)展,并根據(jù)不同的跟蹤框架和網(wǎng)絡(luò)結(jié)構(gòu),將其分為基于深度特征、基于端到端數(shù)據(jù)關(guān)聯(lián)、基于單目標(biāo)跟蹤器擴(kuò)展和聯(lián)合檢測(cè)跟蹤的四類方法,綜合分析其跟蹤原理、性能特點(diǎn)以及優(yōu)缺點(diǎn)。預(yù)測(cè)多目標(biāo)跟蹤的發(fā)展趨勢(shì)和研究方向,對(duì)其進(jìn)一步研究具有建設(shè)性意義。隨著深度學(xué)習(xí)的深入發(fā)展以及硬件系統(tǒng)計(jì)算性能的提升,多目標(biāo)跟蹤的研究和應(yīng)用將會(huì)呈現(xiàn)更美好的前景。