亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度學(xué)習(xí)的多目標(biāo)跟蹤研究進(jìn)展

2024-02-29 09:24:52張紅艷黃宏博何嘉玉

機(jī)械設(shè)計(jì)與制造 2024年2期

張紅艷，黃宏博，2，何嘉玉

（1.北京信息科技大學(xué)計(jì)算機(jī)學(xué)院，北京 100101；2.北京信息科技大學(xué)計(jì)算智能研究所，北京 100192）

1 引言

多目標(biāo)跟蹤是對(duì)于給定的視頻序列，找到每一幀圖像中的運(yùn)動(dòng)目標(biāo)，在連續(xù)視頻幀中對(duì)同一個(gè)目標(biāo)分配相同的身份標(biāo)識(shí)號(hào)（ID），從而形成不同物體各自的運(yùn)動(dòng)軌跡。這些物體可以是任意的，如行人、車輛、運(yùn)動(dòng)員、動(dòng)物以及足球等無(wú)生命物體。多目標(biāo)跟蹤在智能監(jiān)控［1］、人機(jī)交互、虛擬現(xiàn)實(shí)、自動(dòng)駕駛汽車［2］以及人群行為分析等領(lǐng)域都有許多實(shí)際應(yīng)用價(jià)值。但是多目標(biāo)跟蹤也面臨著一系列挑戰(zhàn)，主要有：（1）目標(biāo)種類繁多且復(fù)雜多變；（2）新目標(biāo)的產(chǎn)生和舊目標(biāo)的消失；（3）目標(biāo)的數(shù)量未知；（4）遮擋以及目標(biāo)之間的相互遮擋；（5）跟蹤的物體消失一段時(shí)間后重新出現(xiàn)；（6）不同的目標(biāo)擁有相似的外觀；（7）背景干擾；（8）物體形變；（9）光照變化；（10）不同幀中同一目標(biāo)身份切換次數(shù)過(guò)高，等等。解決這些問(wèn)題對(duì)多目標(biāo)跟蹤的發(fā)展以及視頻結(jié)構(gòu)化和視頻語(yǔ)義理解有著重要的意義。

在大數(shù)據(jù)時(shí)代背景下，隨著計(jì)算機(jī)算力的提高和深度學(xué)習(xí)的發(fā)展，基于深度學(xué)習(xí)的圖像處理方法變得越來(lái)越流行。并且隨著更深的網(wǎng)絡(luò)結(jié)構(gòu)和更大量的數(shù)據(jù)應(yīng)用，使用深度學(xué)習(xí)的多目標(biāo)跟蹤器性能也變得更好?；谏疃葘W(xué)習(xí)的多目標(biāo)跟蹤算法主要采用兩個(gè)步驟：目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)，即首先通過(guò)目標(biāo)檢測(cè)在視頻的每個(gè)幀中檢測(cè)感興趣的對(duì)象，然后通過(guò)數(shù)據(jù)關(guān)聯(lián)在不同幀中在檢測(cè)到的對(duì)象之間建立對(duì)應(yīng)關(guān)系以獲得最終的運(yùn)動(dòng)軌跡。目標(biāo)檢測(cè)可以根據(jù)目標(biāo)跟蹤的速度和精度等性能要求選用適當(dāng)?shù)臋z測(cè)器來(lái)實(shí)現(xiàn)。數(shù)據(jù)關(guān)聯(lián)的實(shí)現(xiàn)過(guò)程比較復(fù)雜，包括很多組件，其中有：（1）特征提?。唬?）親和度/匹配成本計(jì)算；（3）標(biāo)識(shí)號(hào)匹配。針對(duì)深度學(xué)習(xí)在跟蹤框架中的應(yīng)用以及深度網(wǎng)絡(luò)結(jié)構(gòu)的不同，將多目標(biāo)跟蹤分為四類，并在此基礎(chǔ)上對(duì)未來(lái)的發(fā)展趨勢(shì)與前景進(jìn)行深入探討。

2 使用深度學(xué)習(xí)的多目標(biāo)跟蹤方法

2.1 基于深度特征的多目標(biāo)跟蹤方法

深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力，具體體現(xiàn)在特征提?。?］方面，其提取的深度特征具有更豐富、更抽象的語(yǔ)義信息。這些特征可以應(yīng)用在圖像分類和目標(biāo)檢測(cè)等計(jì)算機(jī)視覺子方向，并極大促進(jìn)了這些領(lǐng)域的發(fā)展。使用深度特征代替?zhèn)鹘y(tǒng)的手工特征可以有效的提高多目標(biāo)跟蹤的性能。

文獻(xiàn)［4］使用深度學(xué)習(xí)的方法提出了DeepSORT。該算法使用自定義殘差網(wǎng)絡(luò)在行人重識(shí)別數(shù)據(jù)集上進(jìn)行訓(xùn)練，提取深度外觀特征并映射到一個(gè)超球面。接著使用這些特征來(lái)計(jì)算檢測(cè)目標(biāo)與跟蹤目標(biāo)之間的最小余弦距離。在關(guān)聯(lián)階段，利用卡爾曼濾波得到的跟蹤預(yù)測(cè)框與當(dāng)前幀的檢測(cè)框之間的馬氏距離和余弦距離的線性加權(quán)作為關(guān)聯(lián)度量并計(jì)算成本矩陣，隨后使用級(jí)聯(lián)匹配將跟蹤預(yù)測(cè)框和檢測(cè)框進(jìn)行配對(duì)。這種簡(jiǎn)潔的跟蹤方法既融合了運(yùn)動(dòng)信息又考慮了外觀信息，可以在保持實(shí)時(shí)速度的同時(shí)獲得較高的多目標(biāo)跟蹤準(zhǔn)確度（MOTA），并且可以有效減少遮擋問(wèn)題帶來(lái)的影響。

文獻(xiàn)［5］認(rèn)為DeepSORT 把目標(biāo)檢測(cè)與重識(shí)別特征提取作為兩個(gè)獨(dú)立任務(wù)（兩步法）進(jìn)行，不僅沒有特征共享而且時(shí)間利用率低。所以他們提出了一種新的跟蹤基準(zhǔn)（FairMOT）—把目標(biāo)檢測(cè)與重識(shí)別特征提取兩個(gè)任務(wù)聯(lián)合起來(lái)，稱為一步法。輸入的圖像幀首先經(jīng)過(guò)多尺度融合網(wǎng)絡(luò)提取特征，解決目標(biāo)尺度不同的問(wèn)題，然后輸出高分辨率特征圖。接著把特征圖送人目標(biāo)檢測(cè)重識(shí)別網(wǎng)絡(luò)兩個(gè)并行分支。后續(xù)關(guān)聯(lián)階段與DeepSORT采用的方法一致。實(shí)驗(yàn)證明，最終結(jié)果達(dá)到了最好的跟蹤性能，而且相對(duì)于兩步法速度更快。

該類方法利用深度特征進(jìn)行跟蹤，可以有效地減少遮擋帶來(lái)的身份切換次數(shù)，并且在數(shù)據(jù)關(guān)聯(lián)階段使用卡爾曼濾波加匈牙利算法結(jié)合的方式，有效地提高了跟蹤效率。缺點(diǎn)是僅在外觀方面使用深度特征并不能完全代表目標(biāo)，影響跟蹤精度。

2.2 基于端到端的數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤方法

深度學(xué)習(xí)不僅可以應(yīng)用于特征提取，還可用于數(shù)據(jù)關(guān)聯(lián)的其他部分。多目標(biāo)跟蹤框架中存在很多相互影響的模塊，包括軌跡歷史信息與當(dāng)前檢測(cè)之間的匹配、更新跟蹤目標(biāo)的狀態(tài)以及管理目標(biāo)軌跡的開始與結(jié)束等關(guān)鍵子模塊，如何在一個(gè)整體框架中實(shí)現(xiàn)這些子模塊并實(shí)現(xiàn)好的跟蹤效果。近年來(lái)，不少研究人員通過(guò)簡(jiǎn)化跟蹤過(guò)程，提出了以端到端數(shù)據(jù)關(guān)聯(lián)的方式來(lái)實(shí)現(xiàn)上述目標(biāo)。

在在線多目標(biāo)跟蹤框架中，可以使用由預(yù)測(cè)和觀測(cè)值更新組成的貝葉斯濾波器估計(jì)被跟蹤對(duì)象的狀態(tài)。文獻(xiàn)［6］將循環(huán)神經(jīng)網(wǎng)絡(luò)擴(kuò)展為對(duì)這些過(guò)程進(jìn)行建模，模擬貝葉斯濾波算法。該算法主要由三部分組成，分別是運(yùn)動(dòng)預(yù)測(cè)、匹配以及管理軌跡的起止，并且使用循環(huán)神經(jīng)網(wǎng)絡(luò)完成全部過(guò)程。盡管跟蹤結(jié)果有提高，但實(shí)際多目標(biāo)跟蹤評(píng)估數(shù)據(jù)集中的跟蹤結(jié)果并沒有達(dá)到最高精度，原因有如下兩點(diǎn)：（1）此方法僅考慮運(yùn)動(dòng)特征；（2）啟動(dòng)和終止軌跡沒有考慮對(duì)目標(biāo)關(guān)聯(lián)有重要作用的上下文特征。

為了解決這些問(wèn)題，文獻(xiàn)［7］設(shè)計(jì)了一個(gè)分層的深度網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)包含三個(gè)子長(zhǎng)短期記憶網(wǎng)絡(luò)，分別用來(lái)預(yù)測(cè)長(zhǎng)期運(yùn)動(dòng)特征、提取外觀特征和上下文特征。然后這些特征被串聯(lián)起來(lái)，并送入到最高級(jí)長(zhǎng)短期記憶網(wǎng)絡(luò)，用來(lái)計(jì)算檢測(cè)結(jié)果與已有軌跡之間的親和度矩陣。為了學(xué)習(xí)這種分層結(jié)構(gòu)，三個(gè)子網(wǎng)絡(luò)首先經(jīng)過(guò)預(yù)訓(xùn)練，然后從頂部的長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行微調(diào)。因此，該方法實(shí)現(xiàn)了整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)端到端的訓(xùn)練學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明，同時(shí)考慮運(yùn)動(dòng)和外觀特征比僅使用運(yùn)動(dòng)特征更強(qiáng)大，并且還可以實(shí)現(xiàn)最新的人員重識(shí)別任務(wù)性能。

在全局優(yōu)化的多目標(biāo)跟蹤中，跟蹤被視為檢測(cè)集的最佳分區(qū)，可以使用概率圖、網(wǎng)絡(luò)流等在整個(gè)檢測(cè)范圍內(nèi)進(jìn)行全局推理使最終的關(guān)聯(lián)代價(jià)總和最小。文獻(xiàn)［8］提出了一個(gè)基于信息傳遞網(wǎng)絡(luò)的多目標(biāo)跟蹤器，利用問(wèn)題的自然圖結(jié)構(gòu)來(lái)同時(shí)執(zhí)行特征學(xué)習(xí)和結(jié)果預(yù)測(cè)。其具體跟蹤流程為：首先是圖的構(gòu)建，節(jié)點(diǎn)對(duì)應(yīng)視頻的檢測(cè)，邊對(duì)應(yīng)檢測(cè)之間的連接；其次是特征編碼包括外觀特征與幾何特征；然后是神經(jīng)信息傳遞，節(jié)點(diǎn)與鄰邊分享外觀信息，邊與伴隨節(jié)點(diǎn)分享特征信息；最后對(duì)圖中的每條邊引入了一個(gè)二元變量，判斷該邊是否被激活。實(shí)驗(yàn)證明，離線圖在全局范圍內(nèi)進(jìn)行跟蹤，相對(duì)于在線跟蹤，可以得到更準(zhǔn)確的結(jié)果。

端到端的數(shù)據(jù)關(guān)聯(lián)減輕手工設(shè)計(jì)成本，無(wú)需人工調(diào)參，靈活性好，并且在在線跟蹤中，相對(duì)于卷積神經(jīng)網(wǎng)絡(luò)僅能提供空間信息，使用循環(huán)神經(jīng)網(wǎng)絡(luò)還可以處理時(shí)序信息更適用于多目標(biāo)跟蹤。在離線跟蹤中，使用端到端的全局推理可以得到更準(zhǔn)確的跟蹤結(jié)果。但該類方法對(duì)硬件要求高，運(yùn)行速度低。

2.3 基于單目標(biāo)跟蹤器擴(kuò)展的多目標(biāo)跟蹤方法

上述多目標(biāo)跟蹤方法主要采用基于檢測(cè)跟蹤的策略，并通過(guò)使用數(shù)據(jù)關(guān)聯(lián)算法進(jìn)行跨幀鏈接檢測(cè)來(lái)處理任務(wù)。但是，這些方法嚴(yán)重依賴于檢測(cè)結(jié)果的質(zhì)量。如果檢測(cè)丟失或不準(zhǔn)確，則容易丟失目標(biāo)對(duì)象。隨著單目標(biāo)跟蹤器的不斷完善，研究人員提出了一種基于單目標(biāo)跟蹤器擴(kuò)展的多目標(biāo)跟蹤流程，可以緩解多目標(biāo)跟蹤中由于遮擋、檢測(cè)器性能不好導(dǎo)致的目標(biāo)丟失等情況，增強(qiáng)跟蹤魯棒性。

文獻(xiàn)［9］提出了一個(gè)基于單目標(biāo)跟蹤的在線多目標(biāo)跟蹤框架（STAM），如圖1所示。該框架使用卷積神經(jīng)網(wǎng)路學(xué)習(xí)強(qiáng)大的辨別性外觀模型，利用單個(gè)對(duì)象跟蹤器的優(yōu)點(diǎn)來(lái)調(diào)整外觀模型并在下一幀中搜索目標(biāo)，每個(gè)目標(biāo)分配一個(gè)單目標(biāo)跟蹤器。但是直接將單目標(biāo)跟蹤應(yīng)用于多目標(biāo)跟蹤會(huì)因?yàn)檎趽鯇?dǎo)致漂移，針對(duì)這個(gè)問(wèn)題，他們引入了時(shí)空注意力模型機(jī)制。時(shí)間注意力機(jī)制使用加權(quán)損失函數(shù)來(lái)更新模型參數(shù)，使得被遮擋越嚴(yán)重的樣本對(duì)損失函數(shù)的影響越小?？臻g注意力機(jī)制對(duì)樣本的空間特征進(jìn)行加權(quán)，更加關(guān)注未被遮擋目標(biāo)區(qū)域的特征，使得分類器的輸出結(jié)果更加準(zhǔn)確。除了目標(biāo)之間的相互遮擋會(huì)造成跟蹤漂移，還有當(dāng)出現(xiàn)和目標(biāo)相似的干擾時(shí)也會(huì)引起漂移，出現(xiàn)這種現(xiàn)象的原因主要是訓(xùn)練樣本的數(shù)據(jù)不平衡導(dǎo)致單目標(biāo)跟蹤器學(xué)不到可區(qū)分性特征。

圖1 STAM算法結(jié)構(gòu)Fig.1 Structure of STAM Algorithm

為了減輕數(shù)據(jù)不平衡，文獻(xiàn)［10］基于最新的單目標(biāo)跟蹤器（ECO）引入一種新的成本敏感損失函數(shù)使處于目標(biāo)附近的難樣本的懲罰權(quán)重變大。除此之外，還加入了數(shù)據(jù)關(guān)聯(lián)部分來(lái)協(xié)助單目標(biāo)跟蹤器。首先應(yīng)用單目標(biāo)跟蹤器來(lái)跟蹤每個(gè)目標(biāo)，直到跟蹤結(jié)果變得不可靠（例如，跟蹤得分低或跟蹤結(jié)果與檢測(cè)結(jié)果不一致）時(shí)，目標(biāo)被視為丟失。接著掛起跟蹤器并執(zhí)行數(shù)據(jù)關(guān)聯(lián)來(lái)計(jì)算軌跡與檢測(cè)之間的匹配概率。一旦丟失的目標(biāo)通過(guò)數(shù)據(jù)關(guān)聯(lián)連接到檢測(cè)，將更新狀態(tài)并恢復(fù)跟蹤過(guò)程。雖然該跟蹤器取得了不錯(cuò)的性能，但是仍存在一些問(wèn)題：首先，從兩個(gè)單獨(dú)的模型中提取用于單目標(biāo)跟蹤器和親和力度量的功能，這會(huì)增加較多的計(jì)算開銷；其次，由于在關(guān)聯(lián)性計(jì)算中沒有使用單目標(biāo)跟蹤器功能，因此他們必須訓(xùn)練額外的關(guān)聯(lián)網(wǎng)絡(luò)對(duì)此進(jìn)行補(bǔ)救，這進(jìn)一步增加了他們的內(nèi)存需求；最后，單目標(biāo)跟蹤器和親和力模型的獨(dú)立特征提取以及復(fù)雜的親和力網(wǎng)絡(luò)設(shè)計(jì)，使訓(xùn)練程序變得復(fù)雜。文獻(xiàn)［11］對(duì)此進(jìn)行了改進(jìn)，提出了一種基于多任務(wù)學(xué)習(xí)的在線多目標(biāo)跟蹤模型（UMA），該模型將基于單目標(biāo)跟蹤的運(yùn)動(dòng)模型和親和力網(wǎng)絡(luò)端到端地集成到一個(gè)統(tǒng)一的框架中。利用親和力模型可以幫助單目標(biāo)跟蹤器學(xué)習(xí)更多的區(qū)分特征以更好地處理遮擋，從而簡(jiǎn)化了訓(xùn)練和測(cè)試過(guò)程，有效地提高了計(jì)算效率。

該類方法對(duì)于檢測(cè)缺乏的問(wèn)題有一定的魯棒性，可以通過(guò)區(qū)域搜索得到暫時(shí)的目標(biāo)定位信息。如果單目標(biāo)跟蹤器自身的定位能力強(qiáng)，那就相當(dāng)于做了額外的檢測(cè)，所以其跟蹤性能不錯(cuò)。缺點(diǎn)是該類方法是針對(duì)每個(gè)目標(biāo)進(jìn)行依次跟蹤，跟蹤效率太低。

2.4 聯(lián)合在線檢測(cè)與跟蹤的多目標(biāo)跟蹤方法

不論是基于檢測(cè)的跟蹤，還是基于單目標(biāo)跟蹤器的框架，都是把檢測(cè)或單目標(biāo)跟蹤與數(shù)據(jù)關(guān)聯(lián)分開進(jìn)行，要么重點(diǎn)考慮選擇性能更好的檢測(cè)器，要么重點(diǎn)研究跟蹤部分，并沒有考慮兩者之間的聯(lián)系。使用聯(lián)合檢測(cè)跟蹤框架，一方面好的檢測(cè)可以提高跟蹤器的性能，另一方面，跟蹤結(jié)果可以在一定程度上彌補(bǔ)目標(biāo)檢測(cè)器的漏檢、錯(cuò)檢等問(wèn)題。

文獻(xiàn)［12］訓(xùn)練了具有ResNet-101和特征金字塔網(wǎng)絡(luò)的目標(biāo)檢測(cè)器（Faster R-CNN），將目標(biāo)檢測(cè)器轉(zhuǎn)換為跟蹤器（Tracktor++）并利用上一幀中的目標(biāo)邊界框回歸目標(biāo)在當(dāng)前幀中的位置，當(dāng)出現(xiàn)遮擋或分類分?jǐn)?shù)低于閾值時(shí)認(rèn)為軌跡終止，否則繼續(xù)。新目標(biāo)的產(chǎn)生是根據(jù)檢測(cè)結(jié)果與已有軌跡的交并比（小于閾值）來(lái)創(chuàng)建，算法思想，如圖2所示。除此之外，為了減少幀間身份切換次數(shù)，他們還對(duì)跟蹤器進(jìn)行了拓展，一方面是運(yùn)動(dòng)模型部分，應(yīng)用相機(jī)運(yùn)動(dòng)補(bǔ)償（CMC）和恒定速度假設(shè)（CVC）分別來(lái)解決大幅度的相機(jī)運(yùn)動(dòng)和視頻的低幀率問(wèn)題；另一方面利用外觀模型，針對(duì)重新出現(xiàn)的目標(biāo)使用孿生網(wǎng)絡(luò)進(jìn)行重識(shí)別。實(shí)驗(yàn)表明，在Faster RCNN、DPM和SDP三種不同檢測(cè)器的輸入下，跟蹤性能差距不大，所以該算法對(duì)于平衡檢測(cè)的輸入效果提升很大。

圖2 Tracktor++算法思想Fig.2 The Algorithm Idea of Tracktor++

在此跟蹤框架基礎(chǔ)上，文獻(xiàn)［13］通過(guò)將Faster R-CNN 換成CenterNet［14］實(shí)現(xiàn)跟蹤，因此跟蹤的邊界框也就變成了跟蹤邊界框的中心點(diǎn)?；谶吔缈虻臋z測(cè)器會(huì)列舉出潛在目標(biāo)的所有位置，并對(duì)每個(gè)目標(biāo)進(jìn)行分類以及后處理。基于中心點(diǎn)（CenterNet）的方法與Tracktor++相比，是端到端的，更簡(jiǎn)單快速準(zhǔn)確。他們訓(xùn)練檢測(cè)器以輸出從當(dāng)前目標(biāo)中心點(diǎn)到前一幀中心點(diǎn)的偏移矢量，僅基于此預(yù)測(cè)偏移量與前一幀中檢測(cè)到的中心點(diǎn)之間的距離進(jìn)行的貪心匹配就足以實(shí)現(xiàn)目標(biāo)對(duì)象關(guān)聯(lián)。為了結(jié)構(gòu)簡(jiǎn)單，當(dāng)一個(gè)目標(biāo)離開圖像或被遮擋并重新出現(xiàn)時(shí)，將為其分配新的標(biāo)識(shí)，即不考慮重識(shí)別部分?；谳p量級(jí)架構(gòu)，此跟蹤器可以實(shí)時(shí)運(yùn)行并且跟蹤性能比較好。

該類方法把檢測(cè)和跟蹤整合到統(tǒng)一框架，可以利用檢測(cè)與跟蹤相輔相成，實(shí)現(xiàn)更好的跟蹤結(jié)果。但是該類方法并不能很好的應(yīng)對(duì)遮擋帶來(lái)的問(wèn)題，其身份切換次數(shù)比較高、漂移問(wèn)題嚴(yán)重。

3 算法性能比對(duì)

公開數(shù)據(jù)集和評(píng)價(jià)指標(biāo)對(duì)于推動(dòng)計(jì)算機(jī)視覺的發(fā)展非常重要，同樣對(duì)于推動(dòng)多目標(biāo)跟蹤的發(fā)展也具有十分重要的意義。本節(jié)主要介紹了多目標(biāo)跟蹤領(lǐng)域的常見數(shù)據(jù)集和評(píng)價(jià)指標(biāo)，并對(duì)上文提到的方法進(jìn)行性能比對(duì)。

3.1 數(shù)據(jù)集

（1）多目標(biāo)跟蹤挑戰(zhàn)（MOT Challenge）是最常用的多目標(biāo)跟蹤基準(zhǔn)，它為行人跟蹤提供了目前公開的一些最大的數(shù)據(jù)集。對(duì)于每個(gè)數(shù)據(jù)集，提供真實(shí)標(biāo)注信息并劃分訓(xùn)練集和測(cè)試集。多目標(biāo)跟蹤挑戰(zhàn)為大部分?jǐn)?shù)據(jù)集提供檢測(cè)，這樣研究者可以只專注于提升跟蹤性能，并且為研究者提供測(cè)試平臺(tái)。

MOT15［15］：全稱為2D MOT 2015，它包含22個(gè)視頻，其中11個(gè)用于訓(xùn)練，11個(gè)用于測(cè)試。收集在固定或移動(dòng)攝像機(jī)拍攝、不同的環(huán)境和照明條件等情況下的各類視頻。它總共包含11283個(gè)不同分辨率的幀，1221個(gè)不同的標(biāo)識(shí)和101345個(gè)檢測(cè)框。

MOT16：具有更大的行人密度，視頻也更具有挑戰(zhàn)性。數(shù)據(jù)集中總共包含14個(gè)視頻，其中7個(gè)用于訓(xùn)練，7個(gè)用于測(cè)試。這次數(shù)據(jù)集包含11235幀，1342個(gè)標(biāo)識(shí)，總共292733個(gè)檢測(cè)框。

MOT17［16］：與MOT16 具有相同的視頻，但具有更準(zhǔn)確的標(biāo)記，并且每個(gè)視頻有三組檢測(cè)：一組來(lái)自Faster R-CNN，一組來(lái)自DPM，一組來(lái)自SDP。使用三個(gè)檢測(cè)器提供的結(jié)果更加準(zhǔn)確，也是現(xiàn)在主要使用的數(shù)據(jù)集。

MOT20［17］：具有極大的行人密度，包含8個(gè)視頻（4個(gè)用于訓(xùn)練，4個(gè)用于測(cè)試），該數(shù)據(jù)集包含13410幀、6869個(gè)軌跡（標(biāo)識(shí)）和2259143個(gè)檢測(cè)框，比以前的數(shù)據(jù)集多得多。

多目標(biāo)跟蹤與分割（MOTS）［18］：該數(shù)據(jù)集將多目標(biāo)跟蹤任務(wù)擴(kuò)展到實(shí)例分割跟蹤，使用半自動(dòng)標(biāo)注程序在兩個(gè)現(xiàn)有的跟蹤數(shù)據(jù)集（MOT Challenge 和KITTI）上創(chuàng)建了密集的像素級(jí)的標(biāo)注。新標(biāo)注包含了10870個(gè)視頻幀、977個(gè)不同對(duì)象（汽車和行人）以及65，213個(gè)像素掩碼。

跟蹤任何目標(biāo)（TAO）［19］：多目標(biāo)跟蹤領(lǐng)域的類別往往來(lái)自自動(dòng)駕駛和視頻監(jiān)控中特定的幾種對(duì)象（車輛、行人、動(dòng)物等），從而忽略了現(xiàn)實(shí)世界的大多數(shù)物體。于是為了改變多目標(biāo)跟蹤的現(xiàn)狀，TAO數(shù)據(jù)集可以跟蹤任何對(duì)象。該數(shù)據(jù)集包含2907個(gè)不同環(huán)境的高清視頻。每段視頻平均長(zhǎng)度半分鐘，包含833個(gè)對(duì)象類別。

（2）KITTI數(shù)據(jù)集

多目標(biāo)跟蹤挑戰(zhàn)數(shù)據(jù)集重點(diǎn)關(guān)注行人跟蹤，KITTI數(shù)據(jù)集［20］關(guān)注于人和車輛的跟蹤。該數(shù)據(jù)集由21個(gè)訓(xùn)練序列和29個(gè)測(cè)試序列組成，總共約19000幀（32分鐘），于2012年發(fā)布。它們由安裝在行駛汽車上的攝像機(jī)收集，包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù)，每張圖像中最多達(dá)15輛車和30個(gè)行人，還有各種程度的遮擋。

（3）nuScenes數(shù)據(jù)集

nuScenes［21］數(shù)據(jù)集是于2019 年發(fā)布的大型自動(dòng)駕駛數(shù)據(jù)集，有1000多個(gè)場(chǎng)景，其中包含140萬(wàn)幅圖像、40萬(wàn)次激光雷達(dá)掃描（判斷物體之間距離）和110萬(wàn)個(gè)三維邊界框。該數(shù)據(jù)集使用了6個(gè)攝像頭、1個(gè)激光雷達(dá)、5個(gè)毫米波雷達(dá)、GPS及慣導(dǎo)系統(tǒng)在內(nèi)的多個(gè)傳感器進(jìn)行獲取，包括對(duì)于自動(dòng)駕駛系統(tǒng)有挑戰(zhàn)性的復(fù)雜道路、天氣條件等。

（4）BLVD數(shù)據(jù)集

BLVD 數(shù)據(jù)集［22］由西安交通大學(xué)夸父號(hào)無(wú)人車采集。采集車上裝載多種傳感器用于周圍感知，包括一個(gè)三維激光雷達(dá)、一個(gè)全球定位系統(tǒng)（GPS）及慣性導(dǎo)航系統(tǒng)、兩個(gè)高分辨率多視點(diǎn)相機(jī)。該數(shù)據(jù)集定義了三種參與者，包括車輛、行人和騎行者，其中騎行者包括騎自行車的人和摩托車的人。BLVD一共標(biāo)注654個(gè)包含12 萬(wàn)幀的序列。根據(jù)標(biāo)注場(chǎng)景中交通參與者的密集程度（低和高）和光照條件（白天和晚上），BLVD包含四種場(chǎng)景。

3.2 評(píng)價(jià)指標(biāo)

為了評(píng)估MOT算法的性能，主要使用兩組評(píng)價(jià)指標(biāo)：VACE指標(biāo)［23］和CLEAR MOT 指標(biāo)［24］。前者從不同的方面描述單個(gè)指標(biāo)，包括虛警（FP）、漏警（FN）、大部分成功跟蹤的目標(biāo)數(shù)（MT）、大部分丟失的目標(biāo)數(shù)（ML）、身份切換數(shù)（IDS）和軌跡碎片數(shù)（Frag）；后者旨在衡量所有預(yù)測(cè)軌跡的整體性能，主要包括多目標(biāo)跟蹤準(zhǔn)確度（MOTA）和多目標(biāo)跟蹤精度（MOTP）。在上述所有的評(píng)價(jià)指標(biāo)中MOTA考慮了各種可能的跟蹤錯(cuò)誤，所以使用其作為重要的評(píng)價(jià)指標(biāo)。它的定義如下：

式中：GT—真實(shí)標(biāo)記框的數(shù)量。

3.3 實(shí)驗(yàn)對(duì)比

鑒于不同的跟蹤器采用不同的數(shù)據(jù)集進(jìn)行評(píng)估，我們把上文提到的算法分別在MOT15 和MOT17 挑戰(zhàn)數(shù)據(jù)集上進(jìn)行性能比較，如表1、表2所示。其中，考慮了額外的指標(biāo)IDF1［25］，以更好地表示跟蹤的準(zhǔn)確性?！硎緮?shù)值越大性能越好，↓表示數(shù)值越小性能越好。

表1 在MOT15數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.1 Experimental Results on the MOT15 Dataset

表2 在MOT17數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.2 Experimental Results on the MOT17 Dataset

從實(shí)驗(yàn)結(jié)果可以看出，基于深度特征的跟蹤方法—FairMOT取得了最好的MOTA結(jié)果，但是該類的其他方法的效果并不好，說(shuō)明FairMOT算法使用的無(wú)錨框的檢測(cè)算法（CenterNet）性能更好，更適用于多目標(biāo)跟蹤。這點(diǎn)從同樣使用該檢測(cè)算法的Cen‐terTrack的實(shí)驗(yàn)結(jié)果就可以看出。與此同時(shí)，F(xiàn)airMOT的IDSW值并不小，說(shuō)明一步法相對(duì)于兩步法還是存在很大的不足。但從大類上看，聯(lián)合在線檢測(cè)跟蹤的算法總體性能比較好，普遍優(yōu)于其他算法，說(shuō)明檢測(cè)器的性能對(duì)跟蹤結(jié)果影響深遠(yuǎn)，也進(jìn)一步說(shuō)明了計(jì)算機(jī)視覺領(lǐng)域各個(gè)任務(wù)之間是相互影響的。端到端數(shù)據(jù)關(guān)聯(lián)的算法中，基于全局優(yōu)化的NeuralSolver 表現(xiàn)出色，其IDSW 值很小，說(shuō)明利用整體信息的方式與在線跟蹤相比，可以獲取更多特征信息?；趩文繕?biāo)跟蹤器的STAM 在Frag 和IDSW也取得較小的值，說(shuō)明引入的時(shí)空注意力機(jī)制有效的緩解遮擋帶來(lái)的影響。

4 研究展望

基于對(duì)以上四類多目標(biāo)跟蹤算法的分析比對(duì)，提出以后的研究展望。

4.1 數(shù)據(jù)集的完善

目前大多數(shù)數(shù)據(jù)集是基于交通環(huán)境中行人和車輛的跟蹤研究，對(duì)于其他類別的跟蹤研究少之又少。改變多目標(biāo)跟蹤現(xiàn)狀，提出包含更多類別的多目標(biāo)跟蹤數(shù)據(jù)集至關(guān)重要。

除了增加類別外，現(xiàn)有的跟蹤器遠(yuǎn)沒有足夠的標(biāo)記數(shù)據(jù)集來(lái)訓(xùn)練滿意的模型以在所有條件下進(jìn)行跟蹤，所以如何對(duì)數(shù)據(jù)集進(jìn)行大量準(zhǔn)確豐富的標(biāo)記來(lái)輔助跟蹤器進(jìn)行跟蹤是個(gè)巨大挑戰(zhàn)。

綜上，創(chuàng)建標(biāo)注全面、類別豐富的多目標(biāo)跟蹤數(shù)據(jù)集是該領(lǐng)域的一個(gè)重點(diǎn)研究方向。

4.2 目標(biāo)檢測(cè)算法性能的提升

目標(biāo)檢測(cè)作為多目標(biāo)跟蹤組成部分的第一環(huán)節(jié)，其性能對(duì)跟蹤結(jié)果有巨大影響。雖然目標(biāo)檢測(cè)領(lǐng)域已經(jīng)取得巨大成功（Cen‐terNet等），但是針對(duì)于多目標(biāo)跟蹤領(lǐng)域的檢測(cè)還需要進(jìn)一步發(fā)展。漏警影響著MOTA的得分，使用更高質(zhì)量的檢測(cè)器仍然是減少漏警的最有效方法，也是多目標(biāo)跟蹤需要進(jìn)一步探索的方向。

4.3 深度學(xué)習(xí)的應(yīng)用

利用深度神經(jīng)網(wǎng)路提取的深度特征代替?zhèn)鹘y(tǒng)手工特征來(lái)進(jìn)行跟蹤，對(duì)跟蹤性能有很大提升。同樣，把深度學(xué)習(xí)應(yīng)用到跟蹤的其他部分，像匹配矩陣的計(jì)算、注意力機(jī)制的加入等，也推進(jìn)了多目標(biāo)跟蹤領(lǐng)域的發(fā)展。但是由于深度學(xué)習(xí)的計(jì)算量過(guò)大，一方面會(huì)導(dǎo)致計(jì)算速度慢并使跟蹤達(dá)不到實(shí)時(shí)速度，另一方面需要計(jì)算性能更好的設(shè)備。所以繼續(xù)推進(jìn)深度學(xué)習(xí)在多目標(biāo)跟蹤領(lǐng)域的發(fā)展并提高計(jì)算速度也是未來(lái)需要深入研究的重點(diǎn)。

5 結(jié)論

多目標(biāo)跟蹤對(duì)于智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)、自動(dòng)駕駛汽車以及人群行為分析具有巨大的實(shí)用價(jià)值。詳細(xì)分析了深度學(xué)習(xí)的多目標(biāo)跟蹤的研究進(jìn)展，并根據(jù)不同的跟蹤框架和網(wǎng)絡(luò)結(jié)構(gòu)，將其分為基于深度特征、基于端到端數(shù)據(jù)關(guān)聯(lián)、基于單目標(biāo)跟蹤器擴(kuò)展和聯(lián)合檢測(cè)跟蹤的四類方法，綜合分析其跟蹤原理、性能特點(diǎn)以及優(yōu)缺點(diǎn)。預(yù)測(cè)多目標(biāo)跟蹤的發(fā)展趨勢(shì)和研究方向，對(duì)其進(jìn)一步研究具有建設(shè)性意義。隨著深度學(xué)習(xí)的深入發(fā)展以及硬件系統(tǒng)計(jì)算性能的提升，多目標(biāo)跟蹤的研究和應(yīng)用將會(huì)呈現(xiàn)更美好的前景。