周 雪,梁 超,何均洋,唐瀚林
(1. 電子科技大學(xué)(深圳)高等研究院 廣東 深圳 518110;2. 電子科技大學(xué)自動化工程學(xué)院 成都 611731)
隨著計算機技術(shù)的發(fā)展和人工智能技術(shù)的日益成熟,通過計算機視覺來替代人類視覺系統(tǒng)對視頻數(shù)據(jù)進行分析理解的趨勢愈加明顯。多目標(biāo)跟蹤(multiple object tracking, MOT)是視頻分析理解的熱門問題之一,其結(jié)合了模式識別、機器學(xué)習(xí)、計算機視覺、圖像處理以及計算機應(yīng)用等多個學(xué)科,構(gòu)成了一種多目標(biāo)定位和運動軌跡預(yù)測的技術(shù)。在智能監(jiān)控、行為分析、人機交互、體育分析、智能駕駛系統(tǒng)等領(lǐng)域中,多目標(biāo)跟蹤技術(shù)有著廣泛的應(yīng)用前景及巨大的潛在經(jīng)濟價值。
在過去數(shù)十年里,多目標(biāo)跟蹤技術(shù)取得了極大的發(fā)展,也涌現(xiàn)出很多優(yōu)秀的方法。早期的一些工作[1-3]嘗試將多目標(biāo)跟蹤建模成多個單目標(biāo)跟蹤任務(wù)獨立進行,這是一種很直觀的解決方法。然而,在多目標(biāo)跟蹤場景中會面臨著更加復(fù)雜的問題,如目標(biāo)的頻繁遮擋、目標(biāo)突然出現(xiàn)或消失、目標(biāo)具有相似的外觀等,僅依靠單目標(biāo)跟蹤器很難在該場景下實現(xiàn)魯棒的跟蹤。隨著深度學(xué)習(xí)的發(fā)展和高性能檢測器的出現(xiàn),文獻[4-9]發(fā)現(xiàn)基于檢測的多目標(biāo)跟蹤(tracking-by-detection)在各個場景都可以取得更好的魯棒性。這類方法將多目標(biāo)跟蹤任務(wù)分為兩個單獨的子任務(wù),即檢測和數(shù)據(jù)關(guān)聯(lián)。第一步是通過高性能的檢測器[10-13]獲得每一個目標(biāo)的目標(biāo)框預(yù)測。第二步是基于重識別(re-identificaion, ReID)[14-15]、運動預(yù)測[16-18]等方法,構(gòu)建與目標(biāo)相關(guān)的信息來實現(xiàn)幀間匹配,以形成軌跡。這類方法至今依然在多目標(biāo)跟蹤算法中占據(jù)著“統(tǒng)治”地位。雖然基于檢測的多目標(biāo)跟蹤方法性能優(yōu)異,但是堆疊多個模塊構(gòu)成的系統(tǒng)也帶來巨大的計算量,并不利于實際應(yīng)用。為了平衡速度與精度,文獻[19-24]將注意力轉(zhuǎn)移到如何構(gòu)建一體化的多目標(biāo)跟蹤模型上,這也是目前多目標(biāo)跟蹤研究的新趨勢。
隨著多目標(biāo)跟蹤研究的推進,近年來也有不少工作對多目標(biāo)跟蹤研究進行綜述。已有綜述可分為3 類:第一類主要從多目標(biāo)跟蹤的模塊組成出發(fā),探討多目標(biāo)跟蹤各組成部分的研究進展[25-27];第二類梳理了已有的多目標(biāo)跟蹤算法,并進行分類概述[28-29];第三類主要圍繞多目標(biāo)跟蹤中的數(shù)據(jù)關(guān)聯(lián)方法[30-31]進行討論。不同于先前的工作,本文聚焦于多目標(biāo)跟蹤一體化研究進展,對近年來廣受關(guān)注的一體化多目標(biāo)跟蹤算法進行了系統(tǒng)性地綜述。從不同的一體化構(gòu)建思路出發(fā),梳理包括構(gòu)建出發(fā)點、框架設(shè)計、方法優(yōu)缺點、研究趨勢等方面的內(nèi)容,并結(jié)合公開數(shù)據(jù)集[32-34]對比分析已有的一體化多目標(biāo)跟蹤方法的優(yōu)勢和局限性,為相關(guān)領(lǐng)域做進一步研究提供參考。
當(dāng)前多目標(biāo)跟蹤系統(tǒng)主要分為4 個模塊,即檢測、外觀建模、運動建模和數(shù)據(jù)關(guān)聯(lián)。模塊間的相互關(guān)系如圖1 所示,其中藍(lán)色實線表示定位信息傳輸,紅色實線表示匹配信息。
圖1 多目標(biāo)跟蹤系統(tǒng)中4 大模塊相互關(guān)系示意圖
1)檢測:在多目標(biāo)跟蹤系統(tǒng)中對場景中出現(xiàn)的目標(biāo)進行定位與尺度預(yù)測,其結(jié)果往往對多目標(biāo)跟蹤性有決定性影響。當(dāng)前較先進的方法(state-ofthe-art, SOTA)的解決方案均采用了基于深度學(xué)習(xí)的高性能檢測框架,如Faster R-CNN[10]、CenterNet[35]、YOLOX[36]等。
2)外觀建模:指利用目標(biāo)的視覺外觀,構(gòu)建具有判別性的匹配特征。當(dāng)前主流的多目標(biāo)跟蹤方法[6-9]均采用先進的重識別技術(shù)(ReID)[14-15],通過深度卷積網(wǎng)絡(luò)將每一個目標(biāo)抽象為一個具有高階判別語義的匹配特征,實現(xiàn)外觀建模。該技術(shù)有效地彌補時空匹配[4-5]在密集場景造成的錯誤匹配,是當(dāng)前提高算法數(shù)據(jù)關(guān)聯(lián)能力最有效的方法之一。
3)運動建模:指通過目標(biāo)已有的運動狀態(tài)建立運動模型,以預(yù)測目標(biāo)下一幀可能出現(xiàn)的位置。在多目標(biāo)跟蹤中,運動建模具有極大的應(yīng)用和研究價值。當(dāng)前方法主要通過引入Kalman 濾波[16]和單目標(biāo)跟蹤器(single object tracking, SOT)[37-38]來建模目標(biāo)的運動信息,不僅有利于通過時序挖掘召回檢測器漏檢的部分目標(biāo),提高了目標(biāo)定位的魯棒性,也能利用時序信息增強算法的匹配能力,降低目標(biāo)漂移的發(fā)生概率。
4)數(shù)據(jù)關(guān)聯(lián):指的是利用目標(biāo)的運動,外觀等信息建立跨幀目標(biāo)間的相似性,找到最優(yōu)的匹配關(guān)系。目前主流的數(shù)據(jù)關(guān)聯(lián)方式通過匈牙利算法[39]和正則化策略來計算總代價最小的兩兩匹配關(guān)系作為最優(yōu)解。也有一些工作引入圖卷積神經(jīng)網(wǎng)絡(luò)[40]來替代匈牙利算法,通過深度學(xué)習(xí)的方式構(gòu)建更魯棒的匹配關(guān)系生成器。
隨著研究進一步深入,近年來很多工作關(guān)注于如何聯(lián)合上述兩個或多個模塊來構(gòu)建一體化多目標(biāo)跟蹤算法。這些方法無論在處理速度還是性能上都表現(xiàn)優(yōu)異,受到了廣泛關(guān)注。下面,將從不同的一體化構(gòu)建思路出發(fā)展開論述。
該類方法的出發(fā)點是構(gòu)建一個可以同時輸出目標(biāo)定位和外觀匹配信息的模型。具體來說,對于第t幀的圖像輸入xt,僅通過一個統(tǒng)一的模型 ψ進行處理就可以輸出兩種任務(wù)信息,其具體操作如下:
式中,Dt為 第t幀 目標(biāo)框的集合;Et表 示Dt中目標(biāo)框所對應(yīng)的匹配信息集合。由于減少了反復(fù)調(diào)用外觀模型對每個目標(biāo)單獨提取特征所帶來的巨額計算量,該類一體化方法極大地提高了推理速度,甚至在一些非密集場景用單張GPU 可以實現(xiàn)實時推理。
聯(lián)合檢測和外觀建模的一體化方法[41]在兩階段檢測器Faster R-CNN[10]的基礎(chǔ)上添加額外的全連接層來提取用于匹配的外觀信息。JDE[19]通過重新設(shè)計一階段檢測器YOLOv3[11]的輸出模塊,實現(xiàn)定位和匹配信息的同步輸出。上述兩個工作通過輸出結(jié)構(gòu)的改進,簡單有效地將匹配特征提取融入到不同檢測框架中,后續(xù)方法均參考該構(gòu)建思路進行進一步擴展或改進。RetinaTrack[42]在上述思路的基礎(chǔ)上設(shè)計了多分支頭,在不同分辨率的特征圖上安排K個錨點框,減少目標(biāo)重疊帶來的歧義。FairMOT[43]認(rèn)為密集的錨點(anchor)設(shè)置會帶來多目標(biāo)跟蹤性能的下降,為此基于無錨框檢測器CenterNet[35]搭建了一體化網(wǎng)絡(luò)。文獻[20]分析了一體化模型中檢測和ReID 任務(wù)所存在的本質(zhì)矛盾,指出了這種矛盾導(dǎo)致特征學(xué)習(xí)存在歧義而造成性能下降。為了解決該問題,CSTrack[20]引入了互相關(guān)網(wǎng)絡(luò),通過共性和差異性學(xué)習(xí)促使網(wǎng)絡(luò)生成與任務(wù)相關(guān)的特征,有效提高了一體化方法的性能。文獻[44]提出了QDTrack,通過在真實標(biāo)簽附近密集采樣上百個目標(biāo)框用于相似性學(xué)習(xí),以提高所提取外觀特征的匹配能力。
總的來看,該類方法巧妙地統(tǒng)一檢測和外觀建模,有效地提高了多目標(biāo)跟蹤的效率。然而,當(dāng)前方法依然強依賴于檢測器所獲得的檢測結(jié)果。如果檢測結(jié)果不可靠,出現(xiàn)漏檢、誤檢的情況,往往會造成軌跡斷裂或錯誤匹配。
聯(lián)合檢測和運動建模的一體化方法本質(zhì)是賦予檢測器運動建模的能力。在模型輸入上,除了當(dāng)前幀的圖像xt之外,還需將上一幀的目標(biāo)定位Dt?1一起輸入到模型 ψ之中,通過模型的運動建模能力實現(xiàn)已有目標(biāo)的跨幀傳播。其操作可總結(jié)為:
Tracktor[23]首次采用上述思路將檢測器轉(zhuǎn)換為跟蹤器,利用Faster R-CNN[10]第二階段網(wǎng)絡(luò)的回歸能力實現(xiàn)將上一幀目標(biāo)框傳播到當(dāng)前幀,以一種簡單高效的方式將檢測器轉(zhuǎn)化為跟蹤器。受到Tracktor 的啟發(fā),文獻[24]基于無錨框檢測器CenterNet[35]搭建了跟蹤器CenterTrack,把目標(biāo)逐幀傳播設(shè)定為中心點跟蹤問題,通過預(yù)測點逐幀的偏移量實現(xiàn)多目標(biāo)跟蹤。雖然上述框架十分簡潔,基于檢測器的一次前向傳播就可完成多目標(biāo)跟蹤,但是其缺點也很明顯,即在一些長距離跟蹤或者遮擋場景并不魯棒。針對該問題,基于CenterTrack的框架引入卷積門控循環(huán)單元[45],文獻[46]提出了PermaTrack。通過編碼輸入視頻中目標(biāo)的時空演化,PermaTrack可以推斷部分或完全遮擋目標(biāo)的位置,提高了多目標(biāo)跟蹤在遮擋場景的魯棒性。隨著Transformer 網(wǎng)絡(luò)[47]的興起,文獻[48]提出了TransTrack,將Transformer 檢測框架Dert[49]擴展成為一種基于鍵值(Key)查詢的運動預(yù)測模型,實現(xiàn)了目標(biāo)的遷移傳播。
除了直接利用檢測器的回歸能力之外,另一種思路是考慮將先進的單目標(biāo)跟蹤融入到檢測器之中構(gòu)建一體化網(wǎng)絡(luò)。如文獻[50]提出了SOTMOT,在CenterNet[35]的基礎(chǔ)上增加一個額外的單目標(biāo)跟蹤分支,通過先進的嶺回歸目標(biāo)跟蹤方式[51]實現(xiàn)多個目標(biāo)的運動傳播。文獻[52]提出了SiamMOT,在Faster-RCNN[10]的基礎(chǔ)上引入了孿生網(wǎng)絡(luò)跟蹤[17]。通過候選區(qū)域生成網(wǎng)絡(luò),SiamMOT 可直接在編碼后的特征上獲取每個目標(biāo)的特征和對應(yīng)檢索區(qū)域,并利用互相關(guān)操作預(yù)測目標(biāo)在幀間的移動情況。
上述方法高效地將運動建模融入到檢測器中,提高了目標(biāo)一致性預(yù)測的魯棒性,然而在長時或復(fù)雜的跟蹤場景中,目標(biāo)運動無法提供可靠的匹配信息,依然存在目標(biāo)漂移的風(fēng)險。
雖然上述兩種一體化思路無論在精度還是處理速度上都取得了SOTA 的性能,但是其局限性也很明顯??梢?,運動建模和外觀特征是人類觀測和跟蹤一個物體必須考慮的兩方面信息,僅考慮其中一者難以應(yīng)對復(fù)雜多變的實際場景。因此,為了進一步提高多目標(biāo)跟蹤的性能,后續(xù)工作將檢測、外觀建模和運動建模集成到一個網(wǎng)絡(luò)中。
文獻[53]提出CorrTrack,在聯(lián)合檢測和外觀建模的一體化方法FairMOT[43]的基礎(chǔ)上融入了時空信息,通過局部自注意力的方式建模了目標(biāo)與周圍環(huán)境之間的時空拓?fù)潢P(guān)系,提高了一體化模型的跟蹤性能。文獻[54]提出了FUFET,采用金字塔光流法[55]預(yù)估目標(biāo)在場景中的運動情況,彌補了單一外觀特征帶來的局限,進一步提高了不同幀目標(biāo)匹配的一致性。文獻[56]將CenterTrack[24]預(yù)測目標(biāo)偏移量的思路融入到聯(lián)合檢測和外觀建模的方法中,提出了TraDeS。TraDeS 利用跟蹤線索增強了模型目標(biāo)檢測和分割的性能。文獻[57]設(shè)計了一種輕量化的再查詢網(wǎng)絡(luò),巧妙地擴展用于匹配的外觀特征,以一種極低的開銷建模多個目標(biāo)的時序線索。在當(dāng)前廣受歡迎的聯(lián)合檢測和外觀建模的一體化方法上(如FairMOT[43]和CSTrack[20]),該模塊以極小的代價顯著提高其跟蹤性能。雖然這類方法的已有成果較少,但是其高性能和優(yōu)異的實時性也正吸引著越來越多的學(xué)者投入到其研究中。
隨著基于視頻的目標(biāo)檢測技術(shù)的發(fā)展,一些研究者也關(guān)注于是否可以基于視頻片段輸入來構(gòu)建端到端的多目標(biāo)跟蹤框架。該類方法目的是通過自動處理一段視頻序列輸入,直接生成多個目標(biāo)的運動軌跡和定位信息,不再需要引入額外的數(shù)據(jù)關(guān)聯(lián)模型或步驟。其具體操作可被總結(jié)為:
式中, ψ表示端到端的一體化模型;S表示視頻片段輸入;T為所輸出的目標(biāo)定位和匹配結(jié)果的集合。
TubeTK[22]引入3D 卷積對視頻輸入進行編碼,直接預(yù)測目標(biāo)的時空位置和運動軌跡。由于全局的信息引入,TubeTK 在克服遮擋方面表現(xiàn)出色。CTracker[21]構(gòu)建了一種鏈?zhǔn)降母櫡椒?,將目?biāo)檢測、特征提取、數(shù)據(jù)關(guān)聯(lián)3 個模塊集成到單個網(wǎng)絡(luò)中。具體來說,CTracker 將相鄰兩幀圖像建模為一個節(jié)點,并將整個視頻序列拆分為通過重復(fù)幀鏈接的節(jié)點鏈。通過對節(jié)點進行處理,模型可以直接預(yù)測相鄰幀目標(biāo)的兩兩匹配關(guān)系和目標(biāo)定位信息,并通過鏈接結(jié)構(gòu)完成長時軌跡的預(yù)測。雖然該類方法的已有工作較少且性能較低,但是其簡單高效的多目標(biāo)跟蹤實現(xiàn)方式,也提供了一種一體化訓(xùn)練和跟蹤的新思路。
本章通過實驗定量且定性地分析不同一體化方法的性能表現(xiàn)。在比較不同方法的性能之前,本章首先介紹測試所用的數(shù)據(jù)集以及評價指標(biāo)。
為了公平比較,采用權(quán)威的MOT Challenge 系列數(shù)據(jù)集進行測評。MOT Challenge 系列數(shù)據(jù)集雖然不是最早的一個數(shù)據(jù)集,但是因為其提供了更豐富的測試場景和更公平的測評環(huán)境,自2015 年后提出的多目標(biāo)跟蹤方法普遍在該數(shù)據(jù)集上做橫向或縱向比較。目前,MOT Challenge 官方針對于行人類別共發(fā)布了4 個數(shù)據(jù)集供研究者進行研究,分別為MOT15[32]、MOT16[33]、MOT17[33]、MOT20[34],其詳細(xì)情況如表1 所示。
表1 MOT Challenge 系列數(shù)據(jù)集
多目標(biāo)跟蹤是一項需要精確定位和長時間關(guān)聯(lián)的任務(wù),評價非常復(fù)雜,往往很難用單個指標(biāo)概括整個系統(tǒng)的性能。目前,在MOT Challenge 的線上評估系統(tǒng)中有一套公認(rèn)的指標(biāo)來評價多目標(biāo)跟蹤系統(tǒng),主要由CLEAR MOT 指標(biāo)[58]和ID 指標(biāo)[59]構(gòu)成。本文采用當(dāng)前研究中最常用的多目標(biāo)跟蹤精度(multiple object tracking accuracy, MOTA)[58]和目標(biāo)識別準(zhǔn)確度(identification F1 score, IDF1)[59]作為主要評價指標(biāo)。此外,考慮到不同一體化方法構(gòu)建的出發(fā)點存在差異,為了更直觀地評價,本文采用了更多指標(biāo),如引入最多跟蹤目標(biāo)數(shù)(mostly tracked,MT)、最多丟失目標(biāo)數(shù)(mostly lost, ML)、漏檢數(shù)量(false negatives, FN)和誤檢數(shù)量(false positives, FP)來補充評價跟蹤器的召回能力;引入ID 切換數(shù)(identification switch, ID Sw.)來綜合評價生成軌跡的連貫性;引入幀率(Hz)來評價跟蹤器處理速度。
當(dāng)前所提出基于私有檢測(private detection,PD)的一體化方法廣泛采用MOT16、MOT17 和近年來提出的MOT20 進行測試及橫向比較。因此,為了保證實驗的權(quán)威和公平性,采用上述3 個基準(zhǔn)進行實驗數(shù)據(jù)分析。表2~表4 根據(jù)MOTA 排序,列舉了當(dāng)前主流的一體化方法和一些經(jīng)典的多模型堆疊方法在私有檢測賽道的性能指標(biāo)。其中,表2 的多模型方法用黑體標(biāo)識。
表2 MOT16 上基于私有檢測的方法性能比較
表4 MOT20 上基于私有檢測的方法性能比較
根據(jù)不同的探究方向,本小節(jié)的對比分析可分為如下幾個方面:
1)多模型與一體化進行比較。本文在MOT16的基準(zhǔn)上比較多模型堆疊方法和已有的一體化方法,其中用于比較的多模型方法包括經(jīng)典的SORT[4](使用POI 檢測結(jié)果的版本)、DeepSORT[6]、POI[7]和RAN[8]。從表2 的數(shù)據(jù)可以分析得到,較早提出的一體化方法(即TubeTK[22]、JDE[19]和CTracker[21])雖然可以取得與多模型堆疊相近的MOTA 分?jǐn)?shù),但是在匹配指標(biāo)IDF1 和ID Sw.上依然有較大差距。隨著進一步深入研究,從2020 年開始,基于檢測的一體化方法無論是跟蹤精度還是匹配性能都獲得了巨大提高,取得了絕對的“統(tǒng)治”地位。如現(xiàn)在性能最高的一體化方法CorrTrack[53]在多項多目標(biāo)跟蹤指標(biāo)上已經(jīng)遠(yuǎn)遠(yuǎn)超過了先前最先進的多模型跟蹤方法POI[7]。而在推理速度上,大多數(shù)一體化方法基本上都能保證10~30 FPS 的運行速度,極大地緩解了多模型堆疊方法處理速度慢,不適應(yīng)實際應(yīng)用場景的問題。
2)不同一體化方法的性能分析。在MOT16 和MOT17 的基準(zhǔn)上,評估了基于檢測的不同一體化方法的性能。所比較的方法可分為4 類:第一類是聯(lián)合檢測和外觀建模的方法,包括JDE[19]、QDTrack[44]、FairMOTv2[43]和CSTrack[20];第二類是聯(lián)合檢測和運動建模的方法,包括CenterTrack[24]、PermaTrack[46]、SOTMOT[50]和TransTrack[48];第三類是聯(lián)合檢測、外觀和運動建模的方法,包括TraDeS[56]、FUFET[54]、OMC[57]和CorrTrack[53];第四類為基于視頻輸入的端到端方法,包括TubeTK[22]和CTracker[21]。如表2 和表3 的結(jié)果所示,單獨融合外觀或運動信息均可構(gòu)建出高性能的多目標(biāo)跟蹤器,無論在MOTA 和IDF1 上均可取得優(yōu)異的性能。而對于同時進行外觀和運動建模的第三類方法來說,其性能相比于單獨考慮一種信息的方法獲得進一步提高,取得當(dāng)前最先進的水平。其性能優(yōu)異的原因可總結(jié)為以下兩點,一是有效融合了外觀和運動信息以提高模型對物體的感知定位能力,極大地減少了漏檢(FN)且增強了軌跡的連貫性(均取得了極高的MT 指標(biāo));二是在匹配能力上的提高,由于同時考慮了外觀和運動信息進行匹配, 這類方法相較于其基準(zhǔn)模型在IDF1 指標(biāo)上取得提升(如CSTrack[20]對比于OMC[57],F(xiàn)airMOTv2[43]對比于CorrTrack[53])。第四類方法雖然取得了與多模型堆疊方法相近的MOTA 分?jǐn)?shù),但是其IDF1 指標(biāo)與其他方法相比,依然存在較大差距,還有很大發(fā)展空間。
表3 MOT17 上基于私有檢測的方法性能比較
3)模型對場景適應(yīng)能力分析。為了分析一體化方法在不同場景的跟蹤魯棒性,本文在以目標(biāo)密集著稱的基準(zhǔn)MOT20 上進行進一步測試。如表4所示,聯(lián)合檢測、外觀和運動建模的一體化方法(OMC[57])依然取得了最先進的跟蹤性能,即MOTA 分?jǐn)?shù)最高。而對于目標(biāo)定位能力來說,基于無錨框檢測器CenterNet[35]的方法,即FairMOTv2[43]、CorrTrack[53]和SOTMOT[50]可以在密集場景中生成更多的檢測框,漏檢(FN)更少,使得其MT 的指標(biāo)遠(yuǎn)高于其他方法。雖然無錨框檢測相對于其他檢測思路在密集場景可以獲得更高的召回,但同樣也帶來了誤檢(FP)的急劇增加。大量誤檢會增加目標(biāo)漂移發(fā)生的可能性,即ID Sw.增加,同時也會損害多目標(biāo)跟蹤器的性能。此外,受到檢測后處理及數(shù)據(jù)關(guān)聯(lián)策略的影響,在MOT20上一體化方法的處理速度基本比MOT17 要下降50%。因此,一種針對密集場景的實時一體化方法有待被研究。
本文從多目標(biāo)跟蹤系統(tǒng)的組成出發(fā),綜述了近年來一體化多目標(biāo)跟蹤技術(shù)的研究進展,并從構(gòu)建思路、框架結(jié)構(gòu)及方法優(yōu)缺點等方面對不同的一體化方法進行詳細(xì)地分析。此外,也在權(quán)威的MOT Challenge 基準(zhǔn)上定量且公平地分析了各類方法的優(yōu)勢和局限性。目前多目標(biāo)跟蹤在一體化方面的研究已經(jīng)取得了極大突破,無論跟蹤性能還是推理速度都取得了顯著提高。但是對于可以可靠落地的一體化多目標(biāo)跟蹤方法來說,仍有許多關(guān)鍵性的問題需要深入細(xì)致地研究,包括以下幾點:
1)通用多目標(biāo)跟蹤。當(dāng)前多目標(biāo)跟蹤的研究只圍繞單一類別目標(biāo)(行人或車輛),通用多目標(biāo)跟蹤技術(shù)的研究進展緩慢。由于人工標(biāo)注難度大,當(dāng)前還未有被研究者廣泛接受的通用數(shù)據(jù)集提出,這也是限制該技術(shù)發(fā)展的主要原因。因此,一個大型通用多目標(biāo)跟蹤數(shù)據(jù)庫的構(gòu)建是打破現(xiàn)有多目標(biāo)跟蹤算法類別限制的關(guān)鍵。此外,通過無監(jiān)督的方式遷移從單一類別學(xué)習(xí)到的知識以構(gòu)建通用多目標(biāo)跟蹤器,也是值得研究的方向之一。
2)處理速度實時性。雖然目前有一些高性能的一體化方法可以在GPU 上達到實時推理的速度,但在移動端等邊緣設(shè)備中,受到成本和功耗的影響,先進的多目標(biāo)跟蹤方法依然難以實時落地。目前解決該問題存在兩種思路:一是通過工程加速和硬件優(yōu)化加速算法推理;二是通過模型壓縮、知識蒸餾等方式以更少的參數(shù)實時地實現(xiàn)先進的跟蹤性能。
3)場景泛化能力。受到拍攝角度、場景變化、天氣條件等因素的干擾,當(dāng)前的多目標(biāo)跟蹤方法往往需要在特定場景數(shù)據(jù)上微調(diào)模型參數(shù)才能取得優(yōu)異的性能。然而,在如自動駕駛等實際應(yīng)用場景中,所需考慮的場景覆蓋范圍廣,很難實時采集數(shù)據(jù)來維護模型性能。針對該問題,當(dāng)前一大研究趨勢是融入如激光雷達、GPS 等多模態(tài)信息來提高模型的場景泛化能力。此外,實時的模型參數(shù)在線更新方法,也是該問題的解法之一。