王彩霞 林壽英
(福建農(nóng)林大學(xué)機(jī)電工程學(xué)院,福建 福州 350000)
近年來,人工智能子領(lǐng)域的計(jì)算機(jī)視覺技術(shù)得到了較大的發(fā)展,而目標(biāo)跟蹤是其他高層任務(wù),如動作識別、人群行為分析的基礎(chǔ)。隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,多目標(biāo)跟蹤(Multiple Object Tracking,MOT)算法也能夠充分挖掘并處理給定視頻中的信息,由此得到的深度網(wǎng)絡(luò)跟蹤模型更加輕量、表達(dá)能力更好且魯棒性強(qiáng)。在大數(shù)據(jù)時(shí)代背景下,各種基于深度學(xué)習(xí)的目標(biāo)跟蹤算法不斷涌現(xiàn),在多個(gè)領(lǐng)域的現(xiàn)實(shí)場景中被廣泛應(yīng)用,其發(fā)展前景廣闊,具體研究及應(yīng)用方式眾多。
(1)智能視頻監(jiān)控:多目標(biāo)跟蹤在視頻監(jiān)控領(lǐng)域中的應(yīng)用最為廣泛,可對視頻內(nèi)感興趣的目標(biāo)進(jìn)行自動識別、跟蹤及更高層任務(wù),其目標(biāo)主要為行人,通過對給定視頻或圖片序列進(jìn)行分析和理解,減少人為干預(yù),最終自動提取所需要的關(guān)鍵信息[1]。智能視頻監(jiān)控具有效率高、產(chǎn)業(yè)價(jià)值大、應(yīng)用前景廣等特點(diǎn)。
(2)基于視頻的非接觸人機(jī)交互:是指通過攝像頭或設(shè)備采集的視頻實(shí)現(xiàn)用戶與計(jì)算機(jī)之間的“交流”,可以對人的行為、聲音、眼神等高級語義信息進(jìn)行分析,進(jìn)而完成目標(biāo)跟蹤[2-3]。
(3)智能交通:智能交通可對車輛進(jìn)行識別與跟蹤,自動獲取車輛的流量、速度及道路的擁堵狀況等信息;無人駕駛系統(tǒng)中,可利用攝像頭或其他信息采集設(shè)備對周圍環(huán)境和運(yùn)動物體進(jìn)行跟蹤,在獲取信息后進(jìn)行更高語義任務(wù)[4]。
(4)智能養(yǎng)殖:對行人進(jìn)行檢測跟蹤的同時(shí),對動物進(jìn)行檢測跟蹤,從而獲取動物的運(yùn)動信息,并分析出養(yǎng)殖物的健康狀態(tài),保障其健康生長,以提高經(jīng)濟(jì)效益,該技術(shù)在奶牛養(yǎng)殖、海洋動物、蜜蜂養(yǎng)殖等的檢測跟蹤上都有應(yīng)用[5-7]。
目前根據(jù)初始化方式不同,多目標(biāo)跟蹤算法可分為基于檢測跟蹤(detection-based tracking,DBT)和基于初始框跟蹤(detection-tree tracking,DFT),前者是在實(shí)現(xiàn)跟蹤前,先對給定圖像或視頻內(nèi)的目標(biāo)進(jìn)行檢測得到信息,跟蹤過程中再將后續(xù)的信息鏈接到已有軌跡中;后者則是通過人工標(biāo)定第一幀的目標(biāo),邊檢測邊跟蹤,需要人為干預(yù)。
多目標(biāo)跟蹤由目標(biāo)檢測器(Detection)、追蹤器(Tracking)和目標(biāo)學(xué)習(xí)與分類(Learning or Classification)等部件構(gòu)成,其發(fā)展過程中,主要在目標(biāo)檢測器和追蹤器對不同圖像特征進(jìn)行更新并對目標(biāo)分類與關(guān)聯(lián)階段的不同方法進(jìn)行更新,以達(dá)到快速和準(zhǔn)確的目的[8]。目前研究的網(wǎng)絡(luò)體系結(jié)構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、孿生神經(jīng)網(wǎng)絡(luò)(SNN)、自動編碼器(AE)、生成對抗網(wǎng)絡(luò)(GAN)和自定義神經(jīng)網(wǎng)絡(luò),基于深度學(xué)習(xí)目標(biāo)跟蹤算法發(fā)展時(shí)間線如圖1所示。
圖1 基于深度學(xué)習(xí)目標(biāo)跟蹤算法發(fā)展線
為了提供一個(gè)可以公平測量和比較多目標(biāo)跟蹤算法性能的方法,多目標(biāo)跟蹤已經(jīng)確立了一套評估標(biāo)準(zhǔn),具體指標(biāo)包括CLEAR MOT、ID度量、多數(shù)跟蹤正確軌跡(mostly tracked trajectories,MT)、多數(shù)跟蹤失敗軌跡(mostly lost trajectories,ML)。其中,CLEAR MOT指標(biāo)是由歐洲CHIL項(xiàng)目、美國ACE項(xiàng)目與技術(shù)研究院(NIST)舉辦的研究會所提出的?;?個(gè)基礎(chǔ)的評估指標(biāo)提出了多目標(biāo)跟蹤準(zhǔn)確度(multiple object Tracking accuracy,MOTA)和多目標(biāo)跟蹤精度(multiple object tracking precision,MOTP)。假陽性(false positive,F(xiàn)P)是指給定視頻中誤檢測的目標(biāo)數(shù)量。假陰性(false negative,F(xiàn)N)是指給定視頻中未檢出的真實(shí)目標(biāo)數(shù)量。IDSW是指給定視頻中同一目標(biāo)發(fā)生ID切換的次數(shù)。
基于3個(gè)基礎(chǔ)評價(jià)指標(biāo)提出的MOTA與MOTP,其數(shù)學(xué)表達(dá)式分別如式(1)和式(2)所示。其中,MOTA越高,表示一個(gè)跟蹤綜合性能越好,上限為1,下限負(fù)無窮。
其中,GT是給定視頻中真實(shí)框的數(shù)量;ct和dt,j分別表示幀t中匹配成功的檢測框數(shù)量和預(yù)測框與真實(shí)框的重疊。MOTA評價(jià)跟蹤算法的準(zhǔn)確度,MOTP更關(guān)注檢測質(zhì)量,很少考慮跟蹤信息。此外,多目標(biāo)跟蹤的評價(jià)指標(biāo)還包括IDF1(正確識別檢測與真實(shí)框和計(jì)算檢測框之比)、Recall(正確檢測框/真實(shí)框)、Frag(軌跡碎片化次數(shù))等。
多目標(biāo)跟蹤是一種計(jì)算機(jī)視覺任務(wù),通過分析視頻,以識別和跟蹤屬于一個(gè)或多個(gè)類別的對象,且無須任何關(guān)于目標(biāo)外觀和數(shù)量的先驗(yàn)知識。不同于對象檢測算法,其輸出是由坐標(biāo)、高度和寬度標(biāo)識的矩形邊界框的集合。MOT算法還將目標(biāo)標(biāo)識與每個(gè)框相關(guān)聯(lián)(稱為“檢測”),以區(qū)分類內(nèi)對象。近年來基于深度學(xué)習(xí)的多目標(biāo)跟蹤主流算法包括檢測跟蹤分離的DBT算法和聯(lián)合檢測與跟蹤的JDT算法,各時(shí)間點(diǎn)代表性算法如圖2所示。
圖2 各時(shí)間點(diǎn)代表性算法
DBT算法分為檢測與跟蹤兩個(gè)子模塊,其性能更依賴于檢測器的質(zhì)量,DBT框架多目標(biāo)跟蹤流程圖如圖3所示。
圖3 DBT框架多目標(biāo)跟蹤流程圖
隨著深度卷積神經(jīng)網(wǎng)絡(luò)的不斷完善,檢測跟蹤模型中的檢測算法得到了飛速發(fā)展。檢測算法通過分析每個(gè)輸入幀,使用邊界框識別目標(biāo)類的對象。檢測過程中會出現(xiàn)錯(cuò)過檢測(missed detection)與錯(cuò)誤檢測(false detection),其中錯(cuò)過檢測受環(huán)境和目標(biāo)自身的遮擋影響,一般受環(huán)境影響更大,若提高目標(biāo)檢測的效率,則可以有效地提升跟蹤器的性能。一個(gè)或多個(gè)特征提取算法分析檢測,提取外觀、運(yùn)動或者交互特征,是進(jìn)行多目標(biāo)跟蹤任務(wù)的關(guān)鍵之一。深度特征是通過神經(jīng)網(wǎng)絡(luò)進(jìn)行大量訓(xùn)練學(xué)習(xí)提取出來的特征,利用深度特征的跟蹤方法效果較好。特征提取階段中的特征和運(yùn)動預(yù)測將用于計(jì)算成對檢測與軌跡之間的相似性或距離分?jǐn)?shù),而數(shù)據(jù)關(guān)聯(lián)則是將判斷相似階段產(chǎn)生的結(jié)果用于識別同目標(biāo)的檢測匹配,設(shè)計(jì)合理的融合表觀特征和運(yùn)動特征的代價(jià)矩陣,從而簡單地進(jìn)行相鄰幀的匹配[9]。
傳統(tǒng)跟蹤方法中檢測與跟蹤是分開進(jìn)行的,在建立跟蹤聯(lián)系過程中僅聯(lián)合高層數(shù),會丟失圖像外觀信息,需要一個(gè)計(jì)算量較大的特征提取器。而聯(lián)合檢測跟蹤[10](joint detection and tracking,JDT)是在基于監(jiān)測跟蹤的基礎(chǔ)上對部分功能模塊進(jìn)行一定程度的統(tǒng)合,在降低算法復(fù)雜性的同時(shí)增加功能模塊之間的耦合度,作用在于①聯(lián)合目標(biāo)的檢測與關(guān)聯(lián)共同學(xué)習(xí),將跟蹤融入目標(biāo)檢測過程中,將前幀的跟蹤結(jié)果作為輸入,更有利于處理遮擋與中斷情況;②利用深度特征強(qiáng)化多目標(biāo)跟蹤,深度特征代替?zhèn)鹘y(tǒng)手工特征;③融合單目標(biāo)跟蹤算法。
為了實(shí)現(xiàn)算法的簡化并提高跟蹤性能,自2019年以來FairMOT 聯(lián)合檢測跟蹤算法逐步出現(xiàn),BERGMANN等[11]人提出 Tracktor++算法,利用檢測網(wǎng)絡(luò)中的RPN網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)關(guān)聯(lián),從而實(shí)現(xiàn)檢測與跟蹤的融合。融合檢測過程中深度特征、表觀特征及運(yùn)動特征實(shí)現(xiàn)特征融合復(fù)用,JDE模型實(shí)現(xiàn)了與REID特征融合,但特征融合復(fù)用難度較大,有待進(jìn)一步研究。李沐雨等[12]提出雙通道與延遲處理模型,借鑒單目標(biāo)跟蹤(SOT)領(lǐng)域?qū)崿F(xiàn)多目標(biāo)跟蹤,基于單目標(biāo)跟蹤增強(qiáng)的多目標(biāo)跟蹤也是采用先檢測后跟蹤的策略,如何有效地利用單目標(biāo)跟蹤還需要進(jìn)一步研究。
通過MOTChallenge數(shù)據(jù)集對目前基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法進(jìn)行分析,探究其算法性能?;诠睲OT2016 數(shù)據(jù)集采用CLEAR MOT評價(jià)指標(biāo)進(jìn)行分析,根據(jù)上文可知,MOTA和MOTP與性能成正比(越大越好),F(xiàn)N、FP、IDSW與性能成反比(越小越好),分析結(jié)果如表1所示。
表1 基于CLEAR MOT評價(jià)指標(biāo)的多目標(biāo)跟蹤算法比較
從表1的算法可知,DBT模式算法在算法速度上有待提高,而JDT模式在算法準(zhǔn)確度與速度均衡上有進(jìn)步,但隨著目標(biāo)增多,算法速度會降低,未來平衡準(zhǔn)確度與速度是多目標(biāo)跟蹤發(fā)展方向。
對近年來基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法進(jìn)行整理和分析,并結(jié)合公開數(shù)據(jù)集對不同算法進(jìn)行驗(yàn)證,可以看出,基于檢測跟蹤作為目前主流多目標(biāo)跟蹤算法,在跟蹤準(zhǔn)確度與速度上均有較大的提升空間,在實(shí)際應(yīng)用中,存在訓(xùn)練數(shù)據(jù)集、實(shí)時(shí)性、長期跟蹤目標(biāo)遮擋消失與遮擋等問題,在復(fù)雜環(huán)境下,跟蹤精度、魯棒性與實(shí)時(shí)性上仍有很大的困難。未來可結(jié)合遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法,進(jìn)一步發(fā)展基于深度學(xué)習(xí)的多目標(biāo)跟蹤模型。