曾君懷,宋亞男,徐榮華,黎安民
(廣東工業(yè)大學(xué),廣東 廣州 510006)
圖1中跟蹤算法先通過You Only Look Once (YOLO)目標(biāo)檢測(cè)模塊獲得檢測(cè)框,然后檢測(cè)框信息作為兩個(gè)分支的輸入,一個(gè)分支進(jìn)行基于運(yùn)動(dòng)特征的跟蹤,另一個(gè)分支進(jìn)行基于外觀特征的跟蹤。兩個(gè)分支最終獲得的數(shù)據(jù)分別用trks1和trks2表示,trks(1/2)數(shù)據(jù)格式包含視頻中跟蹤目標(biāo)ID和位置信息,最后將以上兩類信息通過驗(yàn)證模塊進(jìn)行篩選利用?;谕庥^特征的跟蹤是在每一幀視頻中對(duì)跟蹤目標(biāo)進(jìn)行全局搜索,當(dāng)目標(biāo)消失再重現(xiàn)時(shí),算法是能夠重新檢測(cè)出目標(biāo)的,符合長時(shí)跟蹤的需求。
圖1 長時(shí)跟蹤算法框架
基于運(yùn)動(dòng)特征跟蹤模塊借鑒了SORT 跟蹤算法原理,包含卡爾曼濾波(Kalman)和匈牙利算法兩部分。卡爾曼濾波進(jìn)行運(yùn)動(dòng)估計(jì),針對(duì)當(dāng)前幀得到的某一目標(biāo)跟蹤框位置與大小預(yù)估下一幀該目標(biāo)預(yù)測(cè)框的信息,匈牙利算法則進(jìn)行數(shù)據(jù)關(guān)聯(lián)。SORT跟蹤算法在某一幀的實(shí)現(xiàn)可由圖2表示。
圖2 SORT跟蹤算法在第i幀的實(shí)現(xiàn)
圖2表示ID為1,2的兩個(gè)目標(biāo)在第i幀跟蹤的實(shí)現(xiàn)過程。實(shí)線表示第i幀的預(yù)測(cè)框,該預(yù)測(cè)框是由i-1幀圖像中同一目標(biāo)跟蹤框通過Kalman濾波預(yù)測(cè)出來的;虛線框表示檢測(cè)框,該檢測(cè)框內(nèi)目標(biāo)身份未知,是由YOLO算法得到的。接著運(yùn)用匈牙利算法,通過判斷Intersection Over Union(IOU)大小進(jìn)行預(yù)測(cè)框和檢測(cè)框之間的兩兩匹配,從而使檢測(cè)框獲得目標(biāo)身份,完成當(dāng)前幀的跟蹤。
由圖3可知,該模塊主要是利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征提取,然后利用相似性度量函數(shù)比較跟蹤模板特征與檢測(cè)框內(nèi)目標(biāo)特征之間的相似性,以此判斷檢測(cè)框內(nèi)目標(biāo)與模板是否屬于同一對(duì)象。
圖3 基于外觀特征目標(biāo)匹配原理
如圖4所示,驗(yàn)證模塊分情況利用運(yùn)動(dòng)特征或外觀特征得到的結(jié)果進(jìn)行跟蹤,主要分為3種情況。
圖4 驗(yàn)證模塊
前兩種情況是當(dāng)某一目標(biāo)ID只存在運(yùn)動(dòng)特征得到的跟蹤結(jié)果或者只存在外觀特征得到的跟蹤結(jié)果時(shí)則直接輸出該結(jié)果。這兩種情況形成互補(bǔ),相對(duì)于只運(yùn)用外觀特征的跟蹤算法,跟蹤變得更加流暢。
第三種情況是基于運(yùn)動(dòng)特征得到的結(jié)果和基于外觀特征得到的結(jié)果,都存在某一目標(biāo)ID但是位置信息不一致。這時(shí)本文采取的方法是,需要先判斷是否連續(xù)5幀出現(xiàn)不一致,若是,則刪除錯(cuò)誤的跟蹤框并采用trks2中的信息進(jìn)行跟蹤;若否,使用trks1中的信息。
圖5是第三種情況發(fā)生時(shí)的一個(gè)情景序列圖,每兩幅圖像之間隔著數(shù)幀。兩個(gè)目標(biāo)交錯(cuò)運(yùn)行時(shí),基于運(yùn)動(dòng)特征的跟蹤在多幀之后發(fā)生跟錯(cuò)現(xiàn)象,而基于外觀特征卻能正常跟蹤。這里出現(xiàn)了上述的連續(xù)5幀trks1和trks2不一致情況,這時(shí)需要矯正這個(gè)錯(cuò)誤,則需刪除錯(cuò)誤的trks1中的跟蹤框并用外觀特征進(jìn)行重新識(shí)別跟蹤,即利用trks2中的信息。而對(duì)于上述未達(dá)到連續(xù)5幀的情況,本文認(rèn)為該情況產(chǎn)生的原因是目標(biāo)在被遮擋情況下,基于外觀特征進(jìn)行跟蹤時(shí)容易出現(xiàn)部分幀跟錯(cuò)的現(xiàn)象,如圖5(a),(b)中的第二幅圖所示,圖5(a)利用運(yùn)動(dòng)特征在部分遮擋情況下能繼續(xù)對(duì)目標(biāo)進(jìn)行跟蹤,而圖5(b)利用外觀特征在同樣情況下已經(jīng)跟蹤失敗,若周圍存在相似行人,則會(huì)出現(xiàn)跟錯(cuò)現(xiàn)象。針對(duì)這種因遮擋產(chǎn)生部分幀跟錯(cuò)的現(xiàn)象,本文采用方式就是在不滿足連續(xù)5幀trks1和trks2信息不一致情況下,運(yùn)用trks1信息進(jìn)行跟蹤,即運(yùn)用運(yùn)動(dòng)信息,這樣在遮擋短期時(shí)間內(nèi)跟蹤會(huì)顯得比較流暢。
圖5 第三種情況情景序列
實(shí)驗(yàn)從長時(shí)跟蹤數(shù)據(jù)集VOT 2019_LT 和洛桑聯(lián)邦理工學(xué)院提供的多攝像頭行人視頻數(shù)據(jù)集中篩選出3個(gè)具有挑戰(zhàn)性的視頻,如表1所示,其中前兩個(gè)視頻屬于VOT2019_LT數(shù)據(jù)集,第三個(gè)屬于多攝像頭行人視頻數(shù)據(jù)集。實(shí)驗(yàn)中將本文設(shè)計(jì)的算法與GlobalTrack ,SPLT 兩種跟蹤算法進(jìn)行實(shí)驗(yàn)對(duì)比。以上兩種算法都屬于2019年提出的長時(shí)跟蹤算法。論文中兩種算法都在公開數(shù)據(jù)集下與其他跟蹤算法進(jìn)行了對(duì)比實(shí)驗(yàn),都取得較好的成績。
表1 視頻序列及相關(guān)說明
主要從速度和精度兩方面對(duì)算法做評(píng)估,因此實(shí)驗(yàn)選用了Frames Per Second(FPS)和Accuracy兩種指標(biāo),F(xiàn)PS評(píng)估算法速度的好壞,數(shù)值越大,代表速度越快,跟蹤算法對(duì)于實(shí)時(shí)性要求較高。Accuracy衡量的是跟蹤算法的準(zhǔn)確度,它計(jì)算每一幀跟蹤框與人工標(biāo)注框(ground truth)之間的IOU,然后獲取視頻所有幀IOU的平均值就是Accuracy。
從表2可以看出,在Skiing和Rollerman兩個(gè)視頻中跟蹤準(zhǔn)確率方面取得了相似成績,而在EPFL_laboratory視頻中,本文算法準(zhǔn)確率方面處于明顯優(yōu)勢(shì);在速度方面,本文算法相比其他兩種算法也取得較好的效果。
表2 實(shí)驗(yàn)結(jié)果
通過實(shí)驗(yàn)比較,本文多特征結(jié)合的長時(shí)跟蹤算法在處理復(fù)雜背景、頻繁被遮擋這一因素挑戰(zhàn)下,算法優(yōu)勢(shì)較為明顯,速度方面也比較接近跟蹤算法實(shí)時(shí)性要求(實(shí)時(shí)性要求30FPS)。