張廣耀,宋純鋒*
(1.中國(guó)科學(xué)院大學(xué) 人工智能學(xué)院,北京 100049;2.中國(guó)科學(xué)院自動(dòng)化研究所 智能感知與計(jì)算研究中心,北京 100190)
隨著互聯(lián)網(wǎng)視頻內(nèi)容的快速增長(zhǎng),基于視頻的視覺(jué)內(nèi)容分析成了計(jì)算機(jī)視覺(jué)中的一個(gè)熱門(mén)研究話(huà)題。多目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)中的一個(gè)基礎(chǔ)任務(wù),它的目的是在一段連續(xù)的視頻中關(guān)聯(lián)特定類(lèi)別的同一身份的檢測(cè)框,從而形成多條軌跡。高度優(yōu)化的多目標(biāo)跟蹤模型可以應(yīng)用于視頻監(jiān)控、動(dòng)作識(shí)別、自動(dòng)駕駛等。
近些年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,多目標(biāo)跟蹤任務(wù)已經(jīng)得到了長(zhǎng)足的發(fā)展。其中,基于兩步法的多目標(biāo)跟蹤[1]在大部分的通用場(chǎng)景下表現(xiàn)優(yōu)異。然而,在極度擁擠的場(chǎng)景下,兩步法多目標(biāo)跟蹤常常會(huì)失效。這是因?yàn)樾腥酥g的互相遮擋會(huì)阻止行人的有效檢出以及有判別力的行人表觀特征提取[2]。
一些現(xiàn)有的工作試圖通過(guò)學(xué)習(xí)一個(gè)對(duì)于漏檢和有噪聲的行人表觀特征更加魯棒的跟蹤器[3]來(lái)減少漏檢和幀間關(guān)聯(lián)混淆,為了實(shí)現(xiàn)這一目標(biāo),這類(lèi)工作一般會(huì)設(shè)計(jì)更加有效的跟蹤片段管理方式[3],或?qū)壽E進(jìn)行全局的優(yōu)化[4];然而,此類(lèi)模型需要利用未來(lái)幀的信息,因此無(wú)法滿(mǎn)足實(shí)際場(chǎng)景中在線(xiàn)跟蹤的要求。另一部分工作試圖解決漏檢問(wèn)題以及對(duì)遮擋下的行人表觀特征去噪聲[2,5],本文的工作就屬于這一類(lèi)別。在嚴(yán)重?fù)頂D的情況下,行人的全身目標(biāo)框之間互相遮擋嚴(yán)重,但行人頭部之間的遮擋相對(duì)較少,因此文獻(xiàn)[2]中提出了一種行人頭部跟蹤的模型HeadHunter-T 和基準(zhǔn)數(shù)據(jù)集Head Tracking 21(HT21)。這一范式引起了人們的廣泛關(guān)注。然而,為了在被遮擋之后保有同樣的身份,文獻(xiàn)[2]中只考慮了行人頭部的表觀特征,并沒(méi)有考慮其他的跟蹤線(xiàn)索。直覺(jué)上來(lái)說(shuō),行人頭部表觀特征非常魯棒,易于提取,是良好的行人頭部跟蹤的線(xiàn)索;但本文中的實(shí)驗(yàn)結(jié)果表明,行人頭部的表觀特征在擁擠場(chǎng)景下可能并不是最優(yōu)的,特別是在遠(yuǎn)距離的情況下,行人頭部會(huì)出現(xiàn)嚴(yán)重的模糊,因此無(wú)法提取有效的表觀特征。實(shí)驗(yàn)結(jié)果顯示,行人全身的表觀特征相較于行人頭部的表觀特征更加具有判別力,能夠更好地幫助行人頭部的跟蹤問(wèn)題。為了能夠利用全身的表觀特征線(xiàn)索幫助行人頭部跟蹤,本文提出了一種融合全身表觀特征的行人頭部跟 蹤模型 HT-FF(Head Tracking with Full-body Features)。該模型首先檢測(cè)頭框,然后利用頭框動(dòng)態(tài)生成全身框,最后利用全身框的表觀特征幫助頭框的跟蹤。為了能夠通過(guò)行人頭部的目標(biāo)框(頭框)生成精準(zhǔn)全身的目標(biāo)框(全身框),受到R-CNN(Region-CNN)[6]的啟發(fā),本文利用一個(gè)回歸分支對(duì)使用固定比例生成的錨框(Anchor)進(jìn)行修正,能得到更加精確的全身框。此外,為了能夠使全身的表觀特征更好地輔助行人頭部的跟蹤,本文設(shè)計(jì)了一種使用人體姿態(tài)估計(jì)生成熱力圖來(lái)引導(dǎo)身體表觀特征提取的模型。本文的HT-FF 模型在行人頭部跟蹤的基準(zhǔn)數(shù)據(jù)集HT21 上取得了最好的結(jié)果;此外,通過(guò)對(duì)固定比例的全身框進(jìn)行回歸,該模型還可以得到行人全身目標(biāo)框的結(jié)果,進(jìn)而在全身跟蹤的基準(zhǔn)數(shù)據(jù)集上提交結(jié)果進(jìn)行測(cè)試。
本文的主要工作包括:
1)設(shè)計(jì)了一種融合行人全身表觀特征的行人頭部跟蹤模型HT-FF,可以同時(shí)利用具有更好判別力的全身表觀特征線(xiàn)索和更少遮擋的行人頭部框運(yùn)動(dòng)線(xiàn)索。
2)為了能夠通過(guò)行人頭部的目標(biāo)框來(lái)提取全身表觀特征,設(shè)計(jì)了一種從固定比例全身目標(biāo)錨框進(jìn)行回歸的動(dòng)態(tài)全身目標(biāo)框生成模型和用人體姿態(tài)估計(jì)引導(dǎo)去噪聲的表觀特征提取模型。
3)本文模型HT-FF 可以同時(shí)完成行人頭部跟蹤和行人全身跟蹤的任務(wù),并在HT21 數(shù)據(jù)集上面取得了最好的性能。
多目標(biāo)跟蹤的目的是在一段視頻序列中,檢測(cè)特定類(lèi)別的所有目標(biāo)框,并關(guān)聯(lián)同一身份的目標(biāo)框,形成多條軌跡。為了評(píng)估多目標(biāo)跟蹤模型的性能,最常用的指標(biāo)是CLEAR Metric[7],其中MOTA(Multiple Object Tracking Accuracy)是一個(gè)綜合性的指標(biāo),這一指標(biāo)綜合考慮了IDs(ID switch)、FP(False Positive)和FN(False Negative);另一個(gè)常見(jiàn)指標(biāo)是IDF1(ID F1 Score)[8],它刻畫(huà)了成功匹配的軌跡在所有的軌跡真值的占比。在實(shí)踐過(guò)程中,MOTA 更多地會(huì)傾向于給檢測(cè)性能好的跟蹤器高分,IDF1 會(huì)傾向于給檢測(cè)和跟蹤性能都比較好的跟蹤器較高的分?jǐn)?shù)。為了評(píng)估不同場(chǎng)景下不同類(lèi)別多目標(biāo)跟蹤算法的性能,有許多的數(shù)據(jù)集陸續(xù)被提出來(lái)。其中MOT Challenge[8]提供了行人跟蹤的一系列數(shù)據(jù)集。KITTI[9]和Waymo[10]提供了自動(dòng)駕駛場(chǎng)景下的行人和車(chē)輛跟蹤的基準(zhǔn)數(shù)據(jù)集。
多目標(biāo)跟蹤問(wèn)題的常見(jiàn)范式是兩步法,即“先檢測(cè),后關(guān)聯(lián)”,總共分為四個(gè)基本步驟[11]:目標(biāo)檢測(cè)、軌跡預(yù)測(cè)、親和矩陣計(jì)算、關(guān)聯(lián)結(jié)果生成。兩步法的經(jīng)典的工作有Deep Sort[1]、JDE(Joint Detector and Embedding)[16]、FairMOT(Fair detection and re-identification MOT)[17]和GM-Trakcker(Graph Matching Tracker)[18]等。Deep SORT[1]提供了一種非常簡(jiǎn)單但是有效的方式:通過(guò)卡爾曼濾波[12]和深度行人重識(shí)別網(wǎng)絡(luò)分別進(jìn)行運(yùn)動(dòng)預(yù)測(cè)和表觀特征提取,然后通過(guò)匈牙利匹配對(duì)軌跡進(jìn)行關(guān)聯(lián)。后續(xù)的工作基本上是對(duì)于Deep SORT 的改進(jìn)[13-18]:JDE 使用同一個(gè)骨干網(wǎng)絡(luò)生成目標(biāo)檢測(cè)框和行人重識(shí)別的特征,使整個(gè)多目標(biāo)跟蹤的算法獲得了接近實(shí)時(shí)的性能。FairMOT 分析了檢測(cè)和行人重識(shí)別問(wèn)題之間的沖突,并提出了針對(duì)性的解決方案:降低表觀特征復(fù)雜度并使用基于Center Point 的目標(biāo)檢測(cè)模型。GM-Tracker 將多目標(biāo)跟蹤問(wèn)題建模成一個(gè)圖匹配的問(wèn)題,并且提出了一種可微分的多目標(biāo)跟蹤算法。
在密集場(chǎng)景中,普通的多目標(biāo)跟蹤模型常常會(huì)得到較差的跟蹤結(jié)果,這是因?yàn)樾腥酥g的遮擋會(huì)導(dǎo)致很多的漏檢;此外,檢測(cè)得到的全身框之間的重疊會(huì)導(dǎo)致提取到的行人重識(shí)別特征存在很多噪聲。MOT20[19]是評(píng)估密集場(chǎng)景下的行人跟蹤的基準(zhǔn)數(shù)據(jù)集。一些模型試圖在存在大量漏檢和表觀特征噪聲的情況下通過(guò)全局優(yōu)化[4]的方式優(yōu)化跟蹤結(jié)果;另一些模型試圖解決漏檢問(wèn)題,以及對(duì)表觀特征進(jìn)行去噪聲的處理[2,5]。在這之中,文獻(xiàn)[2]中設(shè)計(jì)了一種新的行人頭部跟蹤的范式,通過(guò)跟蹤密集場(chǎng)景中的遮擋較少的行人頭部,自然地解決了漏檢的問(wèn)題。
文獻(xiàn)[2]中提供了行人頭部跟蹤的基準(zhǔn)數(shù)據(jù)集HT21,該數(shù)據(jù)集共有4 段訓(xùn)練集和5 段測(cè)試集,為了能夠和全身跟蹤的模型進(jìn)行對(duì)比,HT21 中的部分訓(xùn)練集和測(cè)試集是從MOT20 的數(shù)據(jù)中重新標(biāo)注得到的。此外,文獻(xiàn)[2]中還提供了一種行人頭部跟蹤的模型HeadHunter-T,這是一種基于粒子濾波的速度模型和基于行人頭部的色彩直方圖的表觀特征的行人頭部跟蹤模型。
多目標(biāo)跟蹤的目標(biāo)是獲取特定類(lèi)別的物體的多條軌跡。在行人頭部跟蹤的任務(wù)中,類(lèi)別指的是行人的頭部。本文首先介紹通用行人頭部跟蹤的基本流程,然后介紹如何提取具有判別力的表觀特征。
2.1.1 行人頭部檢測(cè)
多種目標(biāo)檢測(cè)器都可以用來(lái)檢測(cè)行人的頭部,比如Faster R-CNN[20]、RetinaNet[21]等。在這些 檢測(cè)中,CenterNet[22]是一種一階段的目標(biāo)檢測(cè)器,這一檢測(cè)器可以利用DLA(Deep Layer Aggregation)[23]網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)。DLA網(wǎng)絡(luò)比較小的下采樣率以及CenterNet 一階段的特性使CenterNet 特別適合用來(lái)進(jìn)行實(shí)時(shí)的行人頭部檢測(cè)。本文將會(huì)使用CenterNet 作為默認(rèn)的行人頭部目標(biāo)檢測(cè)模型。
2.1.2 幀間行人頭部關(guān)聯(lián)
第t幀的檢測(cè)框di∈Dt可以在第t幀使用CenterNet 檢出。為了簡(jiǎn)化模型,本文使用了Deep SORT[1]中的通用流程,介紹如下。
為了建模同一物體在視頻中的時(shí)間連續(xù)性,本文使用了卡爾曼濾波[12]來(lái)建模行人頭部的運(yùn)動(dòng)。當(dāng)新的一幀出現(xiàn)時(shí),卡爾曼濾波可以預(yù)測(cè)過(guò)去的跟蹤在當(dāng)前幀的位置。利用位置信息和表觀特征可以計(jì)算兩個(gè)親和矩陣m(1)和m(2),其中:
其中:dj是當(dāng)前幀檢出的目標(biāo)框的位置;yi是已跟蹤的目標(biāo)的位置;是yi在各個(gè)方向上的標(biāo)準(zhǔn)差是 第k個(gè)行人在第t幀的表觀特征;為第i個(gè)檢測(cè)框的表觀特征。卡爾曼濾波在每一幀可以分為兩個(gè)步驟:預(yù)測(cè)和更新。預(yù)測(cè)時(shí)計(jì)算每一個(gè)Tracklet 在當(dāng)前幀的位置;更新時(shí)先通過(guò)兩個(gè)親和矩陣進(jìn)行匹配,然后將預(yù)測(cè)的位置和檢測(cè)得到的位置進(jìn)行加權(quán)得到最終的位置預(yù)測(cè)。
為了能夠處理行人頭部消失和新的行人頭部出現(xiàn),本文設(shè)置了兩個(gè)閾值t1和t2。當(dāng)m(1)(i,j) <t1或者m(2)(i,j) <t2時(shí),認(rèn)為新的目標(biāo)出現(xiàn)。最終的親和矩陣設(shè)置為這兩個(gè)矩陣的加權(quán)求和m(i,j)=λm(1)(i,j) +m(2)(i,j),在計(jì)算得到最終的親和矩陣之后,對(duì)親和矩陣進(jìn)行二分圖匹配可以得到最終的分配結(jié)果。如果一個(gè)已跟蹤的目標(biāo)沒(méi)有被分配新的檢測(cè)框,則通過(guò)恒定的速度更新目標(biāo)的位置。如果此目標(biāo)在連續(xù)的Td幀都沒(méi)有檢測(cè)框分配,這一目標(biāo)被認(rèn)為是已經(jīng)離開(kāi)了監(jiān)測(cè)區(qū)域并且將會(huì)被刪除。在本文的模型中,表觀特征和將使用全身的表觀特征進(jìn)行計(jì)算。
盡管行人頭部檢測(cè)框表觀特征穩(wěn)定而且易于提取,但是實(shí)驗(yàn)結(jié)果表明行人頭部框的表觀特征不具備足夠的判別力,這會(huì)損失行人頭部跟蹤的性能,特別是在遠(yuǎn)距離的情況下。為了能夠得到更精確的跟蹤結(jié)果,本文嘗試了多種跟蹤線(xiàn)索,最后發(fā)現(xiàn)全身的表觀特征對(duì)行人頭部跟蹤來(lái)說(shuō)是一個(gè)具有良好判別力的特征。
然而,利用全身的表觀特征進(jìn)行行人頭部的跟蹤具有兩個(gè)難點(diǎn):如何利用頭框得到精準(zhǔn)的全身框;如何從嚴(yán)重遮擋的行人全身框中提取去噪聲的表觀特征。針對(duì)這兩個(gè)問(wèn)題,本文接下來(lái)將詳細(xì)介紹所提出的模型。
2.2.1 錨框引導(dǎo)的動(dòng)態(tài)全身目標(biāo)框生成
相較于頭框的特征,全身框的特征更富有紋理而且對(duì)距離不敏感,這使它成為行人頭部跟蹤的合適的特征。然而,在擁擠場(chǎng)景下檢測(cè)全身框十分困難,這是因?yàn)槿砜虮舜酥g的相互遮擋帶來(lái)了大量的漏檢[2],而行人頭部之間的遮擋較少,漏檢也因此更少,這啟發(fā)了本文利用頭框來(lái)動(dòng)態(tài)地生成全身框。
為了使生成的目標(biāo)框更加精確,本文采用了兩階段法來(lái)得到全身框:第一階段,利用固定的比例生成全身錨框(Anchor);第二階段,利用R-CNN[6]的回歸分支對(duì)全身錨框進(jìn)行修正,進(jìn)而得到一個(gè)更精確的全身框的預(yù)測(cè)。實(shí)驗(yàn)表明,相較于單純的用固定的比例生成全身框,利用R-CNN 的回歸分支可以精確地修正全身框。
給定第t幀的頭框檢測(cè)結(jié)果dj∈Dt,dj=(xj,yj,wj,hj),其中:xj,yj表示頭框左上角的坐標(biāo),wj,hj表示頭框的寬度和高度。本文用表示用固定比例生成的錨框,固定的比例設(shè)置為:
在得到這個(gè)錨框之后,本文從圖像中裁剪出全身框,將它調(diào)整到128×224 大小之后輸入神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)回歸值。為了提升速度,本文采用Resnet-18 作為錨框修正的骨干網(wǎng)絡(luò),在將裁剪出的圖像界入Resnet-18 之后經(jīng)過(guò)一個(gè)全連接層可以得到邊框回歸的值。與R-CNN[6]的做法相同,本文利用網(wǎng)絡(luò)輸出的回歸值對(duì)固定比例生成的錨框進(jìn)行修正,可以得到最終預(yù)測(cè)的精確的全身框。
2.2.2 去噪聲的全身表觀特征提取
表觀特征是行人頭部跟蹤問(wèn)題中十分重要的線(xiàn)索,精確的表觀特征是行人頭部被遮擋后保持身份的關(guān)鍵線(xiàn)索。然而,在擁擠情形下,行人的全身框之間會(huì)存在相互覆蓋的問(wèn)題,這導(dǎo)致提取的表觀識(shí)別的特征存在大量噪聲。為了解決這一問(wèn)題,本文利用了人體姿態(tài)估計(jì)[24]的結(jié)果來(lái)對(duì)表觀特征進(jìn)行去噪聲,人體姿態(tài)估計(jì)為找到行人未被遮擋的部分提供了天然的掩碼。
本文使用了Alpha-pose[25]來(lái)預(yù)測(cè)人體姿態(tài)特征點(diǎn)。使用Alpha-pose 可以在每個(gè)行人的全身框中得到18 個(gè)姿態(tài)關(guān)鍵點(diǎn)的位置和置信度。本文認(rèn)為低置信度的產(chǎn)生來(lái)源于遮擋,因此設(shè)置了一個(gè)閾值s來(lái)篩除掉置信度過(guò)低的關(guān)鍵點(diǎn),對(duì)第t幀第m個(gè)行人目標(biāo)框,最后只留下關(guān)鍵點(diǎn)pi∈Ptm。為了將姿態(tài)估計(jì)的結(jié)果映射到原圖,本文以行人關(guān)鍵點(diǎn)的預(yù)測(cè)為中心,生成二維的高斯分布的熱力圖。生成的熱力圖記為Htm。每一個(gè)熱力圖可以通過(guò)下采樣來(lái)保持與特征圖大小一致。生成二維的高斯分布的熱力圖的方式如下:
其中,σ是超參數(shù)供后續(xù)調(diào)整。
生成的熱力圖表征了原圖中的可見(jiàn)的未被遮擋的部分,通過(guò)下采樣可以得到與特征圖大小相同的熱力圖。本文采用了雙線(xiàn)性插值的方式對(duì)熱力圖進(jìn)行下采樣,使熱力圖和特征圖采樣為同樣大小。本文希望下采樣之后的結(jié)果可以幫助引導(dǎo)生成去噪聲的行人重識(shí)別特征。如圖1 所示,首先圖像通過(guò)Resnet-50[26]網(wǎng)絡(luò)得到行人重識(shí)別的特征圖Ftm,對(duì)特征圖進(jìn)行平均池化操作可以得到全局的行人重識(shí)別特征fg,本文將下采樣之后的熱力圖Htm與Ftm相乘,然后進(jìn)行平均池化可以得到姿態(tài)引導(dǎo)的行人重識(shí)別特征fp。實(shí)驗(yàn)結(jié)果表明,同時(shí)考慮這兩個(gè)特征將帶來(lái)最好的效果。連接這兩個(gè)特征可以得到fcat,即本文所使用的姿態(tài)引導(dǎo)的行人重識(shí)別的全身特征。
圖1 本文模型的流程Fig.1 Flow of the proposed model
Head Tracking 21(HT21)[2]是擁擠場(chǎng)景下行人頭部跟蹤的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集中,每一幀的平均頭部數(shù)量達(dá)到了178,因此非常適合評(píng)估擁擠場(chǎng)景下的行人頭部跟蹤。與MOT Challenge[8]的其他數(shù)據(jù)集一樣,該測(cè)試集的標(biāo)注也不開(kāi)放,因此只能在官方提供的服務(wù)器上提交測(cè)試。與HT21 相同,本文采用了誤檢數(shù)(False Positive,F(xiàn)P)和漏檢數(shù)(False Negative,F(xiàn)N)來(lái)評(píng)估檢測(cè)性能指標(biāo),并利用IDs(ID switch)數(shù)量來(lái)評(píng)估多目標(biāo)跟蹤器跟蹤性能指標(biāo);此外,為了綜合評(píng)估檢測(cè)和跟蹤性能,還使用了MOTA[7]和IDF1[8]對(duì)模型進(jìn)行綜合評(píng)估。為了評(píng)價(jià)動(dòng)態(tài)全身框生成的性能,本文不僅采用了平均精度均值(mean Average Precision,mAP)指標(biāo),還計(jì)算了動(dòng)態(tài)全身框生成的AP50 和AP75,這是因?yàn)锳P50 和AP75只有在預(yù)測(cè)值與真實(shí)值IOU 大于0.5 和0.75 時(shí)才作為一次命中,因此能夠更準(zhǔn)確地刻畫(huà)所生成檢測(cè)框的緊致程度。
本文使用了DLA-34[23]作為頭部檢測(cè)器的骨干網(wǎng)絡(luò),模型的參數(shù)首先在Crowdhuman 數(shù)據(jù)集[27]進(jìn)行訓(xùn)練作為初始化,然后在Head Tracking 21 的訓(xùn)練集上面訓(xùn)練了30 個(gè)epoch進(jìn)行微調(diào),模型的批處理大小設(shè)置為12。對(duì)于姿態(tài)引導(dǎo)的行人重識(shí)別網(wǎng)絡(luò),采用Resnet-50 作為骨干網(wǎng)絡(luò),使用Alphapose[25]生成人體姿態(tài)估計(jì)結(jié)果。本文在CrowdHuman 數(shù)據(jù)集訓(xùn)練動(dòng)態(tài)行人全身框生成網(wǎng)絡(luò),這是因?yàn)镃rowdHuman 數(shù)據(jù)集有對(duì)同一個(gè)人的行人頭部和全身框的標(biāo)注。為了加快推理,本文使用Resnet-18 作為R-CNN 的骨干網(wǎng)絡(luò)。使用Adam[28]訓(xùn)練器并且采用0.000 1 的學(xué)習(xí)率訓(xùn)練8 個(gè)epoch 之后收斂。在跟蹤模型中,本文發(fā)現(xiàn)λ=0 可以得到最好的結(jié)果,這意味著在親和矩陣的計(jì)算中,只使用表觀特征就可以得到最好的結(jié)果。這是因?yàn)樾腥说念^部位置波動(dòng)較大,因此在采用較好的位置閾值之后就無(wú)需再使用位置作為關(guān)聯(lián)的親和矩陣的計(jì)算。本文設(shè)置Td=30 來(lái)得到最佳的關(guān)聯(lián)的性能。
為了驗(yàn)證全身特征相較于行人頭部特征的優(yōu)越性,本文設(shè)計(jì)了以下消融實(shí)驗(yàn):使用行人頭部的行人重識(shí)別特征來(lái)作為跟蹤的線(xiàn)索。此外,使用全身特征引入了兩個(gè)模塊:動(dòng)態(tài)的全身框的生成和姿態(tài)引導(dǎo)的行人重識(shí)別特征生成。本文分別對(duì)這兩個(gè)模塊進(jìn)行了消融實(shí)驗(yàn)。
3.3.1 全身特征與行人頭部特征
如表1 所示,與使用行人頭部的行人重識(shí)別的特征相比,HT-FF 使用了全身的重識(shí)別特征,有更少的IDs,意味著本文的模型更不容易丟失同一身份的目標(biāo)框。盡管行人頭部的表觀特征更加符合直覺(jué),本文的實(shí)驗(yàn)結(jié)果表明全身的表觀特征更加魯棒,能夠在困難的跟蹤場(chǎng)景下保有身份信息。
表1 消融實(shí)驗(yàn)結(jié)果Tab.1 Ablation experimental results
3.3.2 姿態(tài)引導(dǎo)的表觀特征
如表1 所示,不使用姿態(tài)作為引導(dǎo),而是直接提取的表觀特征的跟蹤模型獲得了更差的跟蹤結(jié)果,這是因?yàn)樵诿芗瘓?chǎng)景下,行人的全身框之間存在大量的相互覆蓋,進(jìn)而給行人重識(shí)別帶來(lái)了更多噪聲,使用姿態(tài)可以更好地消除這些噪聲,使模型關(guān)注行人的可見(jiàn)區(qū)域。
3.3.3 動(dòng)態(tài)生成全身框
如表1 所示,采用固定比例生成的全身框相較于動(dòng)態(tài)的全身框生成的結(jié)果也會(huì)帶來(lái)更多的IDs。在接下來(lái)的一節(jié)中,本文將會(huì)詳細(xì)講述固定比例生成全身框的模型,并且展示動(dòng)態(tài)生成行人全身框相較于固定比例生成全身框在生成精度上面的優(yōu)越性。
動(dòng)態(tài)生成全身框的模塊首先會(huì)通過(guò)一個(gè)固定的比例來(lái)生成一個(gè)錨框,然后通過(guò)R-CNN 的回歸分支對(duì)錨框進(jìn)行修正。本文報(bào)告了所提出的模型在CrowdHuman 驗(yàn)證集上的檢測(cè)精度。為了驗(yàn)證本文使用的回歸分支對(duì)于行人全身框的生成確實(shí)有幫助,本文也測(cè)試了通過(guò)固定比例生成的目標(biāo)框在CrowdHuman 驗(yàn)證集上的精度。經(jīng)過(guò)調(diào)優(yōu),本文發(fā)現(xiàn)如下的固定比例生成的全身框具有最好的檢測(cè)精度:
如表2 所示,本文設(shè)計(jì)的動(dòng)態(tài)生成全身框的模型可以輸出更加精確的目標(biāo)框,固定比例生成全身框的模型得到的MAP 值低于動(dòng)態(tài)生成的MAP 值。此外,本文模型在AP75 上遠(yuǎn)高于固定比例模型,AP75 只有在預(yù)測(cè)與GT(Ground Truth)的交并比(Intersetion Over Union,IOU)大于0.75 時(shí)才算命中,這意味著本文模型可以生成緊致地包圍身體邊緣的全身框。
表2 固定比例生成全身框與動(dòng)態(tài)生成全身框的精度對(duì)比 單位:%Tab.2 Precision comparison between fixed ratio full-body bounding box generation and adaptive full-body bounding box generation unit:%
與其他MOT challenge 上的數(shù)據(jù)集相同,HT 21 的測(cè)試集并不公開(kāi),因此只能提交到服務(wù)器進(jìn)行測(cè)試。如表3 所示,本文模型在MOTA 和IDF1 上超過(guò)了對(duì)比模型,說(shuō)明本文模型相較于前人模型更有效。
表3 不同模型在Head Tracking 21測(cè)試集上的結(jié)果對(duì)比Tab.3 Results comparison of different models on Head Tracking 21 test set
表3 為使用不同的行人頭部檢測(cè)模型的結(jié)果,這可能給MOTA 和IDF1 的指標(biāo)帶來(lái)不公平的對(duì)比。為了說(shuō)明融合全身信息的行人頭部跟蹤模型的有效性,本文使用了同樣的檢測(cè)結(jié)果輸入不同的跟蹤器中。與文獻(xiàn)[2]相同,本文在訓(xùn)練集上對(duì)這些結(jié)果進(jìn)行對(duì)比。如表4 所示,在使用同樣的檢測(cè)結(jié)果的前提下,本文模型超過(guò)了SORT(Simple Online and Realtime Tracking)[29]和HeadHunter-T[2],驗(yàn)證了本文設(shè)計(jì)的跟蹤模型的有效性。
表4 使用同樣的行人頭部檢測(cè)結(jié)果的跟蹤結(jié)果Tab.4 Tracking result based on same detection results
3.7.1 動(dòng)態(tài)生成全身框
為了直觀展示本文模型子模塊的有效性,在圖2 可視化了動(dòng)態(tài)的全身框生成結(jié)果??梢钥吹剑疚哪P涂梢陨删o致地包圍身體邊緣的目標(biāo)框。
圖2 動(dòng)態(tài)生成全身框結(jié)果Fig.2 Results of dynamic full-body bounding box generation
3.7.2 人體姿態(tài)估計(jì)熱力圖的可視化
本文可視化了人體姿態(tài)估計(jì)得到的熱力圖,如圖3 所示,熱力圖很好地刻畫(huà)了全身框在遮擋情況下的可見(jiàn)區(qū)域。
圖3 姿態(tài)估計(jì)熱力圖的可視化結(jié)果Fig.3 Visualization results of pose estimation heatmaps
3.7.3 行人頭部跟蹤結(jié)果
此外,圖4 將HeadHunter-T[2]模型與本文模型的結(jié)果進(jìn)行了可視化。由于HeadHunter-T 只利用了頭框的表觀特征作為特征,可以看到,在距離較遠(yuǎn)的情況下,HeadHunter-T 更容易發(fā)生ID switch,因而跟蹤結(jié)果較差。
圖4 本文模型與HeadHunter-T對(duì)比(圖中幀選自序列HT21-01)Fig.4 Comparison of the proposed model and HeadHunter-T(frames on image are selected from sequence HT21-01)
3.7.4 全身跟蹤結(jié)果
圖5 展示了本文設(shè)計(jì)的模型在MOT20 上提交的結(jié)果,MOT20 是密集場(chǎng)景下行人全身跟蹤的基準(zhǔn)數(shù)據(jù)集,利用頭框動(dòng)態(tài)生成全身框,可以得到全身跟蹤的結(jié)果。
圖5 本文模型在MOT20測(cè)試集上的結(jié)果Fig.5 Results of the proposed model on MOT20 test set
本文提出了一種新型的融合全身表觀特征的行人頭部跟蹤模型HT-FF,設(shè)計(jì)了動(dòng)態(tài)的全身檢測(cè)框生成網(wǎng)絡(luò)和姿態(tài)引導(dǎo)的表觀特征提取網(wǎng)絡(luò),實(shí)現(xiàn)了利用行人全身檢測(cè)框內(nèi)的全局表觀特征為線(xiàn)索進(jìn)行行人頭部的跟蹤。所設(shè)計(jì)的模型在行人頭部跟蹤的基準(zhǔn)數(shù)據(jù)集上驗(yàn)證了有效性并達(dá)到了當(dāng)前最好的效果。
本文提出的全身表觀特征引導(dǎo)的行人頭部跟蹤HT-FF與傳統(tǒng)模型的本質(zhì)區(qū)別是使用了不同部件的位置與特征線(xiàn)索分別建模運(yùn)動(dòng)與表觀特征,這是行人多目標(biāo)跟蹤中的一個(gè)新的范式。在未來(lái),將會(huì)探究如何找到更全面的線(xiàn)索,以及設(shè)計(jì)如何自動(dòng)發(fā)掘這些有用線(xiàn)索的機(jī)制。