亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)Fairmot 框架的多目標(biāo)跟蹤

2022-09-01 08:53:14席一帆何立明

液晶與顯示 2022年6期

席一帆，何立明，呂悅

（長(zhǎng)安大學(xué) 信息工程學(xué)院，陜西西安 7100064）

1 引言

多目標(biāo)跟蹤最初源于雷達(dá)技術(shù)的研究。在軍事上，數(shù)據(jù)關(guān)聯(lián)算法利用目標(biāo)的位置和運(yùn)動(dòng)信息進(jìn)行軌跡和觀測(cè)目標(biāo)的匹配。近年來(lái)，隨著我國(guó)視頻監(jiān)控和無(wú)人駕駛行業(yè)的飛速發(fā)展，基于視頻的多目標(biāo)跟蹤技術(shù)顯得尤為重要。多目標(biāo)跟蹤根據(jù)初始化的方式劃分為基于檢測(cè)跟蹤的流程和基于人工初始化的跟蹤流程。由于基于人工初始化的跟蹤無(wú)法處理軌跡的生成和消亡，因此基于檢測(cè)的跟蹤為當(dāng)前的主流方式?；跈z測(cè)的跟蹤包括目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)，兩者功能相互獨(dú)立，但卻在關(guān)系上緊密聯(lián)系，良好的檢測(cè)器能為數(shù)據(jù)關(guān)聯(lián)提供較好的觀測(cè)結(jié)果。

早期的目標(biāo)檢測(cè)主要依靠人工設(shè)計(jì)的特征訓(xùn)練支持向量機(jī)進(jìn)行分類。2005 年，Dala［1］利用HOG 特征來(lái)訓(xùn)練分類器；2008 年，DPM［2］檢測(cè)器依據(jù)改進(jìn)HOG 特征，采用根濾波器和部件濾波器在多尺度金字塔上滑動(dòng)檢測(cè)；2014 年，隨著深度學(xué)習(xí)的興起，傳統(tǒng)的目標(biāo)檢測(cè)方式被逐漸取代；R-CNN［3］在傳統(tǒng)目標(biāo)檢測(cè)方式的基礎(chǔ)上，以卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器，訓(xùn)練支持向量機(jī)；Fast-RCNN［4］是首個(gè)利用全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)檢測(cè)器。Faster-RCNN［5］提出區(qū)域建議網(wǎng)絡(luò)，對(duì)任意尺度輸入的圖像都會(huì)生成一組后選框，首次引入錨框機(jī)制，速度比Fast-RCNN 快一個(gè)數(shù)量級(jí)。YOLO［6-9］系列框架主要基于錨框（Anchor）機(jī)制，將目標(biāo)的位置和尺寸視為回歸問(wèn)題，該系列框架檢測(cè)速度快，但錨框機(jī)制存在正負(fù)樣本不均衡，超參數(shù)管理復(fù)雜等缺點(diǎn)。近些年，基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)逐漸興起，Cornernet［10］通過(guò)利用目標(biāo)的左上角點(diǎn)和右下角點(diǎn)對(duì)目標(biāo)進(jìn)行定位。Centernet［11］通過(guò)中心點(diǎn)對(duì)目標(biāo)的尺寸、位置和中心點(diǎn)的偏移量進(jìn)行預(yù)測(cè)，擁有更高的檢測(cè)效率。

數(shù)據(jù)關(guān)聯(lián)負(fù)責(zé)將目標(biāo)的軌跡與觀測(cè)目標(biāo)進(jìn)行匹配。數(shù)據(jù)關(guān)聯(lián)算法分為確定性優(yōu)化算法和概率推斷算法。確定性優(yōu)化算法將其建模成優(yōu)化問(wèn)題，通過(guò)優(yōu)化算法解決匹配問(wèn)題。二分圖匹配模型［12］、動(dòng)態(tài)規(guī)劃［13］、最小成本最大流網(wǎng)絡(luò)模型［14］、條件隨機(jī)場(chǎng)［15］和最大權(quán)值獨(dú)立集模型［16］屬于確定性的優(yōu)化模型。概率推斷模型基于現(xiàn)有的觀測(cè)狀態(tài)估計(jì)目標(biāo)狀態(tài)的概率分布?？柭鼮V波［17］、擴(kuò)展卡爾曼濾波［18］和粒子濾波［19］屬于概率推斷模型。

端到端的多目標(biāo)跟蹤框架近些年飛速發(fā)展，將目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)都用神經(jīng)網(wǎng)絡(luò)來(lái)處理，使得網(wǎng)絡(luò)的訓(xùn)練效率得到提升。DAN［20］跨幀提取特征，計(jì)算親和性矩陣，并用交并比信息作為掩模進(jìn)行匹配。DeepMOT［21］根據(jù)匈牙利算法不可微分的特點(diǎn)，通過(guò)MOTA 和MOTP 的跟蹤指標(biāo)創(chuàng)建損失函數(shù)，訓(xùn)練深度匈牙利網(wǎng)絡(luò)替代數(shù)據(jù)關(guān)聯(lián)。DMAN［22］提出空間注意力模塊和時(shí)間注意力模塊，空間注意力模塊匹配兩幅圖像空間相同區(qū)域，時(shí)間注意力模塊對(duì)歷史軌跡分配不同的權(quán)重，濾除不可靠的軌跡。本文基于檢測(cè)與數(shù)據(jù)關(guān)聯(lián)的Fairmot［23］框架，提出一種改進(jìn)算法，提高對(duì)目標(biāo)對(duì)象的跟蹤精度。

2 Fairmot 基本框架

Fairmot 框架的目標(biāo)檢測(cè)部分包括主干網(wǎng)絡(luò)、目標(biāo)檢測(cè)分支和行人重識(shí)別分支。數(shù)據(jù)關(guān)聯(lián)部分采用DeepSort［24］框架進(jìn)行匹配。

2.1 主干網(wǎng)絡(luò)

Fairmot 框架采用改進(jìn)后深度聚合網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)，該特征提取網(wǎng)絡(luò)采用可變形卷積適應(yīng)不同尺度目標(biāo)。通過(guò)不同層級(jí)的跳級(jí)連接進(jìn)行語(yǔ)義信息和空間信息融合，使深度聚合網(wǎng)絡(luò)以目標(biāo)尺度、分辨率為關(guān)注點(diǎn)。

2.2 目標(biāo)檢測(cè)分支

視頻幀經(jīng)過(guò)主干網(wǎng)絡(luò)會(huì)產(chǎn)生下采樣4 倍的特征圖，當(dāng)目標(biāo)的中心點(diǎn)預(yù)測(cè)結(jié)果映射回原圖時(shí)會(huì)產(chǎn)生4 個(gè)像素的誤差，因此通過(guò)中心點(diǎn)預(yù)測(cè)偏移

圖1 Fairmot 框架Fig.1 Fairmot framework

2.3 行人重識(shí)別分支

2.4 數(shù)據(jù)關(guān)聯(lián)

數(shù)據(jù)關(guān)聯(lián)部分采用DeepSort 框架。如圖2所示，DeepSort 首先通過(guò)級(jí)聯(lián)匹配得到最初的匹配軌跡集合、未匹配的檢測(cè)集合和未匹配的軌跡集合，然后將級(jí)聯(lián)匹配結(jié)果中的未匹配軌跡集合和未匹配檢測(cè)集合進(jìn)行IOU 匹配得到最終的匹配結(jié)果。

匹配的軌跡集合作為觀測(cè)結(jié)果進(jìn)行卡爾曼濾波更新，經(jīng)過(guò)IOU 匹配得到的未匹檢測(cè)框集合。如果連續(xù)3 幀都匹配上軌跡，則認(rèn)為是新的軌跡，然后進(jìn)行卡爾曼濾波更新。最終的未匹配集合依據(jù)狀態(tài)來(lái)判斷該軌跡是否消亡。卡爾曼濾波更新得到的軌跡若為確認(rèn)態(tài)則送入級(jí)聯(lián)匹配，否則送入IOU 匹配。圖2 右下角為部分視頻的兩次匹配結(jié)果。

圖2 數(shù)據(jù)關(guān)聯(lián)框架Fig.2 Data association framework

2.5 卡爾曼濾波

卡爾曼濾波主要分為兩個(gè)階段，分別為預(yù)測(cè)和更新階段?？柭鼮V波的預(yù)測(cè)階段負(fù)責(zé)對(duì)目標(biāo)狀態(tài)均值和協(xié)方差進(jìn)行預(yù)測(cè)，如式（7）和式（8）所示：

式（10）中K為卡爾曼濾波增益，x?k和Pk為經(jīng)過(guò)反饋調(diào)節(jié)后的最優(yōu)軌跡值和協(xié)方差。實(shí)驗(yàn)中使用的狀態(tài)變量為x=[u，v，r，h，u?，v?，r?，h?]T，(u，v)表示行人的中心點(diǎn)位置，r為框尺寸的長(zhǎng)寬比，h為高，其余4 個(gè)分量表示其速度分量，實(shí)驗(yàn)中的狀態(tài)轉(zhuǎn)移矩陣和觀測(cè)矩陣為：

各協(xié)方差的初始狀態(tài)設(shè)置為：

3 基于Fairmot 的改進(jìn)

針對(duì)Fairmot 框架的主干網(wǎng)絡(luò)產(chǎn)生的高維信息缺乏維度之間的信息交互問(wèn)題，采用三重注意力機(jī)制，提高對(duì)目標(biāo)中心點(diǎn)的定位能力和特征提取能力；且由于行人重識(shí)別分支的Softmax 損失函數(shù)優(yōu)化缺乏靈活性，采用Cirlce Loss 根據(jù)當(dāng)前的狀態(tài)選擇優(yōu)化程度，使其提取更為精確的身份嵌入向量。

3.1 三重注意力機(jī)制

針對(duì)深度聚合網(wǎng)絡(luò)后端高維信息缺乏維度間信息交互的問(wèn)題，通過(guò)三重注意力機(jī)制［25］（圖3）進(jìn)行維度間信息交互。該機(jī)制能分別從(C，H)，(C，W)，(H，W)維度捕捉信息產(chǎn)生注意力掩模。其中的Z-Pool 模塊通過(guò)最大池化和平均池化將特征圖的第0 維度的通道數(shù)降至2，使特征圖保持豐富語(yǔ)義信息的同時(shí)，進(jìn)一步簡(jiǎn)化計(jì)算量。其公式如式（16）所示：

Z-Pool=[MaxPool0d(x)，AvgPool0d(x)].（16）

第一條分支將輸入的特征圖（C×H×W）以H為軸進(jìn)行逆時(shí)針旋轉(zhuǎn)90°得到（W×H×C）的特征圖，首先通過(guò)Z-Pool 單元得到（2×H×C），再利用k×k的標(biāo)準(zhǔn)卷積層、批歸一化層和Sig?moid 激活函數(shù)層產(chǎn)生（1×H×C）的注意力掩模，然后通過(guò)殘差連接與（W×H×C）的特征圖元素相乘得到通道維度與空間高維度的注意力熱圖，再將特征圖進(jìn)行順時(shí)針旋轉(zhuǎn)90°得到（C×H×W），第二條分支與其類似。第三條分支只需捕捉空間維度的信息，無(wú)需旋轉(zhuǎn)，得到空間注意力效果圖。最后通過(guò)將3 條分支的注意力熱圖進(jìn)行平均得到最終的注意力效果圖。圖3 分別給出了不同維度注意力掩膜作用后的注意效果圖，該效果圖是將四維張量在第1 維度壓縮可視化得到的，展示了不同維度信息交互的過(guò)程與結(jié)果。

圖3 三重注意力機(jī)制Fig.3 Triplet attention mechanism

3.2 Circle Loss

深度學(xué)習(xí)的目標(biāo)是將類內(nèi)特征的相似度最大化，類間特征的相似度最小化，因此Circle Loss［26］概括出一個(gè)統(tǒng)一的損失函數(shù)表達(dá)式：

該損失函數(shù)對(duì)sn和sp優(yōu)化梯度相等，反向傳播時(shí)的懲罰項(xiàng)是一樣的，因此不利于尋找最優(yōu)點(diǎn)，優(yōu)化方式缺乏靈活性。Cirlce Loss 提供一個(gè)能夠靈活優(yōu)化目標(biāo)的損失函數(shù)，其公式如式（19）所示：

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

實(shí)驗(yàn)運(yùn)行環(huán)境為Ubuntu 16.04 操作系統(tǒng)，GPU 型號(hào)為：2 塊NVIDIA GeForce GTX 1080TI（11G 顯存），基于Pytorch 1.3 深度學(xué)習(xí)框架。采用的數(shù)據(jù)集為MOT 數(shù)據(jù)集，MOT 數(shù)據(jù)集分為MOT15、MOT16 和MOT17，該數(shù)據(jù)集包含了靜止或者移動(dòng)拍攝、低中高角度拍攝以及黑夜等復(fù)雜的環(huán)境。實(shí)驗(yàn)首先在CrowedHuman 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，然后通過(guò)MOT16 的訓(xùn)練集進(jìn)行訓(xùn)練，在MOT15 的訓(xùn)練集進(jìn)行消融實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)在MOT15 的訓(xùn)練集訓(xùn)練，通過(guò)MOT15 測(cè)試集測(cè)試。實(shí)驗(yàn)超參數(shù)設(shè)置如表1 所示，實(shí)驗(yàn)評(píng)價(jià)指標(biāo)如表2 所示。

表1 實(shí)驗(yàn)超參數(shù)設(shè)置Tab.1 Experimental hyperparameter settings

表2 多目標(biāo)跟蹤評(píng)價(jià)指標(biāo)Tab.2 Multi-target tracking evaluation index

4.2 消融實(shí)驗(yàn)

對(duì)Fairmot 模型、采用注意力機(jī)制的Fairmot（Fairmot+A）模型和采用Circle Loss 和注意力機(jī)制的Fairmot（Fairmot+A+CL）模型進(jìn)行實(shí)驗(yàn)，結(jié)果如表3 所示。

表3 3 種模型的消融實(shí)驗(yàn)在MOT15 訓(xùn)練集上的測(cè)試結(jié)果Tab.3 Ablation experiments of the three models tested on the MOT15 training set

采用三重注意力機(jī)制后，MOTA 得到了1.1%的提升，且身份切換次數(shù)明顯降低。注意力機(jī)制能夠提供更可靠的目標(biāo)檢測(cè)，從而提升跟蹤精度。Fairmot+A+CL 在采用Circle Loss 后相比原模型在MOTA 上提升3.3%，且在MOTP、MT、ML、FM 等指標(biāo)上明顯優(yōu)于原模型。但Fair?mot+A+CL 模型與Fairmot+A 模型相比，IDS指標(biāo)上升許多，可能采用Circle Loss 之后對(duì)多任務(wù)學(xué)習(xí)目標(biāo)檢測(cè)分支的性能產(chǎn)生影響，產(chǎn)生漏檢或虛檢現(xiàn)象，使改進(jìn)后的模型身份切換指標(biāo)上升。

圖4 展示了3 種模型的跟蹤能力對(duì)比。對(duì)于圖4（a）藍(lán)色箭頭所指的女士，F(xiàn)airmot 模型上只在第一個(gè)視頻幀中檢測(cè)到該女士，在后續(xù)的視頻幀中出現(xiàn)部分遮擋未檢測(cè)出該行人。待遮擋結(jié)束時(shí)，行人身份發(fā)生切換。Fairmot+A 模型在前兩幅視頻幀中跟蹤到該女士，采用注意力機(jī)制能夠明顯提高其跟蹤精度，但在遮擋結(jié)束時(shí)，行人的身份發(fā)生切換。Fairmot+A+CL 模型在全程視頻幀中均跟蹤到該女士?？梢?，引入Circle Loss 之后，增強(qiáng)了行人重識(shí)別分支的特征提取能力，使其能夠提取更精確的表觀特征。

圖4 3 種模型在MOT15 訓(xùn)練集上的測(cè)試結(jié)果Fig.4 Test results of the three models on the MOT15 training set

4.3 對(duì)比實(shí)驗(yàn)

如表4 所示，改進(jìn)后的模型在MOTA、IDF1和MT 上要明顯優(yōu)于其他4 種模型。與原模型相比，MOTA 提升1.4%，MT 得到稍許提升。引入注意力機(jī)制和Cirle Loss 之后，提高了對(duì)目標(biāo)的定位能力和跟蹤能力，使得提取的表觀特征更具區(qū)分性。

表4 5 種模型在MOT15 測(cè)試集上的對(duì)比實(shí)驗(yàn)Tab.4 Comparative experiments of five models on the MOT15 test set

如圖5 所示，改進(jìn)模型在目標(biāo)檢測(cè)和跟蹤上明顯優(yōu)于其他4 種模型。對(duì)遠(yuǎn)處的小目標(biāo)，改進(jìn)模型跟蹤效果最佳。在第195 幀中，改進(jìn)模型能準(zhǔn)確檢測(cè)出坐在左側(cè)的行人，而原模型卻未檢測(cè)出，表明三重注意力機(jī)制和Circle Loss 增強(qiáng)了對(duì)目標(biāo)的定位能力和表觀特征表達(dá)能力，產(chǎn)生了較好的跟蹤效果（圖6）。

圖5 5 種模型在MOT15 測(cè)試集上的對(duì)比效果圖Fig.5 Comparison of the five models on the MOT15 test set

圖6 軌跡跟蹤功能展示Fig.6 Display of trajectory tracking function

5 結(jié) 論

本文對(duì)Fairmot 框架提出兩種改進(jìn)措施，首先利用三重注意力機(jī)制提高對(duì)高維信息的維度交互能力，產(chǎn)生精確定位；然后通過(guò)Circle Loss損失函數(shù)優(yōu)化行人重識(shí)別分支，使其根據(jù)當(dāng)前距最優(yōu)點(diǎn)的距離選擇優(yōu)化目標(biāo)和程度，提取更精確的表觀特征。實(shí)驗(yàn)結(jié)果表明，本文所提模型明顯優(yōu)于其他模型，在MOT15 測(cè)試集上的跟蹤精度為62%，IDF1 提升至65.1%，身份切換降低68次。但是對(duì)于長(zhǎng)時(shí)間遮擋的目標(biāo)，本文方法會(huì)發(fā)生身份切換，產(chǎn)生較多的軌跡碎片，未來(lái)將著重研究長(zhǎng)時(shí)遮擋問(wèn)題以及模型壓縮問(wèn)題。